Visualiseur de Transformer
Entrez une courte phrase et cliquez sur « Analyser » pour voir les étapes internes du modèle.
Décomposition des Paramètres : distilgpt2
Poids totaux : ~82,000,000
| Composant | Formule | Poids |
|---|---|---|
| Embedding?Technique: Matrices de plongement lexical (WE) + positionnel (WPE). Vulgarisé: Le grand dictionnaire qui transforme les IDs des mots et leurs positions en vecteurs de départ. | (50257*768)+(1024*768) | ~39.4 M |
| Attention (Q, K, V)?Technique: Matrices de poids pour les requêtes (Query), clés (Key), et valeurs (Value) pour les 6 couches. Vulgarisé: Les « cerveaux » qui apprennent comment les mots doivent s’interroger les uns les autres pour trouver le contexte pertinent. | (768*768*3)*6 | ~10.6 M |
| Attention (Output)?Technique: Matrice de projection de sortie de l’attention pour les 6 couches. Vulgarisé: Combine les informations de contexte récoltées par l’attention pour finaliser le nouveau vecteur du mot. | (768*768)*6 | ~3.5 M |
| Perceptron (FFN)?Technique: Deux matrices (Up & Down-projection) pour les couches feed-forward dans les 6 couches. Vulgarisé: Le « temps de réflexion » de chaque mot après l’attention pour enrichir son sens. | (768*3072+3072*768)*6 | ~28.3 M |
| Unembedding?Technique: Matrice de dé-plongement (WU). Vulgarisé: Le « décodeur » final qui transforme le vecteur du dernier mot en scores pour tout le vocabulaire. Ses poids sont partagés avec l’Embedding. | (Partagés) | 0 |
50 257 : Le nombre de tokens (mots/symboles) que le modèle connaît.
768 : La dimension de chaque vecteur, sa « richesse » sémantique.
1024 : La taille maximale du contexte (nombre de tokens).
6 couches : Le nombre de fois que le cycle « Attention ↔ FFN » est répété.
Modèle utilisé : distilgpt2
