Tokenizer - Aussia

Visualiseur de Transformer Responsive

Visualiseur de Transformer

Entrez une courte phrase et cliquez sur « Analyser » pour voir les étapes internes du modèle.

Poids totaux : ~82,000,000

Composant	Formule	Poids
Embedding?Technique: Matrices de plongement lexical (WE) + positionnel (WPE). Vulgarisé: Le grand dictionnaire qui transforme les IDs des mots et leurs positions en vecteurs de départ.	`(50257768)+(1024768)`	~39.4 M
Attention (Q, K, V)?Technique: Matrices de poids pour les requêtes (Query), clés (Key), et valeurs (Value) pour les 6 couches. Vulgarisé: Les « cerveaux » qui apprennent comment les mots doivent s’interroger les uns les autres pour trouver le contexte pertinent.	`(7687683)*6`	~10.6 M
Attention (Output)?Technique: Matrice de projection de sortie de l’attention pour les 6 couches. Vulgarisé: Combine les informations de contexte récoltées par l’attention pour finaliser le nouveau vecteur du mot.	`(768768)6`	~3.5 M
Perceptron (FFN)?Technique: Deux matrices (Up & Down-projection) pour les couches feed-forward dans les 6 couches. Vulgarisé: Le « temps de réflexion » de chaque mot après l’attention pour enrichir son sens.	`(7683072+3072768)*6`	~28.3 M
Unembedding?Technique: Matrice de dé-plongement (WU). Vulgarisé: Le « décodeur » final qui transforme le vecteur du dernier mot en scores pour tout le vocabulaire. Ses poids sont partagés avec l’Embedding.	(Partagés)	0

50 257 : Le nombre de tokens (mots/symboles) que le modèle connaît.

768 : La dimension de chaque vecteur, sa « richesse » sémantique.

1024 : La taille maximale du contexte (nombre de tokens).

6 couches : Le nombre de fois que le cycle « Attention ↔ FFN » est répété.

Modèle utilisé : distilgpt2