Voici ce qui se passe réellement à l’intérieur du réseau neuronal d’un LLM.

Maintenant, de nouvelles recherches d’Anthropic offrent une nouvelle perspective sur ce qui se passe à l’intérieur de la « boîte noire » du Claude LLM. Le nouveau document de l’entreprise sur « Extraction de caractéristiques interprétables du Sonnet 3 du Claude » décrit une méthode puissante pour expliquer au moins partiellement comment les millions de neurones artificiels du modèle se déclenchent pour créer des réponses étonnamment réalistes à des requêtes générales. Lors de l’analyse d’un LLM, il est trivial de voir quels neurones artificiels spécifiques sont activés en réponse à une requête particulière. Mais les LLM ne stockent pas simplement des mots ou des concepts différents dans un seul neurone. Au lieu de cela, comme le soulignent les chercheurs d’Anthropic, « il s’avère que chaque concept est représenté à travers de nombreux neurones, et chaque neurone est impliqué dans la représentation de nombreux concepts. » Pour démêler ce désordre un-à-plusieurs et plusieurs-à-un, un système d’auto-encodeurs clairsemés et de mathématiques complexes peut être utilisé pour exécuter un algorithme d’apprentissage de dictionnaire à travers le modèle. Ce processus met en lumière quels groupes de neurones ont tendance à être activés de manière plus cohérente pour les mots spécifiques qui apparaissent à travers diverses incitations textuelles. Ces schémas de neurones multidimensionnels sont ensuite triés en prétendues « caractéristiques » associées à certains mots ou concepts. Ces caractéristiques peuvent englober n’importe quoi, des simples noms propres tels que le pont du Golden Gate à des concepts plus abstraits tels que les erreurs de programmation ou la fonction d’addition en code informatique, et représentent souvent le même concept à travers de multiples langues et modes de communication (par exemple, texte et images).

Share the Post: