Maintenant, de nouvelles recherches d’Anthropic offrent une nouvelle perspective sur ce qui se passe à l’intérieur de la « boîte noire » du Claude LLM. Le nouveau document de l’entreprise sur « Extraction de caractéristiques interprétables du Sonnet 3 du Claude » décrit une méthode puissante pour expliquer au moins partiellement comment les millions de neurones artificiels du modèle se déclenchent pour créer des réponses étonnamment réalistes à des requêtes générales. Lors de l’analyse d’un LLM, il est trivial de voir quels neurones artificiels spécifiques sont activés en réponse à une requête particulière. Mais les LLM ne stockent pas simplement des mots ou des concepts différents dans un seul neurone. Au lieu de cela, comme le soulignent les chercheurs d’Anthropic, « il s’avère que chaque concept est représenté à travers de nombreux neurones, et chaque neurone est impliqué dans la représentation de nombreux concepts. » Pour démêler ce désordre un-à-plusieurs et plusieurs-à-un, un système d’auto-encodeurs clairsemés et de mathématiques complexes peut être utilisé pour exécuter un algorithme d’apprentissage de dictionnaire à travers le modèle. Ce processus met en lumière quels groupes de neurones ont tendance à être activés de manière plus cohérente pour les mots spécifiques qui apparaissent à travers diverses incitations textuelles. Ces schémas de neurones multidimensionnels sont ensuite triés en prétendues « caractéristiques » associées à certains mots ou concepts. Ces caractéristiques peuvent englober n’importe quoi, des simples noms propres tels que le pont du Golden Gate à des concepts plus abstraits tels que les erreurs de programmation ou la fonction d’addition en code informatique, et représentent souvent le même concept à travers de multiples langues et modes de communication (par exemple, texte et images).
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle
Les Problèmes Communs Rencontrés par la Société dans l’Utilisation Efficace des Derniers Développements de l’Intelligence Artificielle Introduction L’intelligence artificielle (IA)