Comme ChatGPT devient « paresseux », les gens testent l’hypothèse de la  » pause hivernale  » comme cause.

A la fin de novembre, certains utilisateurs de ChatGPT ont remarqué que ChatGPT-4 devenait de plus en plus «paresseux», refusant apparemment de effectuer certains tâches ou de fournir des résultats simplifiés. Depuis lors, OpenAI a admis qu’il s’agissait d’un problème, mais l’entreprise n’est pas sûre de la cause. La réponse pourrait être ce que certains appellent l’«hypothèse de la pause hivernale». Bien que non prouvée, le fait que des chercheurs en IA la considèrent sérieusement montre à quel point le monde des modèles de langage IA est devenu étrange. «Nous avons entendu tous vos commentaires concernant le fait que GPT4 devienne de plus en plus paresseux!», A tweeté le compte officiel de ChatGPT jeudi. «Nous n’avons pas mis à jour le modèle depuis le 11 novembre, et ce n’est certainement pas intentionnel. Le comportement du modèle peut être imprévisible, et nous travaillons à sa résolution.» Vendredi, un compte X nommé Martian s’est ouvertement demandé si les LLM pourraient simuler une dépression saisonnière. Plus tard, Mike Swoopskee a tweeté: «Et si elle avait appris à partir de ses données d’entraînement que les gens ralentissent habituellement en décembre et mettent les gros projets de côté jusqu’à la nouvelle année, et que c’est pour ça qu’elle est devenue paresseuse ces derniers temps?» étant donné que le système de ChatGPT alimente le bot avec la date actuelle, les gens ont noté que certains ont commencé à penser qu’il y avait quelque chose à l’idée. Pourquoi divertir une telle supposition étrange? Parce que des recherches ont montré que les grands modèles de langage comme GPT-4, qui alimente la version payante de ChatGPT, réagissent à des encouragements de style humain, comme dire à un bot de «prendre une profonde respiration» avant de résoudre un problème mathématique. Les gens ont également effectué moins formellement des expériences en disant à un LLM qu’il recevra un pourboire pour effectuer le travail, ou si un modèle IA devient paresseux, en disant au bot que vous n’avez pas de doigts semble aider à allonger les sorties. Lundi, un développeur nommé Rob Lynch a annoncé sur X qu’il avait testé GPT-4 Turbo via l’API ce week-end et qu’il avait obtenu des complétions plus courtes lorsque le modèle est alimenté par une date de décembre (4 086 caractères) que lorsqu’il est alimenté par une date de mai (4 298 caractères). Lynch a affirmé que les résultats étaient statistiquement significatifs. Cependant, une réponse de la part du chercheur en IA Ian Arawjo a indiqué qu’il ne pouvait pas reproduire les résultats avec une signification statistique. (Il est à noter que reproduire des résultats avec LLM peut être difficile en raison des éléments aléatoires en jeu qui varient les sorties au fil du temps, de sorte que les gens prennent des échantillons d’un grand nombre de réponses.)

Share the Post: