Droits d’auteur © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité Un furet dans la nature [Pixabay/Michael Sehlmeyer] Des chercheurs travaillant pour Apple et de l’Université Cornell ont discrètement publié en octobre un LLM multimodal open source intitulé « Ferret » qui peut utiliser des régions d’images pour des requêtes.
L’introduction en octobre sur Github est largement passée inaperçue, sans annonce ni fanfare. Le code de Ferret a été publié aux côtés de Ferret-Bench le 30 octobre, avec des versions de contrôle introduites le 14 décembre.
Bien qu’elle n’ait pas reçu beaucoup d’attention au début, la publication est devenue plus importante pour les chercheurs en IA samedi, rapporte VentureBeat. Bart De Witte, responsable d’une organisation à but non lucratif dans le domaine de l’IA en médecine, a écrit sur X à propos de la publication « manquée », la qualifiant de « témoignage de l’engagement d’Apple dans la recherche en IA ayant un impact ».
La publication de Ferret en open source est réalisée sous une licence non commerciale, il ne peut donc pas être commercialisé dans son état actuel. Cependant, il y a toujours une possibilité qu’il soit utilisé dans un futur produit ou service d’Apple d’une manière ou d’une autre.
Un tweet d’octobre de Zhe Gan, scientifique de la recherche en IA/ML chez Apple, explique que Ferret est un système qui peut « référer et ancrer n’importe quoi n’importe où avec n’importe quelle granularité » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région dans une image.
En termes plus simples, le modèle peut examiner une région dessinée sur une image, déterminer les éléments qu’elle contient qui sont utiles à un utilisateur dans une requête, les identifier et dessiner un cadre autour de l’élément détecté. Il peut ensuite utiliser cet élément identifié comme partie d’une requête, à laquelle il peut ensuite répondre de manière typique.
Par exemple, en mettant en évidence une image d’un animal dans une image et en demandant à l’LLM quel est cet animal, il pourrait déterminer l’espèce de la créature et que l’utilisateur se réfère à un animal individuel d’un groupe. Il pourrait ensuite utiliser le contexte des autres éléments détectés dans l’image pour offrir d’autres réponses.
Présentation de Ferret, un nouveau MLLM qui peut référer et ancrer n’importe quoi n’importe où avec n’importe quelle granularité. https://t.co/gED9Vu0I4y1 Ferret permet la référence d’une région de l’image avec n’importe quelle forme2 Il montre souvent une meilleure compréhension précise des petites régions de l’image que GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) 12 octobre 2023 La publication est importante pour les chercheurs, car elle montre qu’Apple est désireuse d’être plus ouverte avec son travail en IA, plutôt que de rester silencieuse comme d’habitude.
Il y a aussi le problème de l’infrastructure pour Apple, car bien qu’il travaille pour augmenter le nombre de serveurs d’IA qu’il possède, il peut ne pas avoir l’échelle disponible pour rivaliser avec ChatGPT, par exemple. Bien qu’Apple puisse travailler avec d’autres entreprises pour développer ses capacités, l’autre solution consiste à faire ce qu’il vient de faire, c’est-à-dire publier un modèle open source.
Dans un élément intéressant de la publication sur Github, Reddit’s r/Apple a remarqué que Ferret est « entraîné sur 8 GPU A100 avec 80 Go de mémoire ». Étant donné l’histoire d’Apple en matière de support des GPU Nvidia, cela a été considéré comme une rare reconnaissance du fabricant de GPU.
‘NVIDIA Avance l’Apprentissage Robotique et le Développement Humanoid avec de Nouveaux Outils d’IA et de Simulation’
Cette semaine à la Conférence sur l’apprentissage des robots (CoRL) à Munich, en Allemagne, NVIDIA a divulgué une pléthore de