‘Le « Ferret » d’Apple est un nouveau modèle d’apprentissage automatique open-source.

Droits d’auteur © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité Un furet dans la nature [Pixabay/Michael Sehlmeyer] Des chercheurs travaillant pour Apple et de l’Université Cornell ont discrètement publié en octobre un LLM multimodal open source, une publication de recherche appelée « Ferret » qui peut utiliser des régions d’images pour des requêtes. L’introduction en octobre sur Github est passée largement inaperçue, sans annonce ni fanfare pour sa présentation. Le code de Ferret a été publié en même temps que Ferret-Bench le 30 octobre, avec des versions de contrôle introduites le 14 décembre. Bien qu’il n’ait pas reçu beaucoup d’attention au départ, la publication est devenue plus importante pour les chercheurs en IA le samedi, rapporte VentureBeat. Bart De Witte, responsable d’une organisation à but non lucratif en IA dans le domaine médical, a publié sur X à propos de la publication « manquée », la qualifiant de « témoignage de l’engagement d’Apple dans la recherche en IA ayant un impact ». La publication de Ferret en open source est effectuée sous une licence non commerciale, il ne peut donc pas être commercialisé dans son état actuel. Cependant, il y a toujours une possibilité pour qu’il soit utilisé dans un futur produit ou service d’Apple d’une manière quelconque. Un tweet d’octobre de Zhe Gan, chercheur scientifique en IA/ML chez Apple, explique l’utilisation de Ferret comme étant un système pouvant « référer et ancrer n’importe quoi n’importe où avec n’importe quelle granularité » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région à l’intérieur d’une image. En termes simples, le modèle peut examiner une région tracée sur une image, déterminer les éléments utiles à un utilisateur dans une requête, les identifier et dessiner une boîte délimitant l’élément détecté. Il peut ensuite utiliser cet élément identifié comme partie d’une requête, à laquelle il peut ensuite répondre de manière typique. Par exemple, en surlignant une image d’animal dans une image et en demandant au LLM de quel animal il s’agit, il pourrait déterminer l’espèce de la créature et que l’utilisateur fait référence à un animal individuel d’un groupe. Il pourrait ensuite utiliser le contexte des autres éléments détectés dans l’image pour proposer d’autres réponses. Présentation de Ferret, un nouveau MLLM capable de référer et ancrer n’importe quoi n’importe où avec n’importe quelle granularité. https://t.co/gED9Vu0I4y1 Ferret permet de référer une région d’une image de n’importe quelle forme. Il montre souvent une compréhension plus précise des petites régions d’image que GPT-4V (sec. 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) 12 octobre 2023 La publication est importante pour les chercheurs, car elle montre que Apple est désireuse d’être plus ouverte avec son travail en IA, plutôt que de maintenir sa position habituellement secrète. Il y a aussi le problème de l’infrastructure pour Apple, car bien qu’il travaille pour augmenter le nombre de serveurs d’IA qu’il possède, il pourrait ne pas avoir l’échelle disponible pour rivaliser avec ChatGPT, par exemple. Bien qu’Apple puisse travailler avec d’autres entreprises pour étendre ses capacités, l’autre solution consiste à faire ce qu’il vient de faire, c’est-à-dire publier un modèle open source. Dans un élément intéressant de la publication sur Github, r/Apple de Reddit a remarqué que Ferret était « entraîné sur 8 GPU A100 avec 80 Go de mémoire ». Étant donné l’histoire d’Apple en matière de prise en charge de GPU Nvidia, il s’agissait d’une rare reconnaissance du fabricant de GPU.
La présentation en octobre sur Github est passée largement inaperçue, sans annonce ni fanfare pour sa présentation. Le code de Ferret a été publié en même temps que Ferret-Bench le 30 octobre, avec des versions de contrôle introduites le 14 décembre.

Share the Post: