« Le ‘Ferret’ d’Apple est un nouveau modèle d’apprentissage automatique open-source. »

Droits d’auteur © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité Un furet sauvage [Pixabay/Michael Sehlmeyer] Des chercheurs travaillant pour Apple et Cornell University ont discrètement lancé en octobre une LLM multimodale et open-source appelée « Ferret », capable d’utiliser des régions d’images pour des requêtes.
L’introduction sur Github en octobre est passée largement inaperçue, sans annonce ni fanfare. Le code de Ferret a été publié aux côtés de Ferret-Bench le 30 octobre, avec des mises à jour introduites le 14 décembre.
Bien qu’il n’ait pas reçu beaucoup d’attention au début, cette publication est devenue plus importante pour les chercheurs en IA, selon VentureBeat. Bart De Witte, responsable d’une organisation à but non lucratif en IA médicale, a posté à propos de la publication « manquée », qualifiant cela de « témoignage de l’engagement d’Apple envers la recherche IA à impact ».
La mise en open-source de Ferret est réalisée sous une licence non commerciale, ce qui signifie qu’il ne peut pas être commercialisé dans son état actuel. Cependant, il y a toujours une possibilité pour qu’il soit utilisé dans un futur produit ou service d’Apple d’une manière ou d’une autre.
Un tweet d’octobre du scientifique en recherche IA/ML chez Apple, Zhe Gan, explique l’utilisation de Ferret comme étant un système capable de « référencer et d’ancrer n’importe quoi n’importe où à n’importe quelle granularité » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région à l’intérieur d’une image.
En termes plus simples, le modèle peut examiner une région dessinée sur une image, déterminer les éléments qu’elle contient et qui sont utiles pour une requête de l’utilisateur, les identifier, et tracer une boîte englobant l’élément détecté. Il peut ensuite utiliser cet élément identifié comme élément d’une requête, à laquelle il peut ensuite répondre de manière habituelle.
Par exemple, en mettant en évidence une image d’un animal dans une image et en demandant à la LLM de quel animal il s’agit, elle pourrait déterminer l’espèce de la créature et que l’utilisateur fait référence à un animal individuel faisant partie d’un groupe. Elle pourrait ensuite utiliser le contexte des autres éléments détectés dans l’image pour proposer d’autres réponses.
Présentation de Ferret, un nouveau MLLM capable de référencer et d’ancrer n’importe quoi n’importe où à n’importe quelle granularité. https://t.co/gED9Vu0I4y1 Ferret permet de référencer une région d’image de n’importe quelle forme2. Il montre souvent une meilleure compréhension précise des petites régions d’image que GPT-4V (section 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) 12 octobre 2023 Cette publication est importante pour les chercheurs, car elle montre qu’Apple est désireuse de se montrer plus ouverte quant à ses travaux en IA, plutôt que de maintenir son attitude habituelle de secret.
Il y a aussi le problème de l’infrastructure pour Apple, car bien qu’elle travaille à augmenter le nombre de serveurs d’IA qu’elle possède, elle peut ne pas avoir actuellement l’échelle nécessaire pour rivaliser avec ChatGPT, par exemple. Bien qu’Apple puisse travailler avec d’autres entreprises pour étendre ses capacités, l’autre option est de faire ce qu’elle vient de faire, à savoir publier un modèle en open-source.
Dans un élément intéressant de la publication Github, Reddit’s r/Apple a remarqué que Ferret était « entraîné sur 8 GPU A100 avec 80 Go de mémoire. » Étant donné l’histoire d’Apple avec le support des GPU Nvidia, cela a été perçu comme une reconnaissance rare du fabricant de GPU. La présentation en octobre sur Github est passée largement inaperçue, sans annonce ni fanfare. Le code de Ferret a été publié aux côtés de Ferret-Bench le 30 octobre, avec des mises à jour introduites le 14 décembre.

Share the Post: