‘Ferret’ d’Apple est un nouveau modèle open-source d’apprentissage machine

Copyright © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité
Un furet dans la nature [Pixabay / Michael Sehlmeyer] Les chercheurs travaillant pour Apple et de l’Université Cornell ont discrètement poussé une LLM multimodale open-source en octobre, une version de recherche appelée « Ferret » qui peut utiliser des régions d’images pour des requêtes.

L’introduction en octobre sur Github est passée largement inaperçue, sans annonce ni tapage publicitaire à son introduction. Le code de Ferret a été publié avec Ferret-Bench le 30 octobre, avec des versions de contrôle introduites le 14 décembre.

Si elle n’a pas reçu beaucoup d’attention au début, la version est devenue un sujet plus important pour les chercheurs en IA le samedi, selon VentureBeat. Bart De Witte, exploitant d’une ONG IA en médecine, a posté sur X à propos de la « version manquée », appelant cela un « témoignage de l’engagement d’Apple envers une recherche en IA impactante ».

La publication de Ferret en open-source se fait sous licence non commerciale, de sorte qu’elle ne peut pas être commercialisée dans son état actuel. Cependant, il y a toujours une possibilité qu’elle soit utilisée d’une manière ou d’une autre dans un futur produit ou service Apple.

Un tweet d’octobre du scientifique en recherche IA/ML d’Apple Zhe Gan explique l’utilisation de Ferret comme étant un système qui peut « faire référence et ancrer quelque chose n’importe où à n’importe quelle granularité » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région dans une image.

En termes plus simples, le modèle peut examiner une région tracée sur une image, déterminer les éléments à l’intérieur qui sont utiles à un utilisateur dans une requête, l’identifier et tracer une boîte englobante autour de l’élément détecté. Il peut ensuite utiliser cet élément identifié comme partie d’une requête, à laquelle il peut ensuite répondre de manière typique.

Par exemple, en mettant en évidence une image d’un animal dans une image et en demandant à la LLM quel est l’animal, elle peut déterminer l’espèce de la créature et que l’utilisateur fait référence à un animal individuel d’un groupe. Elle peut ensuite utiliser le contexte d’autres éléments détectés dans l’image pour offrir d’autres réponses.

Présentation de Ferret, un nouveau MLLM qui peut faire référence et ancrer quelque chose n’importe où à n’importe quelle granularité. https://t.co/gED9Vu0I4y1 Ferret permet la référence d’une région d’image sous n’importe quelle forme2 Il montre souvent une meilleure compréhension précise de petites régions d’image que GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc

— Zhe Gan (@zhegan4) 12 octobre 2023

La version est importante pour les chercheurs, car elle montre que Apple souhaite être plus ouverte sur son travail en IA, plutôt que sa position habituellement secrète.

Il y a aussi le problème de l’infrastructure pour Apple, car si elle travaille à augmenter le nombre de serveurs IA qu’elle possède, elle ne peut peut-être pas avoir l’échelle disponible pour le moment pour travailler côte à côte avec ChatGPT, par exemple. Bien que Apple puisse travailler avec d’autres entreprises pour augmenter ses capacités, l’autre voie est de faire ce qu’elle vient de faire, à savoir publier un modèle open-source.

Dans un élément intéressant de la version Github, r/Apple de Reddit a repéré que Ferret est « formé sur 8 cartes A100 GPU avec 80 Go de mémoire ». Compte tenu de l’historique d’Apple en matière de support de GPU Nvidia, cela a été considéré comme une rare reconnaissance du fabricant de GPU.

L’introduction en octobre sur Github est passée largement inaperçue, sans annonce ni tapage publicitaire à son introduction. Le code de Ferret a été publié avec Ferret-Bench le 30 octobre, avec des versions de contrôle introduites le 14 décembre.

Share the Post: