Copyright © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité Un furet dans la nature [Pixabay / Michael Sehlmeyer] Les chercheurs travaillant pour Apple et de l’Université Cornell ont discrètement poussé un multimodal LLM open-source en octobre, une publication de recherche intitulée « Ferret » qui peut utiliser des régions d’images pour des requêtes.
La introduction en octobre à Github a largement passé inaperçue, sans annonce ni fanfare pour son introduction. Le code pour Ferret a été publié aux côtés de Ferret-Bench le 30 octobre, avec des publications de point de contrôle introduites le 14 décembre.
Si elle n’a pas reçu beaucoup d’attention au début, la publication est devenue plus importante pour les chercheurs en IA samedi, selon VentureBeat. Bart De Witte, opérateur d’une organisation à but non lucratif d’IA en médecine, a posté sur X à propos de la « publication manquée », appelant cela un « témoignage du engagement d’Apple envers une recherche en IA impactante ».
La publication de Ferret en open-source est effectuée sous une licence non commerciale, de sorte qu’elle ne peut pas être commercialisée dans son état actuel. Cependant, il y a toujours une possibilité qu’elle soit utilisée d’une manière ou d’une autre dans un futur produit ou service Apple.
Un tweet d’octobre du chercheur en IA / ML d’Apple Zhe Gan explique l’utilisation de Ferret comme étant un système qui peut « faire référence et ancrer n’importe quoi n’importe où à n’importe quelle granularité » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région dans une image.
En termes plus simples, le modèle peut examiner une région dessinée sur une image, déterminer les éléments à l’intérieur qui sont utiles à un utilisateur dans une requête, l’identifier et tracer une boîte de contour autour de l’élément détecté. Il peut ensuite utiliser cet élément identifié comme partie d’une requête, à laquelle il peut ensuite répondre de manière typique.
Par exemple, en mettant en évidence une image d’animal dans une image et en demandant à l’LLM ce que c’est, il pourrait déterminer l’espèce de la créature et que l’utilisateur fait référence à un animal individuel d’un groupe. Il pourrait ensuite utiliser le contexte d’autres éléments détectés dans l’image pour offrir des réponses supplémentaires.
La publication est importante pour les chercheurs, car elle montre que Apple souhaite être plus ouverte sur son travail en IA, plutôt que sur sa position habituellement secrète.
Il y a aussi le problème de l’infrastructure pour Apple, car si elle travaille à augmenter le nombre de serveurs IA qu’elle possède, elle ne peut peut-être pas avoir l’échelle nécessaire pour travailler côte à côte avec ChatGPT, par exemple. Bien que Apple puisse travailler avec d’autres entreprises pour faire évoluer ses fonctionnalités, l’autre voie est de faire ce qu’elle vient de faire, à savoir publier un modèle open-source.
Dans un élément intéressant de la publication Github, le sous-reddit r/Apple a repéré que Ferret est « formé sur 8 GPUs A100 avec 80 Go de mémoire ». Compte tenu de l’historique d’Apple en matière de prise en charge de GPU Nvidia, cela a été considéré comme un rare hommage au fabricant de GPU.
La introduction en octobre à Github largely flew under the radar, with no announcement or fanfare for its introduction. The code for Ferret was released alongside Ferret-Bench on October 30, with checkpoint releases introduced on December 14.