‘Ferret’ d’Apple est un nouveau modèle d’apprentissage automatique en open source.

Droits d’auteur © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité Un furet sauvage [Pixabay/Michael Sehlmeyer] Des chercheurs travaillant pour Apple et de l’Université de Cornell ont discrètement publié un LLM multimodal open-source en octobre, une version de recherche appelée « Ferret » qui peut utiliser des régions d’images pour des requêtes.
Son introduction en octobre sur Github est passée largement inaperçue, sans annonce ni fanfare. Le code de Ferret a été publié avec Ferret-Bench le 30 octobre, avec des versions de vérification introduites le 14 décembre.
Bien qu’il n’ait pas reçu beaucoup d’attention au départ, la sortie est devenue plus importante pour les chercheurs en IA samedi, selon VentureBeat. Bart De Witte, responsable d’une organisation à but non lucratif en IA en médecine, a publié un message sur X à propos de la publication « ratée », la qualifiant de « témoignage de l’engagement d’Apple envers la recherche en IA ayant un impact ».
La mise en open-source de Ferret est effectuée sous licence non commerciale, donc il ne peut pas être commercialisé dans son état actuel. Cependant, il existe toujours une possibilité qu’il soit utilisé dans un produit ou service futur d’Apple d’une manière ou d’une autre.
Un tweet d’octobre du chercheur en IA/ML d’Apple, Zhe Gan, explique l’utilisation de Ferret comme étant un système pouvant « se référer et ancrer n’importe quoi, n’importe où, avec n’importe quelle précision » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région dans une image.
En termes plus simples, le modèle peut examiner une région dessinée sur une image, déterminer les éléments qui y sont utiles pour un utilisateur dans une requête, les identifier et dessiner une boîte englobante autour de l’élément détecté. Il peut ensuite utiliser cet élément identifié comme partie de la requête, à laquelle il peut ensuite répondre de manière typique.
Par exemple, en mettant en évidence une image d’animal dans une image et en demandant à LLM quel est l’animal, il pourrait déterminer l’espèce de la créature et que l’utilisateur fait référence à un animal individuel d’un groupe. Il pourrait ensuite utiliser le contexte des autres éléments détectés dans l’image pour offrir d’autres réponses.
Présentation de Ferret, un nouveau MLLM qui peut se référer et ancrer n’importe quoi, n’importe où, avec n’importe quelle précision. https://t.co/gED9Vu0I4y1 Ferret permet de se référer à une région d’une image de n’importe quelle forme2 Il montre souvent une meilleure compréhension précise des petites régions d’images que GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) 12 octobre 2023 La sortie est importante pour les chercheurs, car elle montre qu’Apple est désireuse d’être plus ouverte avec son travail en IA, plutôt que de rester dans sa position habituelle de secret.
Il y a aussi le problème de l’infrastructure pour Apple, car bien qu’il travaille à augmenter le nombre de serveurs d’IA qu’il possède, il se peut qu’il n’ait pas actuellement l’échelle nécessaire pour rivaliser avec ChatGPT, par exemple. Bien qu’Apple puisse travailler avec d’autres entreprises pour développer ses capacités, l’autre solution est de faire ce qu’il vient de faire, c’est-à-dire publier un modèle open-source.
Un élément intéressant de la sortie sur Github, repéré par Reddit’s r/Apple, est que Ferret est « entraîné sur 8 GPU A100 avec 80 Go de mémoire ». Étant donné l’historique d’Apple en ce qui concerne le support des GPU Nvidia, cela a été considéré comme une rare reconnaissance du fabricant de GPU. L’introduction en octobre sur Github est passée largement inaperçue, sans annonce ni fanfare. Le code de Ferret a été publié avec Ferret-Bench le 30 octobre, avec des versions de vérification introduites le 14 décembre.

Share the Post: