Droits d’auteur © 2024, Quiller Media, Inc. Contactez-nous | Politique de confidentialité Un furet à l’état sauvage [Pixabay/Michael Sehlmeyer] Des chercheurs travaillant pour Apple et de l’Université Cornell ont discrètement publié un modèle multimodal LLM en source ouverte en octobre, une version de recherche appelée « Ferret » qui peut utiliser des régions d’images pour des requêtes.
L’introduction en octobre sur Github est passée largement inaperçue, sans annonce ni trompettes pour son introduction. Le code de Ferret a été publié aux côtés de Ferret-Bench le 30 octobre, avec des versions de vérification introduites le 14 décembre.
Bien qu’elle n’ait pas reçu beaucoup d’attention au début, la publication est devenue plus importante pour les chercheurs en IA samedi, rapporte VentureBeat. Bart De Witte, exploitant d’une organisation à but non lucratif en IA en médecine, a posté sur X à propos de la publication « manquée », la qualifiant de « témoignage de l’engagement d’Apple dans la recherche en IA ayant un impact ».
La publication de Ferret en source ouverte est réalisée sous une licence non commerciale, elle ne peut donc pas être commercialisée dans son état actuel. Cependant, il est toujours possible qu’elle soit utilisée dans un futur produit ou service d’Apple d’une manière ou d’une autre.
Un tweet d’octobre du chercheur scientifique en IA/ML d’Apple, Zhe Gan, explique l’utilisation de Ferret comme étant un système qui peut « se référer et ancrer n’importe quoi n’importe où avec n’importe quelle granularité » dans une image. Il peut également le faire en utilisant n’importe quelle forme de région à l’intérieur d’une image.
En termes plus simples, le modèle peut examiner une région dessinée sur une image, déterminer les éléments utiles à un utilisateur dans une requête, les identifier et dessiner un cadre autour de l’élément détecté. Il peut ensuite utiliser cet élément identifié comme partie d’une requête, à laquelle il peut ensuite répondre de manière typique.
Par exemple, en mettant en évidence une image d’un animal dans une image et en demandant à l’LLM quel est cet animal, il pourrait déterminer l’espèce de la créature et que l’utilisateur fait référence à un animal individuel d’un groupe. Il pourrait ensuite utiliser le contexte des autres éléments détectés dans l’image pour proposer d’autres réponses.
Présentation de Ferret, un nouveau MLLM qui peut se référer et ancrer n’importe quoi n’importe où avec n’importe quelle granularité. https://t.co/gED9Vu0I4y1 Ferret permet de se référer à une région d’une image quelconque. Il offre souvent une meilleure compréhension précise des petites régions d’image comparé à GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) 12 octobre 2023 La publication est importante pour les chercheurs, car elle montre qu’Apple est désireuse d’être plus ouverte avec son travail en IA, plutôt que de maintenir sa position habituelle de secret.
Il y a aussi le problème de l’infrastructure pour Apple, car bien qu’elle travaille à augmenter le nombre de serveurs d’IA qu’elle possède, elle pourrait ne pas avoir l’échelle disponible pour rivaliser avec ChatGPT, par exemple. Bien qu’Apple puisse travailler avec d’autres entreprises pour étendre ses capacités, l’autre solution consiste à faire ce qu’elle vient de faire, c’est-à-dire publier un modèle en source ouverte.
Dans un élément intéressant de la publication sur Github, r/Apple de Reddit a remarqué que Ferret était « entraîné sur 8 A100 GPUs avec 80 Go de mémoire. » Étant donné l’historique d’Apple en matière de support des GPU Nvidia, cela a été considéré comme une reconnaissance rare du producteur de GPU. L’introduction en octobre sur Github est passée largement inaperçue, sans annonce ni trompettes pour son introduction. Le code de Ferret a été publié aux côtés de Ferret-Bench le 30 octobre, avec des versions de vérification introduites le 14 décembre.
Équilibrer la Numérisation et la Sobriété Numérique dans la Formation Professionnelle : Solutions Actuelles et Besoins Émergents
La formation professionnelle tout au long de la vie (FTLV) connaît une transformation significative dans le contexte actuel de numérisation