« Les cerveaux de Google explorent les profondeurs de la vallée de l’étrange avec le dernier outil de conversion d’images en vidéos. »

Google a un nouveau tour de passe-passe en matière d’IA qui peut animer une photo fixe en utilisant simplement un enregistrement de la voix d’une personne, et ça élargit vraiment la vallée étrange. Surnommé VLOGGER dans un article [PDF] par un sextet de chercheurs de Google (sans aucune explication sur le nom), l’outil prétendument ne nécessite aucun entraînement par personne, détection de visage ou autre ajustement. Donnez-lui une photo en gros plan et un enregistrement audio de la longueur souhaitée, et il se met au travail. « Notre objectif est de combler l’écart entre les récents efforts de synthèse vidéo, qui peuvent générer des vidéos dynamiques sans aucun contrôle sur l’identité ou la posture, et les méthodes de génération d’image contrôlable », indiquent les chercheurs dans l’article. « Des industries comme la création de contenu, le divertissement ou le jeu ont toutes un grand besoin de synthèse humaine, pourtant la création de vidéos réalistes d’êtres humains reste complexe et pleine d’artefacts. » Peut-être que VLOGGER fait aussi bien que les chercheurs semblent le croire est discutable. Les lecteurs d’El Reg peuvent décider par eux-mêmes en regardant les vidéos postées sur la page GitHub du projet et sur X. Bien qu’impressionnants, aucun des exemples ne sont susceptibles de tromper qui que ce soit – il y a toujours quelque chose d’incroyablement irréaliste à leur sujet. Malgré cela, les chercheurs ont déclaré que VLOGGER surpasse les mesures de qualité d’image de pointe, la préservation de l’identité et la cohérence temporelle à travers trois benchmarks publics, et pourrait être utilisé pour « non seulement faciliter les processus créatifs, mais aussi permettre de nouveaux cas d’utilisation, tels que la communication en ligne améliorée, l’éducation, ou des assistants virtuels personnalisés ».

Share the Post: