Google a introduit VideoPOET, ouvrant la voie à une nouvelle génération de vidéos cohérentes.

Last updated on janvier 10th, 2024 at 04:19 pm

Après que l’IA Copilot de Microsoft ait acquis la capacité de générer des clips audio à partir de textes, Google a lancé VideoPoet, un grand modèle de langage (LLM) qui pousse les limites de la génération de vidéos avec des clips de 10 secondes qui produisent moins d’artefacts. Le modèle prend en charge une gamme de tâches de génération de vidéos, notamment la conversion texte-vidéo, la transformation image-vidéo, la stylisation vidéo, le remplissage et les fonctionnalités audio-vidéo. Contrairement à ses prédécesseurs, VideoPoet se démarque par sa capacité à générer des vidéos cohérentes avec de grands mouvements. Le modèle met en œuvre ses capacités en produisant des vidéos de dix secondes de longueur, laissant derrière lui ses concurrents, y compris Gen-2. Notamment, VideoPoet ne s’appuie pas sur des données spécifiques pour la génération de vidéos, ce qui le distingue des autres modèles qui nécessitent une entrée détaillée pour des résultats optimaux. Cette polyvalence est rendue possible grâce à l’utilisation d’un modèle large multi-modal, le positionnant sur une trajectoire potentielle pour devenir la norme en matière de génération de vidéos. Le VideoPOET de Google s’écarte de la tendance prédominante en matière de génération de modèles vidéo, qui repose principalement sur des approches de diffusion. Au lieu de cela, VideoPoet utilise la puissance de grands modèles de langage (LLM). Le modèle intègre de manière transparente diverses tâches de génération de vidéos dans un seul LLM, ce qui élimine la nécessité de composants entraînés séparément pour chaque fonction. Les vidéos résultantes présentent une longueur variable et des actions et styles diversifiés en fonction du contenu du texte d’entrée. De plus, VideoPoet peut convertir des images d’entrée en animations en fonction des indices fournis, mettant en œuvre sa capacité d’adaptation à différentes entrées.

Share the Post:

SpaceX entre en bourse aujourd’hui dans la plus grande IPO de l’histoire, Google brise la barrière des langues avec Gemini 3.5 Live Translate et Anthropic affronte OpenAI dans une course à l’IPO sans précédent

SpaceX fait son entrée au Nasdaq ce 12 juin 2026 à 135 dollars l’action pour une valorisation de 1 800 milliards de dollars. Google lance Gemini 3.5 Live Translate, la traduction vocale en temps réel dans 70 langues. Anthropic et OpenAI se livrent une bataille féroce pour dominer le marché de l’IA avant leurs IPO respectives. Décryptage et recommandations par Netz Informatique, votre partenaire technologique à Haguenau.

En savoir plus

Anthropic alerte sur l’IA qui se construit elle-même, Wall Street corrige violemment les valeurs IA et la France découvre que ses enseignants ne sont pas formés au numérique

Anthropic publie une étude majeure sur l’auto-amélioration récursive de l’IA : Claude écrit déjà 80 % de son propre code. Wall Street subit un sell-off brutal sur les valeurs IA (-2 % Nasdaq). SpaceX fixe le prix de la plus grande IPO de l’histoire à 135 dollars. Le rapport de la DEPP révèle le retard français en éducation numérique. Analyse et recommandations par Netz Informatique, votre partenaire technologique à Haguenau.

En savoir plus

Anthropic lance Claude Fable 5 et pulvérise tous les records, OpenAI dépose son dossier d’IPO et SpaceX lève 75 milliards dans la plus grande introduction en bourse de l’histoire

Anthropic dévoile Claude Fable 5, premier modèle Mythos-class accessible au public et nouveau numéro un mondial. OpenAI dépose son S-1 confidentiel pour une IPO à 1 000 milliards. SpaceX est massivement sursouscrite à 1,8 trillion de dollars. L’UE répond à Apple sur le blocage de Siri AI. Analyse et recommandations par Netz Informatique, votre partenaire technologique à Haguenau.

En savoir plus

Siri AI bloqué en Europe par le DMA, Tim Cook fait ses adieux en larmes et 46 % des dirigeants français cachent leur usage de l’IA : le bilan de la WWDC 2026

Apple dévoile Siri AI lors de la WWDC 2026, mais l’Europe en est privée à cause du DMA. Tim Cook livre son dernier keynote en tant que CEO. Parallèlement, une étude Sharp révèle que 46 % des dirigeants français pratiquent le Shadow AI. Analyse et recommandations par Netz Informatique, votre partenaire technologique à Haguenau.

En savoir plus

Apple réinvente Siri avec Gemini et ouvre l’iPhone à trois IA concurrentes, OpenAI déclare « le chat est mort » et prépare sa superapp, et xAI décroche un contrat fédéral à 0,42 dollar par agence

WWDC 2026 : Apple dévoile un Siri reconstruit sur Google Gemini (1,2 trillion de paramètres) et permet aux utilisateurs de choisir entre ChatGPT, Gemini et Claude sur iPhone. OpenAI prépare la transformation de ChatGPT en superapp avec agents et coding. xAI place Grok dans toutes les agences fédérales US pour 0,42$ chacune. SpaceX fixe le prix de son IPO jeudi. Analyse Netz Informatique.

En savoir plus

C’est officiel : Orange, Bouygues et Free rachètent SFR pour 20,35 milliards d’euros, Trump veut que les Américains détiennent des parts dans OpenAI et un chatbot IA pirate des milliers de comptes Instagram

Accord historique signé : la France passe de 4 à 3 opérateurs télécoms avec le rachat de SFR par Orange, Bouygues et Free. Trump propose que les citoyens américains détiennent des parts dans les labs IA. OpenAI lance Lockdown Mode contre les injections de prompt. Un chatbot Meta exploité pour pirater des milliers de comptes Instagram. Analyse Netz Informatique.

En savoir plus

Microsoft lance 7 modèles IA propriétaires et rompt avec OpenAI, Claude écrit 80 % de son propre code et le Nasdaq plonge de 4,2 % : le point tech du 6 juin 2026

Microsoft dévoile ses 7 modèles MAI dont MAI-Thinking-1, son premier modèle de raisonnement sans aucune distillation tierce. Anthropic révèle que Claude écrit 80 % de son code et appelle à un mécanisme de pause mondiale. Le Nasdaq chute de 4,2 %, pire séance depuis avril 2025. Nvidia RTX Spark promet de réinventer le PC portable. Décryptage Netz Informatique.

En savoir plus

Anthropic appelle à une pause mondiale du développement IA, le Canada investit 2,3 milliards dans sa souveraineté et Trump impose la cyberdéfense IA aux agences fédérales

Anthropic demande une pause coordonnée du développement des IA les plus puissantes face aux risques d’auto-amélioration récursive. Le Canada lance sa stratégie « AI for All » à 2,3 milliards de dollars. Le décret Trump impose la cyberdéfense IA en 30 jours. Microsoft Build 2026 transforme Windows en plateforme d’agents. Décryptage Netz Informatique pour les entreprises alsaciennes.

En savoir plus