Adieu les logiciels complexes, place au montage conversationnel
Vous avez toujours rêvé de retoucher un clip sans passer des heures à dompter des logiciels de montage professionnels et leurs réglages techniques rébarbatifs ? C’est précisément la promesse de Google. Avec le déploiement de son premier modèle baptisé Gemini Omni Flash, l’intelligence artificielle passe de la simple génération d’images fixes à une véritable direction artistique de contenus animés haute définition. Même s’il reste essentiel de maîtriser certaines bases pour réussir un montage vidéo pro directement sur son téléphone, l’IA s’apprête à bouleverser toutes nos habitudes de création sur mobile.
Concrètement, l’outil s’impose comme un moteur de mise en scène. Le processus devient totalement fluide et itératif : chaque instruction textuelle ou vocale que vous donnez s’appuie directement sur la précédente. Vous pouvez ainsi importer une séquence que vous avez filmée vous-même et demander à l’interface de modifier un arrière-plan, de changer l’éclairage général ou d’ajouter un objet au milieu de l’action.
- Variété des entrées : Vous pouvez combiner simultanément du texte, des images de référence, des pistes audio et des vidéos existantes.
- Cohérence absolue : L’IA conserve les visages, l’ambiance et le style visuel au fil de vos requêtes successives.
- Matière éditable : Plus besoin de régénérer un clip entier pour corriger un minuscule détail, vous discutez directement avec le chatbot pour affiner le résultat.
Une IA boostée par la physique intuitive et les World Models
Là où les anciens générateurs comme Veo se contentaient de créer de belles images animées parfois absurdes, Gemini Omni intègre des concepts directement inspirés des « World Models ». L’objectif affiché par Sundar Pichai est de relier le langage, l’imagerie et le sens profond d’une scène pour s’assurer que l’intelligence artificielle comprenne réellement le monde qui nous entoure.
L’outil dispose ainsi d’une compréhension intuitive des forces de la nature. Qu’il s’agisse de la gravité, de l’énergie cinétique ou de la dynamique des fluides, les mouvements générés respectent les lois de la physique réelle. Les reflets restent cohérents d’un plan à l’autre et les trajectoires des objets s’avèrent totalement plausibles.
« Gemini Omni associe une compréhension intuitive de la physique aux connaissances de Gemini en histoire, en sciences et en contexte culturel », explique le directeur de Google.
Cette incroyable base de connaissances transforme d’ailleurs l’outil en un véritable assistant pédagogique. Lors d’une démonstration, un internaute a demandé au chatbot d’expliquer la photosynthèse : Gemini Omni a immédiatement généré une vidéo explicative de 45 secondes ultra-pédagogique avec un narrateur et des visuels dédiés.
Le clone numérique et le partenariat surprise avec CapCut
Au-delà du simple montage, les fonctionnalités présentées bousculent totalement la création de contenu sur smartphone. Google introduit notamment la possibilité de vous scanner pour créer un double numérique ultra-réaliste. Cet avatar IA est capable de s’exprimer dans vos vidéos en reproduisant fidèlement votre propre voix à partir d’un simple script écrit.
Pour enfoncer le clou et toucher directement la jeune génération de créateurs, une collaboration inattendue vient d’être officialisée avec CapCut, l’application incontournable éditée par ByteDance (la maison-mère de TikTok). Ce partenariat va permettre d’intégrer les outils créatifs et les fonctionnalités d’édition de CapCut directement au sein de l’application Gemini via son interface conversationnelle.
Cette alliance reste une surprise de taille dans le secteur de la tech, puisque TikTok est en rivalité frontale avec YouTube Shorts, la plateforme de Google qui va précisément intégrer Gemini Omni pour ses fonctions de remix.
L’Europe encore laissée sur la touche
Si la tech mondiale s’enflamme pour ces annonces, la douche est un peu froide pour les utilisateurs français. Le déploiement de Gemini Omni Flash débute immédiatement pour les abonnés payants aux offres Google AI (Plus, Pro, Ultra), mais le public européen se retrouve une nouvelle fois mis de côté pour une durée indéterminée.
En raison des réglementations locales strictes de l’Union européenne sur les données et l’intelligence artificielle, plusieurs fonctionnalités majeures, notamment l’utilisation d’une vidéo personnelle en entrée (vidéo-à-vidéo) et la création d’avatars personnalisés, restent bloquées sur notre continent.
Pour rassurer les observateurs face à la menace des deepfakes, Google intègre d’office sa technologie SynthID. Il s’agit d’un filigrane numérique invisible à l’œil nu, déjà testé sur le modèle d’images Nano Banana, permettant de tracer et de certifier qu’une séquence vidéo a été modifiée ou générée par une IA.








