Les générateurs de vidéos IA s’améliorent rapidement et deviennent plus largement disponibles, avec Veo 2 de Google désormais intégré à l’application Gemini pour quiconque paie pour un plan Premium Google One AI. Comme Sora d’Openai, Runway, Adobe’s Firefly et autres, Veo 2 vous permet de créer une vidéo d’apparence professionnelle à partir d’une invite de texte.
Avec Veo 2 désormais disponible pour les utilisateurs payants, cela semble être une bonne occasion de tester ces différents générateurs de vidéos d’IA les uns contre les autres et de comparer leurs forces et leurs faiblesses – et pour évaluer où nous sommes avec la vidéo IA en général. On nous dit que ces outils transformeront la réalisation de films, ou du moins remplir Internet avec une SLOP IA, mais sont-ils en fait pratiquement utiles?
Microsoft semble le penser, l’ayant utilisé dans une annonce récente. Cependant, seules les parties du clip étaient fabriquées en AI – des coups avec des coupes rapides et un mouvement limité, où les hallucinations sont moins susceptibles de se produire ou d’être remarquées.
Aux fins de ce guide, je vais jeter un œil à Google Veo 2 et le mettre contre Sora, la piste et Firefly. D’autres générateurs de vidéos sont disponibles, mais ce sont quatre des plus importants: ils coûtent tous de l’argent pour accéder (à partir de 20 € par mois), vous devrez donc vous inscrire pendant un mois au moins pour jouer avec eux.
Boules de rebond
Si vous êtes aussi vieux que moi, vous vous souviendrez d’une incroyable AD Sony faite pour promouvoir ses nouveaux téléviseurs Bravia 1080p en 2005 (ci-dessus). Plus de 100 000 balles gonflables ont été abandonnées dans les rues escarpées de San Francisco pendant que les caméras roulaient, et c’était une montre convaincante (l’histoire en coulisses est aussi amusante aussi).
C’est un véritable défi pour l’IA, impliquant beaucoup de physique et de mouvement. L’invite que j’ai utilisée était: « Des milliers de boules individuelles et aux couleurs vives rebondissant dans une rue escarpée et ensoleillée à San Francisco, en mouvement au ralenti. La caméra se déplace soigneusement dans la rue alors que les boules rebondissent vers le bas, les arbres qui passent et les voitures garées. »
La tentative Google Veo 2 n’est pas mauvaise. Il y a une physique étrange ici, mais cela semble raisonnablement naturel, et pourrait fonctionner comme un court clip si vous ne regardez pas trop de près. Les éléments d’arrière-plan sont bien rendus et les instructions de mon invite d’origine ont été suivies de près.
Sora semble confuse à propos de la scène qu’elle est censée être rendu. Il y a des balles colorées à coup sûr, mais ils se déplacent comme une bouillie confuse et défient la gravité. Le rythme de la vidéo est OK, même si cela va dans la direction opposée à celle que j’ai demandée, et les parties d’arrière-plan de la vidéo sont bien dans l’ensemble.
Runway obtient les vibrations assez proches, si vous le comparez au clip Sony original, mais encore une fois, il y a plusieurs problèmes: les balles ne sont pas du tout cohérentes, le mouvement n’est pas ce que j’ai demandé, et il semble qu’il y ait un étranger qui regarde à partir d’une fenêtre dans le coin supérieur droit. La rue a l’air plutôt cool cependant.
Firefly est probablement le pire du groupe, ici. La plupart des balles sont fixes et celles qui se déplacent ne sont pas très bien rendues. La rue a l’air ok mais ce n’est rien de spécial – il y a certainement une sensation de jeu vidéo rétro. Comme pour le clip Sora, la caméra m’emmène dans la rue quand je voulais vraiment descendre.
Scène « Jurassic Park »
Si l’IA veut remplacer les personnes réelles qui réalisent des films, il doit être en mesure de créer des scènes aussi puissantes que le « Welcome To Jurassic Park » dans le film de Spielberg en 1993: le moment où Richard Attenborough en tant que John Hammond révèle les dinosaures à ses visiteurs pour la première fois (ci-dessus).
J’étais curieux de voir ce que l’IA ferait de la scène. L’invite a été: « Au sommet d’une colline, deux paléontologues titubent lentement à travers l’herbe. Ce faisant, la caméra recule pour un coup plus large, révélant une large clairière et un lac en dessous. Il y a des dinosaures marchant lentement à travers le lac et les arbres. »
Le clip de Google Veo 2 a l’air plutôt bien. La caméra ne bouge pas vraiment comme je l’ai décrit, et les paléontologues ne sont pas vraiment stupéfiants (et ils ne sont pas sur une colline non plus), mais le paysage a l’air bien et les dinosaures ont l’air bien. C’est plutôt générique dans l’ensemble, mais c’est un effort décent.
Sora devient un peu fou avec cette invite. Les mouvements de la caméra sont saccadés et ne suivent pas les instructions que j’ai faites, et les dinosaures ressemblent à des créatures de changement de forme étranges. Le mieux que je puisse dire sur cet effort est que tous les éléments que j’ai décrits sont inclus, et le paysage environnant est raisonnablement bien fait.
Quant à la piste, c’est probablement le plus proche de ce que je voulais en ce qui concerne les mouvements de la caméra et la sensation générale de la scène. Le lac et les dinosaures ont l’air assez réalistes, mais ce n’est en aucun cas un rendu parfait – où le paléontologue à chemise rouge disparaît-il?
C’est un autre mauvais effort de Firefly. Je ne suis pas sûr qu’il sache ce que sont les paléontologues et les dinosaures sont très petits. Le lac et la forêt environnante sont effectués à une norme OK, cependant, même s’il y a une lueur d’intermédiaire notable à tout dans le cadre. Les mouvements de la caméra ont été bien traduits ici.
Scène « The Living Daylights »
One More: la scène de croisement de la frontière mémorable et de Kara dans Les feux de vie vivantsoù ils coulent une montagne enneigée sur un boîtier de violoncelle (ci-dessus). Je n’ai pas besoin d’embaucher Timothy Dalton ou Maryam D’Abo, apprendre à utiliser une caméra ou se rendre en Autriche, car l’IA peut faire toute la scène pour moi.
L’invite pour celui-ci était: « Un homme et une femme en vêtements d’hiver glissent sur une route enneigée sur un étui à violoncelle. Il y a une barrière sur la route, et en l’atteignant, les deux personnages se cachent en dessous. »
Google Veo 2 gère cela assez bien, tout considéré – la scène semble principalement réaliste et amusante, et cela ressemble un peu à un cas de violoncelle. Nous devons ignorer les deux personnes qui traversent la barrière de la route comme si ce n’était pas là, mais au moins il y a une barrière là-bas (quelque chose que les autres modèles d’IA ne pouvaient pas comprendre).
Jusqu’à Sora, et encore, ce n’est pas terrible. OK, ce n’est pas vraiment un cas de violoncelle, et les deux personnes seraient sûrement confrontées, mais la route enneigée et les arbres environnants ont l’air bien – c’est une scène immersive. Où est ma barrière de route, Sora? Je veux voir ces gens s’établir en dessous.
Quant à la piste, quelles que soient les vidéos sur lesquelles il a été formé, ils n’étaient certainement pas des vidéos de personnes qui montaient des cas de violoncelle dans les montagnes. Les gens se fondent les uns dans les autres, les éléments de la prise de vue changent de forme, et il a l’air bizarre. Le paysage enneigé et l’effet de neige en direct réel ont l’air bien, cependant.
Qui sait ce que pense Adobe Firefly ici. La physique dans celui-ci n’a absolument aucun sens, les personnages ne sont pas cohérents et il n’y a pas de barrière de route pour se cacher. C’est en fait troublant à regarder. Nous obtenons cependant une route enneigée, un étui à violoncelle et deux personnes dans le clip.
Il n’y a pas de gagnant clair
Je pense que les vidéos Veo 2 m’ont impressionné le plus dans l’ensemble, bien que la piste semble bonne pour le réalisme le plus souvent. Dans l’ensemble, nous avons beaucoup de problèmes de physique, de réalisme et d’interprétation rapide. Ce sont toutes des vidéos de l’IA clairement, avec de nombreuses bizarreries et incohérences étranges.
Maintenant, je ne m’attendais pas à ce que ces générateurs d’IA se rapprochent de la qualité des publicités ou des films professionnels: il n’est tout simplement pas possible de recréer ces scènes avec seulement une invite de texte et quelques minutes de temps et d’efforts. Je n’essaie pas de prendre une photo bon marché sur ces outils, qui sont évidemment très intelligents, mais soulignent plutôt certains des problèmes fondamentaux avec la vidéo de l’IA.
Avec un travail et une expertise plus prudents, je pourrais probablement obtenir quelque chose qui avait l’air beaucoup mieux, et clairement ces générateurs de vidéos vont s’améliorer avec le temps. Qui sait ce qu’ils pourront produire en cinq ou 10 ans? Si vous consultez les vidéos présentées sur ces plates-formes, vous pouvez voir que d’excellents résultats sont possibles.
Personnellement, cependant, je ne suis pas convaincu que ces outils d’IA remplaceront pleinement le travail de film traditionnel, peu importe à quel point ils sont formés. Pour obtenir quelque chose comme l’annonce Sony dans l’IA, vous devrez écrire des rames et des rames d’invites incroyablement détaillées, et même alors, vous pourriez ne pas obtenir ce que vous vouliez. L’IA réfléchirait-elle à la grenouille sauter du drain? Les résultats sont rapides et faciles, bien sûr, mais vous déchargez la plupart des décisions créatives de l’IA. Ces vidéos se sentent générées par ordinateur.
L’IA ne sait pas vraiment comment une balle rebondit, ni à quoi ressemble un dinosaure, ni dans quelle direction les gens devraient faire face lorsqu’ils glissent sur une route enneigée sur un étui à violoncelle. Il se rapproche et calcule sur la base de toutes les vidéos qu’elle a déjà vues, et ces lacunes apparaissent beaucoup plus en vidéo qu’avec des images ou du texte. Vous remarquerez que la plupart des vidéos de l’IA, y compris les exemples ci-dessus, n’incluent pas d’éléments qui entrent et sortent du tir, car l’IA est susceptible d’oublier à quoi ils ressemblent s’ils ne sont pas visibles.
Et je n’ai même pas eu d’espace ici pour couvrir les problèmes de droit d’auteur ou le coût énergétique de la planète. Nul doute que nous verrons un nombre croissant d’annonces et de shorts fabriqués par l’IA au fil du temps et la technologie s’améliore, mais cela vaut la peine de revenir au célèbre avertissement de Jurassic Park: être si préoccupé par le fait que nous puissions le faire, nous ne nous arrêtons pas pour réfléchir si nous devrait.
Divulgation: la société mère de Lifehacker, Ziff Davis, a déposé une plainte contre OpenAI en avril, alléguant qu’elle avait enfreint Ziff Davis Copyrights dans la formation et l’exploitation de ses systèmes d’IA.