La production de contenu vidéo est un défi particulier pour les modèles d’IA génératifs, qui n’ont pas de véritable concept d’espace ou de physique, et rêvent essentiellement de clips par trame. Cela peut entraîner des erreurs et des incohérences évidentes, comme nous l’avons écrit en décembre avec Sora d’Openai, après avoir servi une vidéo avec un taxi disparu.
Ce sont ces problèmes spécifiques que l’IA Video Company Runway dit qu’il a fait des progrès dans la fixation avec ses nouveaux modèles Gen-4. Les nouveaux modèles offrent « une nouvelle génération de médias cohérents et contrôlables » selon la piste, avec des personnages, des objets et des scènes maintenant beaucoup plus susceptibles de se ressembler sur un projet entier.
Si vous avez expérimenté la vidéo de l’IA, vous saurez que de nombreux clips sont brefs et montrent un mouvement lent, et ne comportez pas d’éléments qui sortent du cadre et reviennent, généralement parce que l’IA les rendra d’une manière différente. Les gens fusionnent dans les bâtiments, les membres se transforment en animaux et les scènes entières mutent lorsque les secondes passent.
En effet, comme vous l’avez peut-être rassemblé, ces IA sont essentiellement des machines de probabilité. Ils savent, plus ou moins, à quoi devrait ressembler un paysage urbain futuriste, basé sur le grattage de nombreux paysages urbains futuristes – mais ils ne comprennent pas les éléments constitutifs du monde réel et ne peuvent pas garder une idée fixe d’un monde dans leurs souvenirs. Au lieu de cela, ils continuent de le réinventer.
Runway vise à résoudre ce problème avec des images de référence auxquelles il peut continuer à revenir tout en inventant tout le reste dans le cadre: les gens devraient se ressembler d’un cadre à l’autre, et il devrait y avoir moins de problèmes avec les personnages principaux marchant à travers les meubles et se transformant en murs.
Les nouveaux modèles Gen-4 peuvent également « comprendre le monde » et « simuler la physique du monde réel » mieux que jamais, dit Runway. L’avantage de sortir dans le monde avec une caméra vidéo réelle est que vous pouvez tirer un pont d’un côté, puis traverser et tirer le même pont de l’autre côté. Avec l’IA, vous avez tendance à obtenir une approximation différente d’un pont à chaque fois – quelque chose que la piste veut s’attaquer.
Jetez un œil aux vidéos de démonstration assemblées par la piste et vous verrez qu’ils font un très bon travail en termes de cohérence (bien que, bien sûr, ceux-ci sont cueillis à la main à partir d’une large piscine). Les personnages de ce clip ressemblent plus ou moins à la même chose, mais avec certaines variations dans les poils du visage, les vêtements et l’âge apparent.
Il y a aussi la petite flamme solitaire (ci-dessus), qui – comme toutes les vidéos de piste – aurait été synthétisée du travail acharné des animateurs et des cinéastes réels. Il a l’air impressionnant, mais vous verrez la forme et les marques sur la moufette passant d’une scène à l’autre, tout comme la forme du personnage du rock dans la seconde moitié de l’histoire. Même avec ces derniers modèles, il y a encore du chemin à parcourir.
Bien que les modèles Gen-4 soient désormais disponibles pour les générations d’image à vidéo pour le paiement des utilisateurs de piste, les fonctionnalités de cohérence de la scène à la scène n’ont pas encore été déployées, donc je ne peux pas les tester personnellement. J’ai expérimenté la création de courts clips sur Sora, et la cohérence et la physique du monde réel restent un problème là-bas, avec des objets apparaissant (et disparaissant dans) de l’air mince, et des personnages se déplaçant à travers les murs et les meubles. Voir ci-dessous pour l’une de mes créations:
Il est possible de créer des clips à apparence polie, comme vous pouvez le voir sur la page officielle de la vitrine de Sora, et la technologie est désormais d’une norme de haut niveau qu’elle commence à être utilisée de manière limitée dans les productions professionnelles. Cependant, les problèmes de disparition et de morphing des taxis dont nous avons écrit l’année dernière n’ont pas disparu.
Bien sûr, il suffit de regarder où la technologie vidéo de l’IA était il y a un an pour savoir que ces modèles vont s’améliorer, mais la génération de vidéo n’est pas la même chose que la génération de texte, ou une image statique: elle nécessite beaucoup plus de puissance informatique et beaucoup plus de «réflexion», ainsi qu’une saisie de la physique du monde réel qui sera difficile à apprendre à l’IA.