Texte vers vidéo facile avec AnimateDiff
AnimateDiff vous permet de créer facilement des vidéos avec Stable Diffusion. Écrivez simplement un prompt, sélectionnez un modèle et activez AnimateDiff !
AnimateDiff est une ressource éducative et une démo en ligne du module de mouvement open source AnimateDiff. Il n'est pas affilié aux auteurs de l'article original AnimateDiff ni à Stability AI.
Découvrez ce qu'AnimateDiff crée
Comment le générateur crée de courts clips
Génération texte vers vidéo
Avec AnimateDiff, vous pouvez fournir un prompt texte décrivant une scène, un personnage ou un concept, et il générera un court clip animant cette description. Cela permet de créer des animations conceptuelles ou des visualisations d'histoires directement à partir de texte.
Génération image vers vidéo
AnimateDiff prend en charge la génération image vers vidéo où vous fournissez une image statique, et il l'anime en ajoutant du mouvement basé sur les priors de mouvement appris. Cela peut donner vie à des images fixes ou des œuvres d'art.
Animations en boucle
En plus des courts clips, AnimateDiff peut générer des animations en boucle transparentes à partir d'entrées texte ou image. Elles peuvent être utilisées comme arrière-plans animés, économiseurs d'écran ou œuvres d'art animées créatives.
Édition/manipulation vidéo
L'implémentation video2video d'AnimateDiff utilise ControlNet pour permettre l'édition de vidéos existantes via des prompts texte. Vous pourriez potentiellement supprimer, ajouter ou manipuler des éléments dans une vidéo guidés par vos descriptions textuelles.
Animations personnalisées
Combiné à des techniques comme DreamBooth ou LoRA, AnimateDiff permet d'animer des sujets, personnages ou objets personnalisés entraînés sur des images/jeux de données spécifiques.
Workflows créatifs
Les artistes et créateurs peuvent intégrer AnimateDiff dans leurs workflows créatifs, l'utilisant pour visualiser rapidement des concepts animés, des storyboards ou des animatiques à partir d'entrées texte et image lors de la phase d'idéation.
Bien qu'il ne soit pas un outil d'édition vidéo complet, AnimateDiff offre une manière unique de générer du nouveau contenu vidéo à partir d'entrées texte et image en exploitant la puissance des modèles de diffusion et des priors de mouvement appris. Ses sorties peuvent servir de point de départ pour une édition vidéo et un post-traitement supplémentaires.
AnimateDiff : un créateur texte vers vidéo qui apporte du mouvement aux modèles de diffusion
AnimateDiff permet la génération texte vers vidéo, vous permettant de créer de courts clips ou animations directement à partir de prompts texte. Voici comment fonctionne le processus :
Prompt texte : Vous fournissez une description textuelle de la scène, des personnages, des actions ou des concepts que vous voulez voir animés.
Modèle de base texte vers image : AnimateDiff utilise un modèle de diffusion texte vers image pré-entraîné comme Stable Diffusion comme backbone pour générer les images initiales selon votre prompt texte. Le modèle de base contrôle le style, l'identité du personnage et le détail du sujet ; utilisez des modèles checkpoint comme ToonYou ou Realistic Vision avant d'appliquer le module.
Module de mouvement : Au cœur d'AnimateDiff se trouve un module de mouvement entraîné sur des vidéos réelles pour apprendre les schémas de mouvement et la dynamique généraux. Ce module est indépendant du modèle de diffusion de base.
Animation des images : AnimateDiff combine le modèle de diffusion de base et le module de mouvement. Il génère d'abord des images clés à partir de votre prompt texte avec le modèle de diffusion. Puis le module interpole des images intermédiaires entre ces clés, appliquant les priors de mouvement appris pour animer la scène.
Sortie vidéo : La sortie résultante est un court clip dépeignant les concepts décrits dans votre prompt texte, avec les éléments animés présentant un mouvement naturel appris à partir de vidéos réelles.
Quelques avantages clés d'AnimateDiff pour la génération texte vers vidéo sont
Il peut animer n'importe quel modèle texte vers image sans réentraînement ou ajustement extensif spécifique à la vidéo.
Vous pouvez guider l'animation via le prompt texte décrivant actions, mouvements de caméra, etc.
Plus rapide que l'entraînement de modèles texte vers vidéo monolithiques à partir de zéro.
Cependant, les animations ne sont pas toujours parfaites et peuvent présenter des artefacts, surtout pour les mouvements complexes. Mais AnimateDiff offre un moyen puissant de visualiser directement des descriptions textuelles sous forme d'animations en exploitant des modèles de diffusion pré-entraînés.
AnimateDiff : un créateur image vers vidéo qui insuffle la vie aux visuels statiques
AnimateDiff peut aussi être utilisé pour la génération image vers vidéo, vous permettant d'animer des images statiques existantes en ajoutant du mouvement et de la dynamique. Voici comment cela fonctionne :
Image d'entrée : Vous fournissez une image statique que vous voulez animer. Cela peut être une photographie, une œuvre d'art numérique ou une sortie de modèle de diffusion.
Modèle de base image vers image : AnimateDiff utilise un modèle de diffusion image vers image pré-entraîné comme la capacité img2img de Stable Diffusion comme backbone.
Module de mouvement : Le même module de mouvement entraîné sur des vidéos réelles pour apprendre les schémas de mouvement généraux est utilisé.
Animation à partir de l'entrée : AnimateDiff prend l'image d'entrée et utilise le modèle de diffusion image vers image pour générer de légères variations qui servent d'images clés.
Application du mouvement : Le module de mouvement interpole ensuite des images intermédiaires entre ces images clés, appliquant la dynamique d'animation apprise pour animer les éléments de l'image d'entrée.
Sortie vidéo : Le résultat final est un clip vidéo où l'image statique d'origine a été ramenée à la vie avec un mouvement et une animation naturels.
Quelques avantages clés d'AnimateDiff pour la génération image vers vidéo sont :
Bien que moins contrôlable que le cas texte vers vidéo, l'image vers vidéo avec AnimateDiff offre un moyen facile d'ajouter de la dynamique aux images fixes existantes en exploitant la puissance des modèles de diffusion et des priors de mouvement appris.
Fonctionne avec vos styles préférés
Ce ne sont que des exemples de styles — AnimateDiff n'est pas un outil à apparence unique. Il apporte du mouvement aux esthétiques distinctives de vos modèles Stable Diffusion préférés.
qu'est-ce qu'AnimateDiff
AnimateDiff est un outil d'IA qui peut transformer une image statique ou un prompt texte en vidéo animée en générant une séquence d'images qui se transforment en douceur. Il fonctionne en utilisant des modèles Stable Diffusion avec des modules de mouvement séparés pour prédire le mouvement entre les images. AnimateDiff permet aux utilisateurs de créer facilement de courts clips animés sans avoir à créer manuellement chaque image.

Comment créer une vidéo avec AnimateDiff en 4 étapes
Choisissez un modèle / style de base
Choisissez l'apparence souhaitée — anime, réaliste, cartoon, encre — parmi les modèles Stable Diffusion pris en charge.
Écrivez votre prompt
Décrivez la scène, le sujet, l'action et le mouvement de caméra que vous voulez animer.
Définissez la longueur et le FPS
Choisissez le nombre d'images et la fréquence d'images pour contrôler la durée et la fluidité du clip.
Générez et téléchargez
Lancez AnimateDiff, prévisualisez le résultat en boucle et exportez votre animation.
Les capacités d'AnimateDiff en un coup d'œil
| Fonctionnalité | Ce qu'elle fait | Quand l'utiliser |
|---|---|---|
| Modules de mouvement v1/v2/v3/SDXL | Différents priors de mouvement entraînés pour des qualités et résolutions variées | Adaptez le module à votre modèle de base et à la résolution cible |
| Prompt Travel | Transition fluide entre prompts à travers les images | Créez des scènes évolutives ou des sujets en transformation |
| Motion LoRA | Ajoutez des mouvements de caméra spécifiques comme zoom/pan/roulis | Dirigez un mouvement de caméra cinématique |
| ControlNet | Guidez le mouvement et la structure avec des entrées de référence | Conservez une pose/composition cohérente |
| Boucle fermée | Faites boucler l'animation de manière transparente | Clips en boucle parfaits de style GIF |
| Interpolation d'images | Insérez des images intermédiaires pour un mouvement plus fluide | Augmentez le FPS perçu sans régénérer |
| Correction Hi-Res | Mettez à l'échelle tout en préservant le détail du mouvement | Sortie plus nette et de plus haute résolution |
| Accélération LCM / SDXL Turbo | Moins d'étapes pour une génération plus rapide | Itération rapide et aperçus |
AnimateDiff peut générer des animations à partir de prompts texte seuls. Les utilisateurs peuvent téléverser une image et AnimateDiff prédira le mouvement pour générer une animation. Les utilisateurs n'ont pas besoin de créer manuellement chaque image, car AnimateDiff génère automatiquement la séquence d'images. AnimateDiff peut être intégré de manière transparente à Stable Diffusion et exploiter ses puissantes capacités de génération d'images.
Il utilise un module de mouvement pré-entraîné avec un modèle de génération d'images Stable Diffusion. Le module de mouvement est entraîné sur un ensemble diversifié de courts clips pour apprendre les mouvements et transitions communs. Lors de la génération d'une vidéo, le module de mouvement prend un prompt texte et les images précédentes en entrée. Il prédit ensuite le mouvement et la dynamique de la scène pour passer entre les images en douceur. Ces prédictions sont transmises à Stable Diffusion pour générer le contenu réel de l'image dans chaque image. Stable Diffusion crée des images qui correspondent au prompt texte tout en se conformant au mouvement prédit par le module. Ce processus coordonné aboutit à une séquence d'images formant une animation fluide et de haute qualité à partir de la description textuelle. En exploitant à la fois la prédiction de mouvement et la synthèse d'images, AnimateDiff automatise la génération de vidéos animées.
Art et animation : les artistes/animateurs peuvent rapidement prototyper des animations et croquis animés à partir de prompts texte, économisant un effort manuel considérable. Visualisation de concepts : aide à visualiser des concepts et idées abstraits en les transformant en animations, utile pour le storyboard. Développement de jeux : peut générer rapidement des mouvements et animations de personnages pour le prototypage de mécaniques de jeu. Graphiques dynamiques : créez des graphiques animés pour les publicités, présentations et posts sociaux. Réalité augmentée : animez des personnages et objets AR avec un mouvement plus fluide et naturel. Pré-visualisation : prévisualisez des scènes complexes avec animation avant le tournage ou le rendu final. Éducation : créez des explications et démonstrations de concepts sous forme de vidéos animées engageantes. Médias sociaux : générez des posts et stories animés accrocheurs en les décrivant simplement par texte. La capacité de passer directement du texte/des images à l'animation ouvre de nombreuses possibilités pour une création d'animation plus facile et rapide dans plusieurs domaines.
Vous pouvez utiliser l'outil gratuitement sur le site animatediff.net sans avoir besoin de vos propres ressources informatiques ni de connaissances en codage. Sur le site, vous saisissez simplement un prompt texte décrivant l'animation que vous voulez créer. Il générera alors automatiquement un court GIF animé à partir de votre prompt texte en utilisant des capacités d'IA de pointe. L'ensemble du processus se déroule en ligne et vous pouvez télécharger l'animation résultante pour l'utiliser comme bon vous semble. Cela offre un moyen facile de découvrir les pouvoirs d'animation d'AnimateDiff sans configuration. Vous pouvez commencer à créer des animations alimentées par l'IA à partir de votre imagination en quelques clics !
Un GPU Nvidia est requis, idéalement avec au moins 8 Go de VRAM pour la génération texte vers vidéo. 10+ Go de VRAM nécessaires pour la vidéo vers vidéo. Un GPU suffisamment puissant pour l'inférence est nécessaire, comme un RTX 3060 ou mieux. Windows ou Linux ; macOS peut fonctionner via Docker, et Google Colab est aussi une option. 16 Go de RAM système minimum recommandés. Une quantité décente de stockage est requise pour sauvegarder les séquences d'images, vidéos et fichiers de modèles. Fonctionne avec AUTOMATIC1111 ou Google Colab et nécessite l'installation de Python et d'autres dépendances. Actuellement compatible uniquement avec les modèles Stable Diffusion v1.5, y compris les modèles checkpoint SD 1.5, les modèles personnalisés, les styles LoRA/DreamBooth et les variantes de modèles spécifiques à SDXL.
Démarrez l'interface Web AUTOMATIC1111 normalement. Allez sur la page Extensions et cliquez sur l'onglet « Install from URL ». Dans le champ URL, entrez l'URL GitHub de l'extension AnimateDiff : https://github.com/continue-revolution/sd-webui-animatediff. Attendez la confirmation que l'installation est terminée, puis redémarrez l'interface Web AUTOMATIC1111. L'extension devrait maintenant apparaître dans les onglets txt2img et img2img. Téléchargez les modules de mouvement requis et placez-les dans les bons dossiers comme expliqué dans la documentation, puis redémarrez AUTOMATIC1111 à nouveau. Maintenant l'extension est prête à être utilisée pour générer des vidéos animées dans AUTOMATIC1111 !
La boucle fermée rend les première et dernière images identiques pour créer une vidéo en boucle transparente. Reverse frames double la longueur du clip en ajoutant les images dans l'ordre inverse. L'interpolation d'images augmente la fréquence d'images pour rendre le mouvement plus fluide. La taille du batch de contexte contrôle la cohérence temporelle entre les images. Motion LoRA ajoute des mouvements de caméra comme le panoramique et le zoom. ControlNet dirige l'animation à partir des mouvements d'une vidéo de référence. L'image vers image permet de définir les images de début et de fin pour plus de contrôle sur la composition. Le FPS et le nombre d'images contrôlent la vitesse et la longueur totale de l'animation. Les modules de mouvement produisent des schémas de mouvement distincts. Ces paramètres contrôlent le style, la fluidité, les mouvements de caméra, la vitesse et la longueur.
Plage de mouvement limitée : le mouvement est contraint par ce qui se trouve dans les données d'entraînement, il ne peut donc pas animer des mouvements très complexes ou inhabituels non vus dans l'ensemble d'entraînement. Mouvements génériques : la sortie n'est pas adaptée spécifiquement au prompt et tend à produire des mouvements génériques vaguement liés à celui-ci. Des artefacts peuvent parfois apparaître à mesure que le mouvement augmente. Compatibilité : fonctionne actuellement uniquement avec les modèles Stable Diffusion v1.5, pas SD v2.0. La qualité du mouvement dépend fortement de la diversité et de la pertinence des données d'entraînement. Obtenir un mouvement fluide et de haute qualité nécessite de régler de nombreux paramètres comme la taille du batch, le FPS et les images. Maintenir la cohérence temporelle sur de longs clips reste un défi. À mesure que la technologie mûrit, on peut s'attendre à ce que beaucoup de ces problèmes soient résolus.
Prêt à animer votre idée ?
Commencez dès aujourd'hui à transformer vos textes et images en vidéos captivantes avec AnimateDiff.
Essayer AnimateDiff gratuitement