Table des matières de Qu'est-ce que la diffusion stable et comment fonctionne-t-elle ?
- Qu'est-ce que la diffusion stable ?
- Guide pas à pas Diffusion stable
- Avantages et inconvénients du générateur d'images AI Stable Diffusion
- Utilisation de contenus générés par Ki
- Alternatives à Stable Diffusion ?
- Stable Diffusion vs. AI Midjourney
- Conclusion
- FAQ
Qu'est-ce que la diffusion stable ?
Stable Diffusion est un générateur d'images d'IA qui génère des images numériques sur la base de messages-guides, c'est-à-dire d'instructions sous forme de texte. L'application a été développée par Stability AI, une start-up basée à Londres qui existe depuis 2020. Runway ML, EleutherAI, l'entreprise allemande LAION et un groupe de recherche de la LMU de Munich ont collaboré au générateur d'images d'IA de l'entreprise. La première version de l'outil est sortie en août 2022.
Il s'agit d'un logiciel open source. Cela signifie que les utilisateurs et utilisatrices peuvent se baser sur le code existant et le développer. L'ensemble est basé sur un système d'apprentissage en profondeur, c'est-à-dire sur un réseau neuronal profond composé de plusieurs couches qui permettent de reconnaître et d'"apprendre" des modèles et des relations complexes dans des quantités de données. Dans cet outil, la reconnaissance d'images et la reconnaissance vocale se rejoignent : L'IA reconnaît les commandes vocales que les utilisateurs et utilisatrices saisissent et recherche les éléments qui correspondent à ces commandes dans une base de données d'images existante.
L'IA a été entraînée à l'aide d'un nombre extrêmement élevé d'images, chacune d'entre elles étant associée à un terme approprié et soumise à un processus de modèle de diffusion latent. Par diffusion, on entend qu'une image est créée à partir d'un modèle (points ou pixels) et que le programme correspondant reconnaît les aspects définis de l'image. Les plusieurs millions d'images proviennent de l'ensemble de données LAION Aesthetics. L'IA peut uniquement utiliser des sources existantes pour générer de "nouvelles" images.
Guide pas à pas Diffusion stable
Stable Diffusion est accessible de différentes manières. Possibilité 1 : ouvrir le site web de Stability AI et cliquer sur l'outil "Dream Studio". Possibilité 2 : ouvrir Hugging Face Hub via la plateforme. Possibilité 3 : télécharger le logiciel sur son propre terminal.
Étape 1 :
Ouvre le site web de Stability AI.
Étape 2 :
Fais défiler vers le bas jusqu'à ce que tu voies le bouton "Dream Studio". Clique dessus.
Étape 3 :
Sur la page qui s'ouvre, cherche le bouton "Get started" (qui peut aussi être marqué "Try me now" ou "Try for free"). Clique dessus.
Étape 4 :
Inscris-toi avec ton adresse e-mail dans le masque de saisie qui devrait s'ouvrir maintenant.
Étape 5 :
Tu recevras un e-mail de confirmation. Utilise le lien dans l'e-mail pour accéder à l'application front-end de Dream Studios.
Étape 6 :
Tu vois à nouveau un masque de saisie. Dans le champ de texte indiqué, tu saisis ton prompt, c'est-à-dire la commande de texte.
Il est important de savoir : La qualité du prompt est directement liée à la qualité du résultat. Plus tu es précis dans ta formulation, plus le résultat que tu obtiendras sera exact. Comme tout le monde n'est pas doué pour l'ingénierie de l'invite, Stability AI a publié un guide de l'invite.
Tu obtiendras les meilleurs résultats avec Stable Diffusion en utilisant des invites en anglais. L'outil peut certes aussi travailler avec des instructions en allemand. Mais il s'appuie sur une base de données beaucoup plus importante en anglais. Les messages-guides doivent être aussi détaillés que possible. Les mots clés sont mieux compris que les phrases rédigées.
Une fois que tu as saisi ton invite, l'outil te propose quatre variantes d'images. Tu peux utiliser ces variantes pour continuer à travailler avec.
Avantages et inconvénients du générateur d'images AI Stable Diffusion
Tout d'abord, il semble relativement simple de générer des images utilisables avec cet outil. Et c'est le cas. Tu dois maîtriser l'anglais avec une certaine fluidité et pouvoir décrire ce que tu attends de l'outil. Tu peux ainsi générer gratuitement des images d'une résolution suffisante en y consacrant un temps raisonnable.
Mais c'est là que les problèmes commencent : Les images 3D sont utilisables et la résolution est bonne. Ce n'est pas un matériel visuel exceptionnel et la résolution n'est pas excellente. Plus tes résultats doivent être spécifiques, plus la génération du matériel prend du temps. À partir d'un certain point, le temps nécessaire n'est plus du tout gérable. Et puis, il y a toujours le problème que Stable Diffusion ne peut travailler qu'avec les images avec lesquelles l'IA de LAION a été alimentée. Il n'est donc pas possible de créer quelque chose de complètement nouveau.
Les principaux avantages sont la gratuité et l'utilisation intuitive de l'outil.
Droits d'auteur du contenu généré par Ki
Qu'en est-il des droits d'auteur et des droits d'utilisation ? Tout d'abord, la législation varie selon les pays où l'outil est accessible. Il n'y a pas de réglementation uniforme. Et puis, dans l'ensemble, la question de savoir à qui appartiennent les droits sur les contenus générés par l'IA est controversée. Il y a de bons arguments pour que les droits d'auteur reviennent aux personnes qui ont programmé l'IA. Car sans ces personnes, les contenus ne pourraient pas être créés. Mais il est tout aussi logique de penser que les droits d'auteur appartiennent à ceux qui, en saisissant des invites sur mesure, ont poussé l'IA à créer précisément ce contenu. Cette question n'est donc pas définitivement résolue. Il n'est pas non plus clair de savoir qui peut être tenu pour responsable en cas de contenu problématique.
Compte tenu de ce qui précède, il est tout à fait compréhensible que les entreprises soient très réticentes à utiliser des contenus générés par l'IA. En effet, les droits d'utilisation des contenus artistiques et créatifs ne peuvent être accordés qu'à celui qui détient les droits d'auteur. Et cela, comme nous l'avons déjà mentionné, n'est pas clair. En tout état de cause, il convient de vérifier minutieusement les conditions commerciales en vigueur avant d'utiliser des contenus, quelle que soit leur ampleur.
Alternatives à Stable Diffusion ?
Il existe en effet quelques générateurs d'images d'IA que tu peux essayer alternativement. Artbreeder en est un, DeepAI et DALL-E sont d'autres possibilités. Craiyon, NightCafe et Visionist se prêtent également plus ou moins bien à la génération d'images. Le représentant le plus connu parmi les générateurs d'images d'IA est toutefois probablement AI Midjourney.
Stable Diffusion vs. AI Midjourney
Le premier point frappant est le suivant : Stable Diffusion est utilisable gratuitement et la résolution est suffisamment bonne par rapport à AI Midjourney (plus élevée que celle de DALL-E). La vitesse et la réalisation des invites sont satisfaisantes, la qualité de l'image est comparable. Il est toutefois frappant de constater que tu as directement accès au masque de saisie et aux résultats de l'outil d'IA de Stability AI via Dream Studio. AI Midjourney est actuellement (été 2023) encore utilisé via Discord. Discord doit être installé, tu as besoin d'un compte d'utilisateur et la transmission des données est souvent surchargée. Tu attends alors très longtemps le traitement de tes messages-guides, même pour des tâches relativement simples, ce qui est agaçant.
Le deuxième point concerne la vie privée. Chez AI Midjourney, le contenu visuel généré ne t'appartient pas. AI Midjourney se réserve le droit de montrer tes matériaux créés comme exemple dans la galerie. Les images 3D sont ainsi accessibles à toutes les personnes intéressées, qui peuvent également continuer à travailler avec. Si tu veux générer plus qu'une poignée d'images et les utiliser à des fins commerciales, tu ne peux pas éviter de souscrire un abonnement. La sphère privée a également un coût.
Conclusion
Générer des images par IA est devenu beaucoup plus facile au cours des deux dernières années. La technologie fait d'énormes progrès. De facto, le développement des outils est en avance sur la formation de l'opinion dans la société - aujourd'hui, nous ne savons tout simplement pas comment traiter ces images d'un point de vue légal et moral. Les images ne sont pas gérées par des curateurs, c'est pourquoi il peut y avoir des images choquantes. Il ne faut pas s'attendre à des images uniques, adaptées à ton application. Il ne faut même pas s'attendre à des images sans défaut, car les chevaux à cinq pattes et autres erreurs de ce genre sont fréquentes. Ne t'attends pas non plus à une diversité de couleurs de peau, de nationalités, de langues, etc.
Si le résultat te suffit malgré tout, rien ne s'oppose à l'utilisation de Stable Diffusion ou d'un outil comparable. Les générateurs d'images d'IA ne disparaîtront pas, mais trouveront et conserveront leur place dans les industries créatives. Il est donc temps de s'y intéresser - techniquement, d'un point de vue ethnique, du point de vue de l'utilisateur et d'un point de vue juridique.