Tour d’horizon des modèles génératifs d’images

Voici quelque temps que les modèles génératifs d’image font parler d’eux.

Ils peuvent en effet créer des images fascinantes avec un minimum d’ efforts, et je vous propose de voir ci-dessous comment en tirer parti au mieux. L’ arrivée de DALL-E 3 rend les choses encore plus intéressantes puisqu’ un modèle très performant est maintenant à disposition du grand public.

Jusqu’à récemment, ces modèles donnaient des résultats assez mitigés. Leur arrivée sur le devant de la scène générative grand public est donc assez récente.

Cet article se focalise la génération d’ images originales à partir d’ une phrase introduite par l’ utilisateur, ce qui offre le potentiel applicatif le plus large. Il existe d’ autres types de générateurs d’image, comme ceux qui permettent de modifier votre apparence sur base de photos.

La possibilité de créer des images à partir de simples descriptions textuelles offre un éventail énorme de possibilités. L’ image ci-dessous a été générée par DALL E 3 sur base du prompt élémentaire : Dessine-moi Notre-Dame de Paris dans le style de Pierre-Paul Rubens » :

Image 1 : Notre-Dame de Paris dans le style de Pierre-Paul Rubens

Ces générateurs d’image ont été entraînés sur des milliards de paires texte/image. A force d’ expositions répétées, les modèles apprennent progressivement à quoi les choses ressemblent visuellement. Reste à rédiger un prompt qui va « résonner » avec le modèle et lui faire générer une image intéressante (ce qui n’est pas toujours le cas au premier coup… c’est une activité dans laquelle la répétition paie).

La génération d’image en tant que telle fait appel à un procédé appelé « diffusion » dont vous pouvez lire les détails techniques ici.

1. Le générateur DALL-E 3

DALL-E 3 est le tout dernier modèle d’ OpenAI, accessible depuis début octobre 2023. L’ immense avantage de DALL-E 3 est qu’ il extrêmement simple à utiliser et accessible gratuitement via le site de Microsoft Bing Image Creator qui se trouve ici, à condition de posséder un compte Microsoft .

Image 2 : Interface utilisateur de Bing Image Creator

Le système génère les images par série de quatre. Vous pouvez ensuite choisir de sauvegarder les images qui vous plaisent dans des « collections » sur le site ou bien vous pouvez les télécharger au format JPEG. Les images générées sont carrées et leur taille est toujours de 1024 x 1024 ce qui est suffisant pour la plupart des applications. L’ interface ne permet pas de modifier les images, mais vous pouvez télécharger cette dernière et ensuite la modifier dans un programme spécialisé comme Photoshop.

Une force de DALL-E 3 est que vous pouvez lui demander d’ écrire un texte sur l’ image et que cela fonctionne relativement bien (sans être parfait). Les modèles précédents en étaient incapables.

Si vous disposez de l’abonnement payant chatGPT+ d’openAI, DALL-E 3 est également accessible directement depuis chatGPT4 depuis quelques jours. Il vous suffit de sélectionner cette sous-option lorsque vous désirez utiliser chatGPT4.

2. Les autres générateurs d’image disponibles

Malheureusement, les autres modèles sont payants, c’est pourquoi je me limiterai à les évoquer ici. Selon les exploitants, cela s’explique par le coût de la puissance de calcul nécessaire à la création de ces images: ces modèles étaient accessibles gratuitement il y a quelques mois mais le nombre croissant d’utilisateurs a obligé les sites de génération à basculer vers un accès entièrement payant.

L’ application Midjourney est la plus connue et réputée très performante; elle est la favorite de nombreux illustrateurs mais son utilisation est peu intuitive puisqu’ il faut passer par l’application de chat Discord pour demander la génération des images.

L’ idée de Midjourney est de fonctionner comme une communauté d’ artistes. La génération se fait en introduisant le prompt dans un canal Discord de chat public sur Discord ce qui signifie que tous les utilisateurs peuvent voir vos demandes de génération et leur résultat (et vous de même avec leurs créations). Ceci n’ est pas approprié pour la plupart des applications professionnelles. Midjourney vous coûtera 10 euros par mois pour avoir droit à environ 200 générations d’ images mensuelles.

De son côté, la société anglaise Stability AI a publié le modèle Stable Diffusion XL, via son application Dreamstudio accessible ici moyennant inscription préalable. Un système de crédits vous permet de générer une quinzaine d’ images gratuitement, mais ensuite il vous faudra payer pour recharger vos crédits. Vous pouvez aussi passer par le site Clipdrop mais à nouveau pour utiliser Stable Diffusion XL il vous faudra prendre l’abonnnement PRO qui vous coûtera 9 USD par mois.

Image 4 : Interface utilisateur Dreamstudio

Enfin, on attend dans un futur proche la mise à disposition des modèles Imagen de Google et Make-a-Scene de Meta. Vu les moyens financiers de ces deux sociétés, il n’ est pas exclu que des accès gratuits soient offerts (comme Microsoft l’a fait pour DALL-E 3). Espérons que ce sera le cas…

A toutes fins utiles, j’ ai mis en bas de cet article dans la partie « Notes et références » des liens vers des explications plus détaillées concernant l’ utilisation de Stable Diffusion XL, Midjourney et Adobe Firefly.

3. Exemple d’utilisation pratique

Une application simple est la réalisation de logos et graphismes à vocation marketing. Voici un exemple tout simple de réalisation de logos pour un bar à café imaginaire appelé « maxi kawa ». La figure ci-dessous montre le résultat obtenu du premier coup avec DALL-E 3 ainsi que le prompt utilisé.

Image 5 : Génération d’un logo pour le café « Maxi Kawa »

Comme vous le voyez, le texte est correctement positionné mais il y a des fautes d’ orthographe. Dans ce cas, la marche à suivre serait de télécharger le fichier JPEG, l’ éditer dans un programme comme GIMP ou Photoshop pour corriger l’ orthographe et éventuellement réaliser d’ autres modifications cosmétiques.

Finalement, vous pouvez intégrer l’ image corrigée dans un programme comme Canva] pour intégrer le logo dans un menu par exemple. J’ en profite pour attirer votre attention sur Canva qui est un programme très facile d’utilisation et extrêmement efficace pour la mise en page, notamment grâce à l’ énorme palette de gabarits disponibles…

4. Contraintes et limitations

La question des droits d’ auteurs liés à ces images n’est pas entièrement résolue. Il y a deux points sensibles à ce sujet.

Le premier concerne l’entraînement des modèles, qui a eu recours à des bases de données d’ images énormes dans lesquelles se trouvent (très probablement) des images couvertes par le droit d’ auteur, et ce sans que ces derniers aient donné leur accord. Une association d’ auteurs a déjà intenté un procès à Midjourney et Stability AI à ce sujet.

Le second point est de savoir si les images générées sont soumises ou non à un droit d’ auteur et si oui, à qui il revient (l’ utilisateur ? le modèle ? un collectif d’ artistes?). La question n’ est pas simple car il ne s’agit pas d’ un simple plagiat mais bien d’ une oeuvre originale.

Attention aussi que la plupart des déclarations que vous lirez à ce sujet se basent sur la situation aux Etats-Unis mais la situation dans nos pays peut tout à fait évoluer dans une autre direction…

En pratique, vous ne risquez pas grand’ chose si vous utilisez des images générées dans un cadre privé ou si vous vous limitez à les publier sur les réseaux sociaux. Une utilisation professionnelle ponctuelle (par exemple un logo) ne devrait pas non plus vous exposer à des problèmes significatifs.

Pas contre, je déconseillerais de lancer une activité professionelle dans laquelle la production d’ images de synthèse joue un rôle central tant que ces questions juridiques n’ ont pas été tranchées. Ou à tout le moins, prenez alors au préalable conseil auprès d’ un juriste spécialisé en droits d’auteur.

Une dernière remarque : tout comme les modèles générateurs de texte, ces modèles d’ images ont été « bridés » pour ne pas générer d’ images haineuses, violentes, pornographiques ou mettant en scène des personnages publics. Avis aux petits malins…

5. Notes et références

The best image generators of 2023, Zapier : https://zapier.com/blog/best-ai-image-generator/
How to use Stable Diffusion AI to create amazing images, ZDNet : https://www.zdnet.com/article/how-to-use-stable-diffusion-ai-to-create-amazing-images
How to use Midjourney, Zapier : https://zapier.com/blog/how-to-use-midjourney/
How to use Dall-E 2 to turn your ideas into AI-generated art, ZDNet : https://www.zdnet.com/article/how-to-use-dall-e-2-to-turn-your-creative-visions-into-ai-generated-art/
How to use Bing image creator, ZDNet : https://www.zdnet.com/article/how-to-use-bing-image-creator/
How to use Adobe Firefly, Jas Singh : https://twitter.com/TheJasSingh/status/1663539500889387008?s=20
Introduction to diffusion models for machine learning, Ryan O’Connor : https://www.assemblyai.com/blog/diffusion-models-for-machine-learning-introduction/

Tour d’horizon des modèles génératifs d’images

1. Le générateur DALL-E 3

2. Les autres générateurs d’image disponibles

3. Exemple d’utilisation pratique

4. Contraintes et limitations

5. Notes et références

Articles récents

Commentaires récents

Archives

Catégories