DALL-E 2, un programme d'IA de génération de texte en image, a été lancé en ligne cet automne. La version initiale du modèle, qui tire son nom ironique de l'adorable robot WALL-E de Disney de 2008 et de l'artiste surréaliste Salvador Dalí, a été lancée en janvier 2021 par le laboratoire de recherche OpenAI. Une version de la technologie, DALL-E Mini, a été lancée en avance sur la plateforme Hugging Face, prenant d'assaut Twitter comme un phénomène de mème et propulsant le programme vers un intérêt international au-delà des experts en IA. Plus de 1,5 million d'utilisateurs créent plus de 2 millions d'images par jour avec DALL-E.
DALL-E 2 utilise le modèle « GPT-3 » de AGRAFE (Contrastive Language-Image Pre-Training, annoncé par OpenAI l'année dernière), un système de vision par ordinateur, pour générer des images de 1024 × 1024 pixels à partir d'invites de texte saisies. L'outil a été formé à l'aide de 650 millions de paires d'images et de légendes récupérées sur Internet. Après avoir collecté des paires image-texte, les chercheurs ont formé le modèle CLIP à générer du texte pour décrire avec précision une image, créant ainsi un modèle mathématiquement fiable. DALL-E a ensuite inversé ce processus, générant des images bien décrites par des entrées de texte basées sur les données de CLIP. Les utilisateurs peuvent également utiliser DALL-E 2 pour « surpeindre » des images (étendre des images préexistantes au-delà de leurs limites précédentes) et pour modifier une image préexistante à l'aide de commandes de texte.
Lorsque vous saisissez votre requête DALL-E 2, on vous donne l'instruction de « commencer par une description détaillée » et l'exemple d'une « peinture à l'huile impressionniste de tournesols dans un vase violet ». Mais que comprend réellement DALL-E 2 par le style des impressionnistes ? Ou par n'importe quel style ou mouvement artistique, d'ailleurs ? En utilisant la même invite « une tomate grimpant sur une échelle au bord de la mer », j'ai mis à l'épreuve les prouesses historiques de DALL-E 2.
Pour les impressionnistes (« Une peinture impressionniste d’une tomate grimpant sur une échelle au bord de la mer »), DALL-E 2 semble identifier qu’il s’agit d’un style basé sur des coups de pinceau lâches et des contrastes de couleurs indiquant l’impact de la lumière.
Il a également fait un travail étonnamment bon pour identifier ce que l’on entend par art du « 18e siècle ». Il a ajouté des éléments de texture sur les côtés et a produit une image royale vraiment assez sombre. Ce qui est également intéressant, c’est que DALL-E 2 a représenté à quoi ressemblent les œuvres d’art du 18e siècle aujourd’hui, leur palette de couleurs ternie par le temps.
Mon préféré était l'interprétation de DALL-E du style de Robert Mapplethorpe. L'image monochrome donnait à la tomate un aspect pygien distinct, un clin d'œil sexy aux personnages de Mapplethorpe. L'idée de la « sculpture d'Henry Moore » m'a également fait sourire : il semblerait naturel pour DALL-E 2 qu'une sculpture nécessite un socle.
DALL-E a eu moins de mal à recréer certains styles, comme De Stijl ou les surréalistes. Il a réussi à interpréter « Mondrian » dans le texte, en ajoutant des lignes droites qui traversent l'image. C'est assez proche. La tomate de Warhol a également réussi à capturer une partie de la planéité associée à son travail, et la tentative cubiste était – par endroits – anguleuse.