Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Vision par ordinateur et reconnaissance des formes# Ordinateurs et société

Transformer des rêves en art avec des robots

Une installation artistique où les rêves des participants se transforment en art visuel grâce à la technologie robotique.

― 7 min lire


Des rêves peints par desDes rêves peints par desrobotsvisuelles.rêves se transforment en créationsL'art rencontre l'IA alors que les
Table des matières

Cet article parle d'une installation artistique unique où les gens partageaient leurs rêves, et un robot utilisait une technologie spéciale pour dessiner ces rêves. La technologie utilisée s'appelle CLIP, un modèle d'apprentissage profond développé pour aider à connecter les images et le texte. Ce projet visait à montrer comment les mots prononcés par différentes personnes pouvaient être transformés en Dessins, reflétant leurs rêves de manière surprenante et créative.

L'installation Dream Painter

Dans cette œuvre d'art interactive, appelée Dream Painter, les Participants parlaient dans un micro de leurs rêves. Pendant qu'ils racontaient leurs rêves, le robot utilisait CLIP pour créer des dessins basés sur leurs descriptions. Ce dispositif permettait aux participants de voir comment leurs mots pouvaient devenir de l'art visuel. Les résultats des dessins étaient variés, certains correspondaient de près aux rêves, tandis que d'autres étaient un peu confus ou éloignés du sujet.

Comprendre CLIP

CLIP signifie Contrastive Language-Image Pretraining. Il fonctionne en prenant des images et du texte et en les convertissant en codes numériques qu'il peut comprendre. En comparant ces codes, il peut déterminer quel texte décrit le mieux une image donnée. Par exemple, si quelqu'un décrit une scène, CLIP peut aider à trouver ou créer une image qui correspond à cette description. Le processus utilisé dans Dream Painter impliquait que le robot modifiait une simple collection de lignes pour se rapprocher le plus possible de ce que le participant voulait voir en fonction de ses mots.

Le processus de dessin

Lors de chaque interaction, l'Algorithme qui sous-tend CLIP faisait des ajustements au dessin en temps réel, essayant d'adapter les lignes à ce que le participant avait dit. Le robot avait un temps limité pour travailler sur le dessin, ce qui rendait l'expérience rapide et engageante.

Dans la version grandeur nature de l'installation, un grand robot industriel peignait avec plusieurs couleurs. Cependant, les exemples discutés dans cet article proviennent d'une version plus petite utilisant une seule couleur et un bras robotique plus petit. Néanmoins, l'expérience du public était riche, car les gens partageaient leurs rêves, regardaient le processus de dessin et analysaient les résultats finaux.

Regroupement des dessins en fonction de leur clarté

Après avoir rassemblé de nombreux dessins créés pendant l'installation, les chercheurs ont décidé de les classer en quatre groupes en fonction de la manière dont ils représentaient les rêves décrits. Chaque groupe mettait en lumière différents aspects des capacités et des limitations de CLIP.

Groupe 1 : Concepts clairs

Le premier groupe contenait des dessins qui correspondaient clairement aux rêves. Les participants pouvaient facilement deviner ce que ces images représentaient. Par exemple, si quelqu'un décrivait une journée ensoleillée à la plage, le dessin résultant montrerait clairement une scène de plage. Ce groupe montrait la capacité de CLIP à refléter avec précision des idées simples. Ces représentations familières permettaient aux participants de se sentir connectés à l'art créé à partir de leurs rêves.

Groupe 2 : Texte-à-texte comme image

Le deuxième groupe montrait un type de dessin où les images étaient davantage axées sur des mots écrits que sur des photos. Par exemple, si un participant mentionnait l'amour, le dessin pourrait afficher le mot "AMOUR" répété plusieurs fois plutôt qu'une image représentant l'amour. Cela soulevait des questions sur pourquoi certains mots généraient des dessins centrés sur le texte. Cela mettait aussi en avant des aspects intéressants de la façon dont les gens perçoivent le design et la typographie dans l'art.

Groupe 3 : Indétermination et confusion

Le troisième groupe contenait des dessins où CLIP reconnaissait certains concepts mais n'arrivait pas à capturer les relations entre eux. Dans ce cas, le résultat était différent de ce à quoi on pourrait s'attendre. Par exemple, si quelqu'un décrivait un chat portant un chapeau, CLIP pourrait produire un dessin avec des personnes ou des objets dans des arrangements inattendus. Ce groupe montrait les défis auxquels CLIP faisait face, surtout avec des descriptions inhabituelles ou surréalistes, ce qui pouvait mener à des résultats inattendus et absurdes.

Groupe 4 : Perdu dans la traduction

Le dernier groupe se composait de dessins difficiles à interpréter. Ces images étaient intrigantes mais ne semblaient pas se relier aux rêves aussi clairement que les autres. Parfois, cette confusion provenait des prompts donnés par les participants, qui pouvaient être vagues ou ambigus. Dans ces cas, même quand les dessins semblaient intéressants, ils ne correspondaient souvent pas bien à ce que le membre du public avait décrit. Cela montrait que le processus de traduction de la parole en forme visuelle pouvait créer des couches de sens inattendues et de l'ambiguïté.

L'expérience du public

L'interaction avec l'installation Dream Painter était informative et agréable pour le public. Les gens passaient en moyenne dix minutes à s'engager avec l'œuvre, partageant leurs pensées sur les dessins et discutant de leurs réactions avec les autres. Une enquête a montré que les participants estimaient que, en moyenne, les dessins représentaient raisonnablement leurs rêves, même si certains aspects étaient éloignés.

L'expérience a aidé à briser les barrières entre la technologie et l'art. Les participants pouvaient voir comment le système robotique fonctionnait et comment leur contribution influençait le résultat final. Cette interaction a fourni des perspectives précieuses pour comprendre non seulement la technologie mais aussi le processus artistique lui-même.

L'importance de la qualité des prompts

Un point clé de cette approche est que la qualité de la description du participant influençait beaucoup le résultat des dessins. Des prompts plus clairs avaient tendance à donner des images plus nettes. Cela met en lumière le rôle de l'apport humain dans le processus, suggérant que même des interactions simples avec l'IA peuvent améliorer la créativité et mener à des résultats artistiques surprenants.

Interagir avec ces modèles génératifs a permis aux gens de réaliser que leurs mots comptaient et pouvaient mener à des expressions artistiques uniques. Les résultats inattendus, qu'ils soient amusants ou déroutants, provoquaient souvent des rires et des discussions supplémentaires, rendant l'expérience mémorable.

Conclusion

En résumé, le projet Dream Painter a servi de manière excitante à explorer comment les rêves pouvaient être transformés en art à l'aide de la technologie robotique et des modèles d'apprentissage profond. À travers les quatre groupes identifiés, il est devenu clair que, bien que CLIP soit capable de créer des images captivantes, ses limitations offrent aussi des opportunités pour une créativité inattendue.

Les résultats de cette installation indiquent la nécessité d'explorer davantage comment nous pouvons interagir avec l'IA pour améliorer l'expression artistique. À mesure que de plus en plus de gens s'engagent avec la technologie de manière créative, le potentiel de découvrir de nouvelles formes d'art continue de croître. Le mélange de rêves et de technologie dans ce projet a montré comment le langage, les images et la créativité s'entrelacent, entraînant de nouvelles compréhensions sur l'art et l'intelligence artificielle.

Source originale

Titre: Explaining CLIP through Co-Creative Drawings and Interaction

Résumé: This paper analyses a visual archive of drawings produced by an interactive robotic art installation where audience members narrated their dreams into a system powered by CLIPdraw deep learning (DL) model that interpreted and transformed their dreams into images. The resulting archive of prompt-image pairs were examined and clustered based on concept representation accuracy. As a result of the analysis, the paper proposes four groupings for describing and explaining CLIP-generated results: clear concept, text-to-text as image, indeterminacy and confusion, and lost in translation. This article offers a glimpse into a collection of dreams interpreted, mediated and given form by Artificial Intelligence (AI), showcasing oftentimes unexpected, visually compelling or, indeed, the dream-like output of the system, with the emphasis on processes and results of translations between languages, sign-systems and various modules of the installation. In the end, the paper argues that proposed clusters support better understanding of the neural model.

Auteurs: Varvara Guljajeva, Mar Canet Solà, Isaac Joseph Clarke

Dernière mise à jour: 2023-06-12 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.07429

Source PDF: https://arxiv.org/pdf/2306.07429

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires