¿Son las máquinas narradoras creativas?
Un estudio compara la creatividad humana y la de la IA en la narración de historias.
― 7 minilectura
Tabla de contenidos
Contar Historias es una de las formas más antiguas en que los Humanos compartimos ideas y nos conectamos. Se necesita una chispa de Creatividad para crear relatos frescos e inesperados. Recientemente, unas máquinas llamadas Modelos de lenguaje grandes (LLMs) han podido escribir historias, pero ¿qué tan creativas son estas máquinas en comparación con la gente normal? Esa es la pregunta que estamos explorando.
Mientras que los investigadores han visto qué tan bien pueden escribir estos modelos en comparación con escritores profesionales, nadie realmente ha comprobado si estos LLMs pueden escribir al mismo nivel creativo que una persona promedio. Para averiguarlo, ideamos una prueba sencilla: tanto humanos como LLMs recibieron tres palabras y se les pidió que escribieran una historia corta en solo cinco oraciones.
El Reto de Contar Historias
Nuestra tarea de contar historias pedía a los participantes que usaran tres palabras clave, como "sello," "carta," y "enviar," para crear un relato creativo corto. Esta tarea sencilla se utiliza a menudo en psicología para medir cuán creativa es una persona. Tomamos historias de humanos y LLMs y las comparamos en varios factores de creatividad, como novedad (qué tan nueva y única es la historia), sorpresa (qué tan inesperada es), y diversidad (qué tan diferentes son las ideas).
De nuestro análisis, resulta que aunque estos modelos pueden producir oraciones complejas, realmente no muestran el mismo nivel de creatividad que los narradores humanos promedio.
Un Vistazo a la Narrativa
En su esencia, contar historias es cómo compartimos nuestros pensamientos y sentimientos con los demás. No solo se necesitan palabras, sino un poco de creatividad para hacerlas interesantes y cautivadoras. Mientras que los humanos son naturalmente buenos en contar historias, hacer que las máquinas hagan lo mismo ha sido un desafío.
Estos modelos de lenguaje han hecho un gran impacto recientemente con su habilidad para crear historias sobre todo tipo de temas. Pero la gran pregunta sigue siendo: ¿Son realmente creativas las historias creadas por estos modelos?
La mayoría de los estudios previos se enfocaron en la capacidad de los modelos para escribir respuestas simples o frases cortas. Estas pruebas a menudo involucraban pedir a la gente que encontrara usos creativos para objetos cotidianos, con los modelos desempeñándose sorprendentemente bien. Sin embargo, queríamos ver qué tan bien se desempeñaban en un escenario más exigente: escribir historias más largas.
La Configuración del Estudio
En nuestro estudio, pedimos tanto a humanos como a estos grandes modelos de lenguaje que escribieran historias cortas. Cada historia se basó en tres palabras clave, y medimos cuán creativas eran estas historias.
Creamos dos conjuntos de palabras clave: un conjunto donde las palabras estaban estrechamente relacionadas (como "sello," "carta," y "enviar") y otro donde las palabras eran más distantes (como "oscuridad," "pago," y "existir"). Al comparar estos dos grupos, esperábamos ver cómo los modelos y los humanos adaptaban su creatividad en función de las palabras que se les daban.
Los participantes recibieron instrucciones claras y ejemplos que los animaban a pensar fuera de lo común. El objetivo era generar ideas frescas en lugar de escribir historias aburridas que la gente podría esperar.
Recopilación de Datos
Recopilamos historias de participantes en una plataforma de crowdsourcing, asegurándonos de que aquellos que no siguieron las pautas fueran eliminados de nuestros datos. Además de las contribuciones humanas, también recopilamos historias de algunos de los modelos de lenguaje más recientes afinados por instrucciones.
Ajustando algunos parámetros, generamos una variedad de historias de cada modelo. Después de hacer algunas limpiezas (eliminando duplicados y historias que eran demasiado cortas o largas), terminamos con una selección que permitía una comparación justa entre las historias generadas por humanos y modelos.
Medición de la Creatividad
Tuvimos que idear formas de evaluar la creatividad de estas historias. Así es como lo desglosamos:
Diversidad Léxica: Esto verifica cuán variados son los palabras usadas en las historias. Cuantas más palabras únicas, mejor.
Diversidad Semántica: Esto mira cuán diferentes son los temas de las historias. Calculamos esto comparando historias para ver cuánto variaban en términos de ideas.
Novedad: Esto mide cuán diferente es una historia de otras historias conocidas. ¿Son las ideas frescas o son cosas viejas?
Sorpresa: Este aspecto revisa cuán inesperadamente se desarrolla la historia. Una buena historia mantiene al lector adivinando.
Complejidad Estilística: Esto evalúa cuán complicada es la lengua y si hace la historia más difícil de leer.
Complejidad Sintáctica: Esto evalúa cómo están estructuradas las oraciones en la historia.
Al analizar varios aspectos de la creatividad, pudimos tener una imagen más clara de cómo los humanos y las máquinas se comparan en la narración de historias.
Los Resultados
Cuando comparamos las historias, encontramos algunos resultados intrigantes:
Complejidad Léxica: Los modelos, especialmente los más avanzados, tendían a usar oraciones más largas y palabras más complicadas. Mientras tanto, las historias humanas, aunque más simples, seguían siendo interesantes y divertidas de leer.
Métricas de Creatividad: Los humanos generalmente superaron a los modelos en términos de novedad, sorpresa y diversidad. A pesar de las estructuras complejas de los modelos, sus historias eran a menudo predecibles.
Uso de Pronombres: Los humanos preferían perspectivas en primera y segunda persona, sugiriendo un toque más personal, mientras que las máquinas se inclinaban mucho hacia el punto de vista en tercera persona.
Perfiles de Sorpresa: Las historias humanas mostraron más variaciones en sorpresa a lo largo de sus narrativas en comparación con los modelos, que a menudo mantenían un tono plano que carecía de emoción.
Analizando las Diferencias
Entonces, ¿por qué importan estas diferencias? Nuestros hallazgos destacan que los humanos parecen tener un mejor dominio sobre la creación de narrativas cautivadoras. Mientras que los modelos pueden juntar palabras en oraciones gramaticalmente correctas, a menudo fallan en creatividad.
Los humanos tienden a crear historias que fluyen de sus propias experiencias y perspectivas. En contraste, los LLMs pueden generar narrativas largas y complejas que carecen de un toque personal y profundidad temática. Esto muestra que hay más en la creatividad que solo usar palabras elegantes.
Implicaciones
Esta investigación trae a colación varios puntos importantes:
Entender la Creatividad: Nuestro estudio sugiere que las formas en que las máquinas y los humanos entienden la creatividad varían mucho. A los humanos les gusta contar historias que son simples pero sorprendentes, mientras que las máquinas a menudo confunden creatividad con complejidad.
Mejoras Futuras: Hay una clara necesidad de mejores métodos para potenciar la creatividad de estos modelos de lenguaje. Esto podría involucrar nuevas formas de dar instrucciones o incluso ajustar el funcionamiento interno del modelo.
Evaluación Más Amplia: Necesitamos métodos más completos para evaluar la creatividad en humanos y en IA. Es importante asegurar que las pruebas que usamos reflejen con precisión cómo se manifiesta la creatividad en la narración de historias.
Aprendizaje Automático: Esta investigación podría informar futuros desarrollos en IA, ayudando a los diseñadores a crear modelos que puedan pensar un poco más como los humanos al contar historias.
Conclusión
En resumen, nuestro análisis muestra que aunque los LLMs han avanzado significativamente en la generación de texto, aún no se comparan con las capacidades creativas de los humanos cotidianos cuando se trata de contar historias. Los escritores humanos pueden crear relatos matizados que sorprenden y cautivan a los lectores, mientras que los modelos a menudo producen narrativas más largas pero menos imaginativas.
Probablemente veremos esfuerzos continuos para mejorar la creatividad de los LLMs, y quién sabe, tal vez algún día las máquinas contarán historias que no solo nos asombren con su complejidad, sino que también se conecten con nosotros a un nivel personal. Hasta entonces, parece que cuando se trata de contar historias, ¡nada supera la chispa única de la creatividad humana!
Título: Evaluating Creative Short Story Generation in Humans and Large Language Models
Resumen: Storytelling is a fundamental aspect of human communication, relying heavily on creativity to produce narratives that are novel, appropriate, and surprising. While large language models (LLMs) have recently demonstrated the ability to generate high-quality stories, their creative capabilities remain underexplored. Previous research has either focused on creativity tests requiring short responses or primarily compared model performance in story generation to that of professional writers. However, the question of whether LLMs exhibit creativity in writing short stories on par with the average human remains unanswered. In this work, we conduct a systematic analysis of creativity in short story generation across LLMs and everyday people. Using a five-sentence creative story task, commonly employed in psychology to assess human creativity, we automatically evaluate model- and human-generated stories across several dimensions of creativity, including novelty, surprise, and diversity. Our findings reveal that while LLMs can generate stylistically complex stories, they tend to fall short in terms of creativity when compared to average human writers.
Autores: Mete Ismayilzada, Claire Stevenson, Lonneke van der Plas
Última actualización: 2024-11-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2411.02316
Fuente PDF: https://arxiv.org/pdf/2411.02316
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.