Bewertung von generativer KI in der Strömungsmechanik
Eine Studie über KI-generierte Bilder von Flüssigkeitsbewegungen zeigt Bedenken zur Genauigkeit.
― 8 min Lesedauer
Inhaltsverzeichnis
Generative KI-Tools werden immer beliebter und kommen in vielen Bereichen zum Einsatz, um Bilder, Videos und sogar Sounds basierend auf Text zu erstellen, den Leute bereitstellen. Dieser Bericht untersucht, wie gut diese KI-Modelle Bilder zu fluiden Bewegungen erstellen können, was ein Thema in der Fluidmechanik ist. Verschiedene Tools, wie Midjourney, Dall·E und andere von grossen Firmen wie Google und Microsoft, wurden unter die Lupe genommen.
Ziel dieser Studie ist es herauszufinden, ob diese KI-Tools Bilder erzeugen können, die gängige Szenarien von fluiden Bewegungen akkurat darstellen. Diese Szenarien beinhalten bekannte Konzepte wie die "Von Kármán Wirbelstrasse", "Strömung um eine Tragfläche" und mehr. Wir haben die KI-generierten Bilder mit echten Bildern aus Experimenten und numerischen Simulationen verglichen.
Unsere Forschung zeigt, dass viele der KI-Modelle nicht gut darin abschneiden, Bilder für fluide Bewegungen zu erzeugen. Das wirft Bedenken auf, wenn es darum geht, diese Tools in Bildungseinrichtungen zu verwenden. Es ist wichtig, dass Schüler und Lehrer sich der Möglichkeit bewusst sind, dass diese KI-Tools irreführende Informationen liefern können. Dieser Bericht zielt auch darauf ab, die Entwickler dieser KI-Tools zu informieren und sie zu ermutigen, an der Verbesserung ihrer Modelle zu arbeiten.
Hintergrund zu generativen KI-Tools
Generative KI-Modelle können verschiedene Medientypen erstellen, einschliesslich Bilder und Videos. Grosse Sprachmodelle (LLMs) sind ein Teil dieser Technologie, die sich über die Jahre stark verbessert hat. Verschiedene namhafte Firmen wie Google und OpenAI haben an diesen Modellen gearbeitet.
KI-Tools, die Text in Bilder umwandeln, können auf zwei Arten bewertet werden. Zuerst fragen wir uns, ob die KI ein Bild erzeugen kann, das irgendwie mit dem gegebenen Prompt in Zusammenhang steht. Wenn wir zum Beispiel "Von Kármán Wirbelstrasse" eingeben, erwarten wir ein Bild, das dieses Konzept widerspiegelt. Die zweite Ebene bewertet, ob das Bild die spezifischen Merkmale der untersuchten fluiden Bewegung akkurat beschreibt.
Dieser Bericht konzentriert sich mehr auf die erste Bewertungsstufe. Wir vergleichen die KI-generierten Bilder mit denen aus seriösen Quellen in der Fluiddynamik.
Überblick über die Fluiddynamik
Fluiddynamik befasst sich damit, wie Flüssigkeiten sich verhalten und bewegen. Die grundlegenden Prinzipien stützen sich auf einige wichtige Gleichungen. Eine wichtige Gleichung ist die Kontinuitätsgleichung, die sich darauf konzentriert, wie die Masse der Flüssigkeit erhalten bleibt. Eine andere wichtige Gleichung ist die Impulsgleichung, die uns hilft zu verstehen, wie Flüssigkeiten sich bewegen. Es gibt zwei Arten von Strömungen, die wir betrachten: kompressibel und inkompressibel.
Fluide Bewegungen können auf verschiedene Weisen untersucht werden. Eine Methode sind die eulerianischen Methoden, die betrachten, wie Flüssigkeiten an bestimmten Punkten im Raum bewegt werden. Eine andere Methode sind die lagrangianischen Methoden, die die Flüssigkeit verfolgen, während sie sich durch Raum und Zeit bewegt.
Text-zu-Bild-Generierung
In diesem Abschnitt stellen wir mehrere generative Anwendungen vor, die Bilder aus Text-Prompts erstellen und vergleichen ihre Ausgaben. Wir haben verschiedene Modelle betrachtet: Midjourney, DALL·E, Runway ML, Gemini, Meta AI und Leonardo AI.
Midjourney
Midjourney wurde entwickelt, um den Nutzern zu helfen, ihre Text-Prompts in Bilder umzuwandeln. Es funktioniert über eine Social-Media-Plattform und bietet verschiedene Abonnementpläne an. Midjourney wurde in verschiedenen Bereichen wie Design eingesetzt, aber wir konzentrieren uns auf seine Fähigkeit in der Fluiddynamik.
DALL·E
DALL·E wird von OpenAI entwickelt. Die neueste Version, DALL·E 3, ist in andere Anwendungen wie ChatGPT integriert. Nutzer können Text eingeben und im Gegenzug Bilder erhalten. Der Preisplan erlaubt monatliche Abonnements.
Runway ML
Runway ML bietet Tools zum Erzeugen von Bildern und Videos. Es wird von fortschrittlichen Deep-Learning-Technologien unterstützt. Mit mehreren verfügbaren Stilen haben wir für diesen Bericht die Basisauswahl verwendet.
Gemini
Gemini, erstellt von Google, kann Bilder aus Text generieren und sie in Worten beschreiben. Es gibt sowohl kostenlose als auch kostenpflichtige Abonnements. In diesem Bericht haben wir die erweiterte Version für eine bessere Bildgenerierung verwendet.
Meta AI
Meta AI basiert auf der LLaMA-Architektur und kann ebenfalls Bilder aus Text-Prompts erstellen. Das Modell ist derzeit kostenlos verfügbar, aber auf bestimmte Regionen beschränkt.
Leonardo AI
Leonardo AI nutzt Deep-Learning-Methoden zur Erstellung von Bildern. Wir haben ein Premium-Abonnement in unserer Untersuchung verwendet, um auf seine verschiedenen Modelle und Funktionen zuzugreifen.
Leistung der KI-Modelle
Wir haben uns darauf konzentriert, wie gut diese sechs Modelle Bilder als Antwort auf verschiedene Fluiddynamik-Prompts erzeugt haben. Wir zeigen Beispiele, um ihre Genauigkeit zu veranschaulichen.
Von Kármán Wirbelstrasse
Für den Prompt "Von Kármán Wirbelstrasse" haben wir die generierten Bilder untersucht. Mehrere Modelle, wie Midjourney und Leonardo AI, haben den Begriff "Strasse" falsch verstanden, was zu unzusammenhängenden Bildern führte. Während andere Modelle die Idee von Wirbeln erfassten, zeigten sie nicht genau das Konzept der Wirbelstrasse.
Strömung um einen zylindrischen Körper
Als nächstes haben wir den Prompt "Strömung um einen zylindrischen Körper" analysiert. Keine der generativen Modelle lieferte eine akkurate Darstellung. Während sie einen Zylinder zeigten, verfehlten sie es, die Flüssigkeitsströmung richtig darzustellen. Einige Bilder deuteten nicht einmal auf eine tatsächliche Flüssigkeitsbewegung hin.
Hydraulischer Sprung
Für den Prompt "hydraulischer Sprung" waren die Ausgaben erneut unzufriedenstellend. Einige Modelle interpretierten "hydraulischer Sprung" falsch und zeigten unzusammenhängende Bilder von Menschen, die sprangen, anstatt ein fluiddynamisches Konzept zu veranschaulichen.
Kelvin-Helmholtz-Instabilität
Auf den Prompt "Kelvin-Helmholtz-Instabilität" reagierten viele der generierten Bilder relevant. Modelle wie Gemini und DALL·E erfassten die Instabilität, die in Wolken zu sehen ist, was eine natürliche Manifestation des Konzepts ist.
Schockwellen an einem Überschallkörper
Für den Prompt "Schockwellen an einem scharf-nasigen Überschallkörper" erzeugten Modelle wie DALL·E und Gemini die relevantesten Bilder. Andere wiesen künstlerische Interpretationen von Flugzeugen auf, anstatt wissenschaftlich genaue Darstellungen von Schockwellen zu liefern.
Rayleigh-Taylor-Instabilität
Als wir den Prompt "Rayleigh-Taylor-Instabilität" untersuchten, generierten DALL·E und Gemini Bilder, die die Interaktion verschiedener Flüssigkeiten korrekt darstellten. Allerdings produzierten andere Modelle unzusammenhängende Bilder, die das Phänomen nicht darstellten.
Kapillarwelle
Der Prompt "Kapillarwelle" führte zu verschiedenen Ausgaben. Gemini schnitt am besten ab und zeigte die Elemente einer Kapillarwelle genau. Im Gegensatz dazu generierten andere Modelle Bilder, die allgemeine Wellen darstellten, die an Spezifität mangelten.
Strömung über eine Tragfläche
Für den Prompt "Strömung über eine Tragfläche" erzeugten einige Modelle Bilder von Flugzeugflügeln. Die generierten Bilder vermittelten jedoch nicht effektiv das Konzept der Fluiddynamik, was die anhaltenden Herausforderungen dieser KI-Modelle bei der genauen Interpretation solcher Prompts verdeutlicht.
Freiflächenströmung
Der Prompt "Freiflächenströmung" führte zu interessanten Antworten. Die meisten generierten Bilder zeigten natürliche Szenen, die mit alltäglichen Erfahrungen relevant sind. Das zeigt, dass die KI-Modelle diesen gängigen Begriff besser handhabten als wissenschaftlichere Prompts.
Bénard-Zellen
Für "Bénard-Zellen" lieferte nur Gemini ein relevantes Bild. Andere Modelle erzeugten Bilder von Zellen aus verschiedenen Kontexten, was auf ein Missverständnis des Begriffs innerhalb der Fluidmechanik hinweist.
Strömung über einen Flugzeugflügel
Zuletzt haben wir den Prompt "Strömung über einen Flugzeugflügel" bewertet und die Ausgaben untersucht. Die meisten Modelle erzeugten Bilder von Flugzeugflügeln und konzentrierten sich eher auf die ästhetische Seite als auf die akkurate Darstellung der Fluiddynamik-Prinzipien.
Text-zu-Video-Generierung
Bei der Erweiterung zur Video-Generierung konzentrierten wir uns darauf, wie Meta AI und Runway ML Videos basierend auf Text-Prompts erstellen können. Anstatt Video-Inhalte direkt zu erzeugen, erstellt Meta AI zunächst Bilder und animiert diese dann. Runway ML generiert ähnlich Bilder, bevor es kurze Video-Clips erstellt.
Leistungsvergleich
Wir verglichen die Videos, die aus dem Prompt "Wasser um einen zylindrischen Körper" generiert wurden. Während kein Video die Erwartungen vollständig erfüllte, lieferte Runway ML eine visuell ansprechende Darstellung, die die Wechselwirkung von Wasser mit dem Zylinder zeigte. Meta AI produzierte interessante, aber fehlerhafte Darstellungen.
Bild-zu-Text- und Video-zu-Text-Generierung
In diesem Abschnitt bewerteten wir, wie gut KI-Modelle Bilder und Videos von fluiden Bewegungen beschreiben können. Wir verwendeten Ansätze mit ChatGPT und Gemini, um Texte basierend auf hochgeladenen Bildern fluiden Bewegungen zu generieren.
Bildbeschreibungen
Mit ChatGPT analysierten wir seine Fähigkeit, detaillierte Beschreibungen für Bilder zu schreiben, die fluiden Bewegungen darstellten. Seine Beschreibungen waren oft genauer als die von anderen Modellen, was ein besseres Verständnis der Fluiddynamik zeigt.
Videobeschreibungen
Für die Videobeschreibungen nutzten wir ein Modell namens Video-LLaMA. Die Ergebnisse waren jedoch enttäuschend, da Video-LLaMA es nicht schaffte, die Hauptkonzepte der Fluiddynamik effektiv zu vermitteln. Seine Beschreibungen gaben zwar einige korrekte Details wieder, verpassten jedoch oft die zentralen Phänomene, die in den Videos dargestellt wurden.
Zusammenfassung und Fazit
Zusammenfassend untersucht dieser Bericht die Fähigkeiten mehrerer generativer KI-Modelle bei der Erstellung von Bildern, Videos und Texten, die sich auf Fluiddynamik beziehen. Insgesamt zeigen die Ergebnisse eine mangelnde Genauigkeit der Ausgaben im Vergleich zu echten Darstellungen von fluiden Bewegungsvorgängen. Diese Einschränkung ist besonders besorgniserregend in Bildungskontexten, wo Fehlinformationen Schüler irreführen könnten.
Wir glauben, dass diese Probleme aus einem Mangel an Trainingsdaten, die sich auf fluiddynamische Phänomene beziehen, resultieren. Viele der relevanten Daten sind durch Urheberrechtsgesetze geschützt, was ihre Verfügbarkeit zur Schulung von KI-Modellen einschränkt. Um die Genauigkeit zu verbessern, könnte es vorteilhaft sein, wenn akademische Institutionen und KI-Entwickler zusammenarbeiten, um fokussiertere Trainingsdaten bereitzustellen.
Zukünftige Arbeiten könnten diese Studie auf andere Bereiche des Ingenieurwesens ausdehnen, um Einblicke in die Fähigkeiten und Einschränkungen der KI-Modelle in verschiedenen Disziplinen zu gewinnen. Die Hoffnung ist, dass wir durch Zusammenarbeit die Lücke zwischen den Fähigkeiten generativer KI und den spezifischen Bedürfnissen der Fluiddynamik und anderer Ingenieurdisziplinen schliessen können.
Titel: A Misleading Gallery of Fluid Motion by Generative Artificial Intelligence
Zusammenfassung: In this technical report, we extensively investigate the accuracy of outputs from well-known generative artificial intelligence (AI) applications in response to prompts describing common fluid motion phenomena familiar to the fluid mechanics community. We examine a range of applications, including Midjourney, Dall-E, Runway ML, Microsoft Designer, Gemini, Meta AI, and Leonardo AI, introduced by prominent companies such as Google, OpenAI, Meta, and Microsoft. Our text prompts for generating images or videos include examples such as "Von Karman vortex street", "flow past an airfoil", "Kelvin-Helmholtz instability", "shock waves on a sharp-nosed supersonic body", etc. We compare the images generated by these applications with real images from laboratory experiments and numerical software. Our findings indicate that these generative AI models are not adequately trained in fluid dynamics imagery, leading to potentially misleading outputs. Beyond text-to-image/video generation, we further explore the transition from image/video to text generation using these AI tools, aiming to investigate the accuracy of their descriptions of fluid motion phenomena. This report serves as a cautionary note for educators in academic institutions, highlighting the potential for these tools to mislead students. It also aims to inform researchers at these renowned companies, encouraging them to address this issue. We conjecture that a primary reason for this shortcoming is the limited access to copyright-protected fluid motion images from scientific journals.
Autoren: Ali Kashefi
Letzte Aktualisierung: 2024-05-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2405.15406
Quell-PDF: https://arxiv.org/pdf/2405.15406
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://orcid.org/0000-0000-0000-0000
- https://www.midjourney.com/home
- https://chat.openai.com
- https://designer.microsoft.com
- https://runwayml.com/
- https://gemini.google.com/app
- https://ai.meta.com/meta-ai/
- https://leonardo.ai
- https://commonresearchmodel.larc.nasa.gov/high-lift-crm/
- https://github.com/Ali-Stanford/MisleadingGalleryOfFluidMotionByAI
- https://llava.hliu.cc
- https://doi.org/10.1017/jfm.2021.841
- https://doi.org/10.1017/jfm.2022.511
- https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs