Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Neue Methode zur Bewertung der Bildästhetik

Ein neuer Ansatz bewertet die Bildschönheit mit lernbaren Abfragen für bessere Ergebnisse.

― 6 min Lesedauer


Bildschönheit mit KIBildschönheit mit KIbewertenzur Bewertung der Bildästhetik.Lernbare Abfragen verbessern Methoden
Inhaltsverzeichnis

Die Bewertung der Bildästhetik (IAA) ist der Prozess, wie schön ein Bild aussieht. Das kann für viele Anwendungen nützlich sein, wie zum Beispiel Vorschläge für Bilder an Nutzer, Verbesserung der Bildqualität, Suche nach Bildern und sogar Erstellen neuer Bilder. Allerdings ist die Vorstellung von Schönheit in Bildern oft subjektiv, das heisst, was einer Person schön erscheint, könnte einer anderen nicht gefallen. Typischerweise basieren diese Bewertungen auf den Meinungen verschiedener Prüfer, die Punkte vergeben, die ihre Ansichten zur Bildqualität widerspiegeln.

Da unterschiedliche Bilder unterschiedliche Kriterien zur Bewertung ihrer Schönheit benötigen, haben frühe Arbeiten versucht, Bilder in Gruppen basierend auf ihrem Inhalt oder ihren Themen zu klassifizieren. Dann haben sie spezifische Merkmale extrahiert, um ihre ästhetischen Qualitäten zu bestimmen. Diese Merkmale könnten auf bekannten Fotografieregeln basieren oder mit Hilfe von Deep-Learning-Techniken gewonnen werden. Allerdings passen manche Bilder nicht so recht in eine spezifische Kategorie, was dazu führen kann, dass wichtige Details übersehen werden.

Spätere Ansätze haben versucht, Merkmale aus vortrainierten Modellen zu extrahieren. Diese Modelle sind darauf ausgelegt, allgemeine Bildkategorien und Szenen zu identifizieren, erfassen aber möglicherweise nicht die spezifischen Qualitäten, die ein Bild ästhetisch ansprechend machen. Das Trainieren dieser Modelle ist oft zeitaufwendig und kann zu weniger fokussiertem Lernen führen. Ein weiterer Nachteil ist, dass einige vorherige Methoden hochauflösende Bilder und zusätzliche Verarbeitungsschritte benötigen, was ineffizient sein kann.

Kürzlich hat die Verwendung grosser Vision-Sprachmodelle zugenommen, die Bilder und Text verknüpfen. Einige dieser Modelle haben versucht, spezifische Eingabeaufforderungen zu verwenden, um die Bildästhetik zu bewerten. Allerdings sind die in diesen Studien verwendeten Eingabeaufforderungen oft zu simpel und möglicherweise nicht für komplexere Ästhetikaufgaben geeignet.

Um diese Probleme anzugehen, wurde eine neue Methode namens Bildästhetikbewertung durch Lernbare Abfragen vorgeschlagen. Diese Methode passt lernbare Abfragen an, um ästhetische Merkmale aus Bildern zu extrahieren, die bereits von einem gefrorenen Bildencoder verarbeitet wurden. Mit einer flexiblen Anzahl an Abfragen kann dieses System sich auf die wichtigsten Aspekte eines Bildes konzentrieren, um dessen ästhetischen Wert zu bestimmen.

Wie der Ansatz funktioniert

Der vorgeschlagene Ansatz hat mehrere Komponenten. Zuerst gibt es einen gefrorenen Bildencoder, der Merkmale aus Bildern extrahiert. Dann gibt es eine Reihe von lernbaren Abfragen, die zusammen mit einem Abfrage-Transformer arbeiten, um zu lernen, wie man Bilder bewertet. Die letzte Komponente ist ein Vorhersagekopf, der die ästhetische Punktzahl für das Bild bereitstellt.

In diesem Setup helfen die lernbaren Abfragen, sich auf die relevantesten Teile der Bilder zu konzentrieren. Sie interagieren durch einen Prozess namens Selbstaufmerksamkeit, der es ihnen ermöglicht, voneinander zu lernen. Danach können sie mit den vortrainierten Bildmerkmalen unter Verwendung einer Technik namens Kreuzaufmerksamkeit arbeiten. So können sie ein umfassenderes Verständnis der Ästhetik in den Bildern erzeugen.

Das Modell trainieren

Um das Modell zu trainieren, können Bilder mit ihren zugehörigen ästhetischen Punktzahlen dargestellt werden. Der Prozess umfasst die Verwendung von vortrainierten Vision-Transformern, die das Bild in kleinere Teile oder Patch-Token zerlegen und einen speziellen Token am Anfang hinzufügen, um bei der Analyse zu helfen. Die extrahierten Merkmale können so ausgedrückt werden, dass das Modell sie verstehen und verwenden kann.

Sobald das Modell die ästhetischen Merkmale extrahiert, werden sie gemittelt, um ein umfassendes ästhetisches Profil des Bildes zu erstellen. Dieses Profil wird dann durch eine Feedforward-Schicht geleitet, die die Daten interpretieren und die ästhetische Punktzahl vorhersagen kann.

Experimentelle Bewertung

Die Forscher verwendeten ein bekanntes Dataset namens AVA-Dataset, um ihre Methode zu testen. Dieses Dataset enthält über 250.000 Bilder, wobei jedes Bild zwischen 78 und 549 ästhetische Punkte erhält. Um die Leistung des Modells zu bewerten, verglichen sie die vorhergesagten ästhetischen Punkte mit den tatsächlichen Punktzahlen, die von menschlichen Prüfern bereitgestellt wurden.

In ihren Experimenten fanden sie heraus, dass ihre vorgeschlagene Methode neun andere hochmoderne Methoden übertraf. Sie zeigten Verbesserungen bei der Messung der Korrelation zwischen den vorhergesagten und tatsächlichen ästhetischen Punkten, was darauf hindeutet, dass sie ein besseres Verständnis für die Schönheit von Bildern entwickeln konnte.

Bedeutung von Augmentierungen und Feedback

Die Forscher schauten sich auch die Auswirkungen verschiedener Bildaugmentierungstechniken an, wie z.B. horizontales Spiegeln und zufälliges Zuschneiden. Sie fanden heraus, dass zufälliges Zuschneiden die Leistung im Allgemeinen beeinträchtigte, während das Spiegeln von Bildern leicht half, was darauf hinweist, dass bestimmte Methoden den Lernprozess verbessern können, ohne die Ästhetik der Bilder zu beeinträchtigen.

Effekt von lernbaren Abfragen

Die Anzahl der verwendeten lernbaren Abfragen hat einen signifikanten Einfluss auf die Ergebnisse. In ihren Untersuchungen stellte sich heraus, dass eine kleinere Anzahl von Abfragen besser funktionierte als mehr. Das hebt die Fähigkeit der Methode hervor, relevante ästhetische Merkmale effektiv zu extrahieren, ohne auf zahlreiche Abfragen angewiesen zu sein.

Verschiedene Backbones erkunden

Unterschiedliche vortrainierte Modelle können bei der Bewertung der Bildästhetik unterschiedliche Ergebnisse liefern. Die Forscher testeten ihre Methode mit einigen beliebten vortrainierten Modellen. Die Ergebnisse zeigten, dass die Verwendung von lernbaren Abfragen aus diesen Modellen wichtige ästhetische Merkmale erfasste, wodurch sich ihr Ansatz von anderen abhob.

Modellinterpretation und Vorhersagen

Die Forscher präsentierten mehrere Beispiele, wie die vorgeschlagene Methode ästhetische Punktzahlen für verschiedene Arten von Bildern vorhersagt, wie Landschaften, Objekte und Porträts. Während das Modell im Allgemeinen gut abschneidet, hatte es Schwierigkeiten, Punkte für Bilder mit sehr hohen oder sehr niedrigen ästhetischen Werten vorherzusagen. Das könnte an der Verteilung des Datasets liegen, bei dem die Mehrheit der Bilder um einen Durchschnittswert herum fiel.

Leistungsevaluation zu verschiedenen Attributen

Die Forscher wollten auch sehen, wie gut ihre Methode auf andere Datasets verallgemeinert werden konnte. Sie testeten es gegen ein anderes Dataset, PARA, um die Leistung über verschiedene ästhetische Attribute hinweg zu bewerten. Ihre Ergebnisse deuteten darauf hin, dass die vorgeschlagene Methode effektiv die allgemeine Bildqualität bewerten kann, wobei sie sogar in spezifischen Attributen wie Komposition und Inhalt gut abschnitt. Allerdings hatte sie Schwierigkeiten mit dem Farb-Attribut, was wahrscheinlich an der Natur der Bilder in den verwendeten Datasets liegt.

Fazit und zukünftige Richtungen

Der vorgeschlagene Ansatz bewertet effektiv die Bildästhetik mithilfe von lernbaren Abfragen, die helfen, sich auf die relevantesten Merkmale der Bilder zu konzentrieren. Die umfangreichen Tests zeigten, dass diese Methode andere hochmoderne Strategien übertraf.

In Zukunft sind Verbesserungen geplant, um die Transparenz des Modells zu erhöhen, was möglicherweise ermöglichen könnte, detailliertere Ausgaben über die spezifischen ästhetischen Qualitäten von Bildern bereitzustellen. Das könnte Nutzern helfen, besser zu verstehen, warum die vorhergesagten Punkte so sind, wie sie sind, und das System benutzerfreundlicher und aufschlussreicher machen.

Mehr von den Autoren

Ähnliche Artikel