Einsatz von KI zum Erhalt von Kulturdenkmälern im Iran
Die Forschung konzentriert sich darauf, KI-Techniken anzuwenden, um das Erbe von historischen Gebäuden effektiv zu bewahren.
― 7 min Lesedauer
Inhaltsverzeichnis
Kulturelles Erbe Gebäude (KEGs) sind wichtige Teile unserer Geschichte und Identität als Menschen. Sie sind oft gefährdet durch Schäden oder sogar Zerstörung. Um diese Gebäude zu schützen, ist es entscheidend, Probleme schnell und genau zu finden und zu beheben. Diese Forschung hat das Ziel, fortschrittliche Computertechniken zu nutzen, um KEGs im Iran zu identifizieren, die repariert werden müssen. Viele Entwicklungsländer, einschliesslich Iran, verlassen sich immer noch auf veraltete Methoden, die viel menschlichen Aufwand und Aufsicht erfordern, was die Erhaltung langsam und weniger effektiv macht.
Bedeutung der kulturellen Erbe Gebäude
KEGs fallen in zwei Haupttypen: materielle und immaterielle. Materielle Erben sind physische Strukturen, die man sehen und erleben kann, während immaterielle Erben Traditionen, Sprachen und Kunstformen umfassen. KEGs haben als materielle Erben einen universellen Wert und müssen für zukünftige Generationen erhalten bleiben. Sie spiegeln die Geschichte und Kultur von Gesellschaften wider. Viele dieser Gebäude sind verschiedenen Gefahren ausgesetzt, darunter Naturkatastrophen, Materialverschleiss, Besucheraktivitäten und Vandalismus.
In den letzten Jahren hat das globale Bewusstsein für die Notwendigkeit, kulturelles Erbe zu erhalten, zugenommen. Spezialisten aus verschiedenen Bereichen heben die Rolle hervor, die es bei der Förderung des Nationalstolzes und des künstlerischen Ausdrucks spielt. Der Iran, reich an kulturellem Erbe, belegt weltweit einen hohen Rang mit seinen vielen UNESCO-Weltkulturerbestätten. Aber ein Grossteil seines Erbes ist nicht gut erhalten, was die Fähigkeit des Landes beeinträchtigt, weitere KEGs bei der UNESCO zu registrieren. Einige Gebäude sind in so schlechtem Zustand, dass sie nicht restauriert werden können.
Herausforderungen bei der Erhaltung
Die Erhaltung von KEGs erfordert fortschrittliche Methoden, da sie nicht für den Erhalt versetzt werden können. Leider gibt es Herausforderungen wie:
- Mangel an qualifizierten Arbeitskräften und Ressourcen.
- Veraltete Techniken, die moderne Technologie nicht nutzen.
Viele Länder haben ähnliche Probleme. Daher wird es entscheidend, Methoden der künstlichen Intelligenz (KI) wie maschinelles Lernen (ML) und tiefes Lernen (DL) zu nutzen. Diese Technologien können den Erhaltungsprozess optimieren, die Genauigkeit verbessern und menschliche Fehler reduzieren.
Forschungsziel
Das Hauptziel dieser Forschung ist es, ein einfaches und effektives tiefes Lernsystem zu erstellen, das KEGs identifiziert, die einer Erhaltung bedürfen. Es wurde so entworfen, dass es für Länder mit weniger Ressourcen zugänglich ist. Das Modell, das wir entwickelt haben, ist leichtgewichtig, was bedeutet, dass es auf weniger leistungsstarken Geräten ohne Einbussen bei der Effektivität funktionieren kann. Diese Fähigkeit ermöglicht es, auch mit begrenzten Daten und Rechenleistung gute Ergebnisse zu erzielen.
Datensammlung und Vorbereitung
Für dieses Projekt haben wir einen Datensatz mit etwa 10.500 Bildern von KEGs zusammengestellt. Diese Bilder stammen aus verschiedenen Quellen, darunter:
- Die Archive des iranischen Ministeriums für kulturelles Erbe.
- Persönliche Sammlungen der Forscher.
- Vor Ort während der Studie aufgenommene Fotos.
- Einige Internet-beschaffte Bilder, die minimal verwendet wurden.
Wir haben sichergestellt, dass die Bilder den Qualitätsstandards entsprechen, indem wir diejenigen entfernt haben, die von schlechter Qualität oder stark bearbeitet waren. Der Datensatz umfasst eine Vielzahl von Strukturen, Architekturstilen und sichtbaren Mängeln, die verschiedene Regionen des Irans repräsentieren.
Reinigung und Kennzeichnung der Daten
Bevor wir die Bilder analysiert haben, haben wir sie gereinigt und vorbereitet, indem wir:
- Bilder von schlechter Qualität entfernt haben, die nicht unseren Standards entsprachen.
- Etwaige Bilddrehprobleme behoben haben.
- Die Bilder auf eine bestimmte Auflösung skaliert haben.
- Die Farben normalisiert haben, um Konsistenz zu gewährleisten.
Für die Kennzeichnung haben wir ein binäres System verwendet: Ein Label zeigt das Fehlen von physischen Mängeln an, während das andere deren Vorhandensein angibt. Um die Genauigkeit zu gewährleisten, haben drei qualifizierte Praktiker jedes Bild unabhängig markiert, und das endgültige Label wurde durch Mehrheitsentscheid festgelegt.
Tiefenlernen-Techniken
Zur Analyse der Bilder haben wir Convolutional Neural Networks (CNNs) verwendet, eine beliebte Methode in der Computer Vision. CNNs sind effektiv bei der Verarbeitung von Bilddaten, da sie automatisch relevante Merkmale extrahieren können. Diese Automatisierung spart Zeit im Vergleich zu traditionellen Methoden, die manuelle Merkmalsengineering erforden.
Wir haben mehrere bekannte CNN-Architekturen implementiert, darunter ResNet, Inception und MobileNet. Diese Modelle ermöglichten es uns, den besten Fit für unsere Daten und Ziele auszuwählen.
Transferlernen
Angesichts der begrenzten Datenmenge haben wir eine Methode namens Transferlernen verwendet. Diese Technik nimmt ein Modell, das bereits auf einem grossen Datensatz trainiert wurde, und passt es für unsere spezifische Aufgabe an. Transferlernen besteht aus zwei Hauptphasen: dem Ändern der Ausgabeschicht, um zu unserem Problem zu passen, und dem Feinabstimmen des Modells, um besser zu unseren Daten zu passen.
Klassenaktivierungskarten
Obwohl CNNs mächtig sind, ist eines ihrer Nachteile ihre "Black-Box"-Natur; es kann unklar sein, wie sie zu ihren Entscheidungen kommen. Um dies zu adressieren, haben wir eine Technik namens Klassenaktivierungskarten (CAM) verwendet. Durch die Anwendung von Gradienten aus der Ausgabeschicht und einer letzten Schicht des CNNs konnten wir Heatmaps erstellen, die zeigen, welche Teile eines Bildes die Klassifikation des Modells beeinflussten. Dies hilft, die Bereiche zu visualisieren, die während der Untersuchung besondere Aufmerksamkeit benötigen.
Regularisierungstechniken
Overfitting ist ein häufiges Problem im tiefen Lernen, das auftritt, wenn ein Modell die Trainingsdaten zu gut lernt und nicht in der Lage ist, auf neue Daten zu generalisieren. Um dem entgegenzuwirken, haben wir mehrere Regularisierungstechniken angewendet, um die Leistung unseres Modells zu verbessern. Dazu gehörten:
- Datenaugmentation: Nutzung vorhandener Daten, um Variationen zu erstellen und die Grösse des Trainingsdatensatzes zu erhöhen.
- Dropout: Zufälliges Ignorieren einiger Neuronen während des Trainings zur Verbesserung der Generalisierung.
- L2-Regularisierung: Hinzufügen einer Strafe für zu komplexe Modelle.
- Batch-Normalisierung: Standardisierung der Eingaben für jede Schicht, um das Training zu beschleunigen und die Stabilität zu verbessern.
Bewertung der Modellleistung
Um die Effektivität unseres Modells zu bewerten, haben wir verschiedene Metriken verwendet. Angesichts des Klassenungleichgewichts in unserem Datensatz könnte sich das ausschliessliche Fokussieren auf die Genauigkeit als irreführend herausstellen. Daher haben wir auch Folgendes berücksichtigt:
- Präzision: Der Anteil der wahren positiven Ergebnisse unter allen positiven Vorhersagen.
- Recall: Die Fähigkeit des Modells, tatsächliche Positives zu identifizieren.
- F-Score: Eine ausgewogene Messung, die Präzision und Recall kombiniert.
- Fläche unter der ROC-Kurve (AUC): Eine Metrik, die die Fähigkeit des Modells anzeigt, Klassen effektiv zu unterscheiden.
Ergebnisse
Nach umfangreichem Training und Feinabstimmung der Hyperparameter erzielten wir vielversprechende Ergebnisse. Das Modell, das MobileNet verwendete, schnitt am besten unter allen Architekturen ab und erzielte über 90 % bei allen Metriken. Seine leichte Bauweise ist besonders vorteilhaft für die Echtzeitanalyse auf Geräten mit geringerer Rechenleistung, wie z.B. Mobiltelefonen.
Die Leistungsergebnisse unterstreichen die Fähigkeit des Modells, Mängel in KEGs zu identifizieren und zeigen, dass Techniken des tiefen Lernens den Erhaltungsprozess erheblich verbessern können. Unser trainiertes Modell bietet eine praktikable Lösung für Praktiker im Iran und potenziell in anderen Ländern mit ähnlichen Bedürfnissen im Bereich des kulturellen Erbes.
Diskussion
Diese Forschung zeigt, dass Modelle des tiefen Lernens bei der Erhaltung von KEGs helfen können, indem sie physische Mängel genau erkennen. Unser vielfältiger Datensatz und die verwendeten Methoden haben dazu beigetragen, die Robustheit des Modells zu verbessern. Die innovative Kombination aus Datenaugmentation, Transferlernen und Regularisierungstechniken hat dazu beigetragen, Overfitting zu reduzieren und die Generalisierung zu verbessern.
Während wir starke Leistungen erzielt haben, haben wir auch Bereiche für Verbesserungen in zukünftigen Arbeiten identifiziert. Der Zugang zu grösseren Datensätzen und fortschrittlicheren Rechenressourcen könnte die Nutzung anspruchsvollerer Methoden wie Objekterkennung und Instanzsegmentierung erleichtern, was möglicherweise zu noch besseren Ergebnissen führt. Darüber hinaus könnte der Einsatz von generativen gegnerischen Netzwerken (GANs) Vorteile bei Restaurierungsvorschlägen auf Basis der Modellausgaben bieten.
Fazit
Zusammenfassend zeigt diese Forschung, dass tiefes Lernen einen wertvollen Ansatz für die Erhaltung von kulturellen Erbe-Gebäuden bietet. Durch die Entwicklung eines Modells, das Bilder klassifiziert und Mängel lokalisiert, können wir die Erhaltungsbemühungen effektiver unterstützen als mit traditionellen Methoden. Wenn Praktiker beginnen, diese fortschrittlichen Techniken zu nutzen, erwarten wir signifikante Verbesserungen in der Geschwindigkeit und Genauigkeit der Erhaltungsbemühungen für KEGs.
Diese Arbeit hebt nicht nur die Vorteile moderner Technologie beim Erhalt unseres kulturellen Erbes hervor, sondern schafft auch einen Rahmen für weitere Erkundungen an der Schnittstelle von künstlicher Intelligenz und Erhaltung des Erbes.
Titel: Deep Learning for Identifying Iran's Cultural Heritage Buildings in Need of Conservation Using Image Classification and Grad-CAM
Zusammenfassung: The cultural heritage buildings (CHB), which are part of mankind's history and identity, are in constant danger of damage or in extreme situations total destruction. That being said, it's of utmost importance to preserve them by identifying the existent, or presumptive, defects using novel methods so that renovation processes can be done in a timely manner and with higher accuracy. The main goal of this research is to use new deep learning (DL) methods in the process of preserving CHBs (situated in Iran); a goal that has been neglected especially in developing countries such as Iran, as these countries still preserve their CHBs using manual, and even archaic, methods that need direct human supervision. Having proven their effectiveness and performance when it comes to processing images, the convolutional neural networks (CNN) are a staple in computer vision (CV) literacy and this paper is not exempt. When lacking enough CHB images, training a CNN from scratch would be very difficult and prone to overfitting; that's why we opted to use a technique called transfer learning (TL) in which we used pre-trained ResNet, MobileNet, and Inception networks, for classification. Even more, the Grad-CAM was utilized to localize the defects to some extent. The final results were very favorable based on those of similar research. The final proposed model can pave the way for moving from manual to unmanned CHB conservation, hence an increase in accuracy and a decrease in human-induced errors.
Autoren: Mahdi Bahrami, Amir Albadvi
Letzte Aktualisierung: 2023-02-28 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2302.14354
Quell-PDF: https://arxiv.org/pdf/2302.14354
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.