Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Software-Entwicklung# Maschinelles Lernen

Neudefinition von Architektur-Frameworks für maschinelles Lernen

Dieser Artikel behandelt die Verbesserung von Architektur-Frameworks für die Bedürfnisse der modernen Datenwissenschaft.

― 8 min Lesedauer


Architektur fürArchitektur fürML-Systeme neu gestaltenLernens gerecht zu werden.Herausforderungen des maschinellenRahmenwerke verbessern, um den
Inhaltsverzeichnis

Architektur-Frameworks sind Richtlinien, die helfen zu beschreiben, wie Systeme und Software organisiert sind. Diese Frameworks unterstützen dabei, die beteiligten Personen zu identifizieren und ihre Anliegen zu berücksichtigen. Es gibt viele Frameworks, wie TOGAF und DoDAF, aber die meisten nehmen die Perspektiven von Leuten, die mit Datenwissenschaft oder maschinellem Lernen (ML) arbeiten, wie Datenwissenschaftlern und Dateningenieuren, nicht in Betracht. Diese Vernachlässigung bedeutet, dass die bestehenden Frameworks nicht die Bedürfnisse dieser Fachleute vollständig widerspiegeln.

In diesem Artikel geht es darum, dass wir diese Frameworks verbessern müssen, um die Perspektiven der Stakeholder in der Datenwissenschaft einzubeziehen. Wir konzentrieren uns auf Cyber-Physische Systeme (CPS), die die physische Welt mit digitalen Prozessen verbinden. Diese Systeme sind zunehmend auf ML angewiesen, was es notwendig macht, Architektur-Frameworks anzupassen, um den Anforderungen moderner Anwendungen gerecht zu werden.

Hintergrund

Architektur-Frameworks bieten eine Reihe von Regeln und Praktiken, um zu beschreiben, wie Systeme in bestimmten Anwendungsbereichen funktionieren. Zu den bekannten Beispielen gehören TOGAF und DoDAF. Diese Frameworks haben es erfolgreich geschafft, verschiedene Stakeholder zu identifizieren, wie Softwareentwickler und Geschäftsexperten, und spezifische Architekturansichten zu definieren. Allerdings haben diese Frameworks die Anliegen der Stakeholder in Bezug auf ML nicht ausreichend erfasst, selbst wenn ML immer mehr in Softwaresysteme integriert wird.

ML funktioniert anders als traditionelle Softwareentwicklung und umfasst spezifische Fachbegriffe, Fähigkeiten und Praktiken. Neuere Studien haben die Bedeutung der Zusammenarbeit zwischen Softwareingenieuren und Datenwissenschaftlern bei der Entwicklung von ML-Systemen hervorgehoben. Verschiedene menschliche Faktoren stellen Herausforderungen in diesen Kooperationen dar, wie die Notwendigkeit, die Rollen, Verantwortlichkeiten und Schnittstellen zwischen den Arbeiten klar zu definieren.

Die Bedeutung der Sichtweisen der Stakeholder

Wir glauben, dass ML-Komponenten in intelligenten Systemen als eigenständige Elemente behandelt werden sollten und dass verschiedene Stakeholder diese Komponenten aus verschiedenen Blickwinkeln betrachten sollten. Zum Beispiel könnte ein Datenwissenschaftler sich auf die Genauigkeit eines ML-Modells konzentrieren, während ein Dateningenieur sicherstellen möchte, dass das System grosse Datenmengen effizient verarbeiten kann.

Die traditionellen Frameworks spiegeln diese Unterschiede nicht ausreichend wider, was Missverständnisse schaffen kann. Zum Beispiel könnten Softwareingenieure Sicherheitsanfälligkeiten in ML-Systemen übersehen oder die Auswirkungen der Leistung von ML-Modellen auf die Gesamtfunktionalität des Systems falsch einschätzen.

Cyber-Physische Systeme erklärt

CPS sind komplexe Systeme, die Elemente aus der physischen Welt mit Software kombinieren. Beispiele für CPS sind selbstfahrende Autos, intelligente Stromnetze und fortschrittliche Fertigungsroboter. Viele CPS beinhalten irgendeine Form von KI oder ML-Fähigkeiten, was zu dem Begriff "intelligente CPS" führt.

CPS können mit dem Internet verbunden sein (als Internet der Dinge oder IoT bezeichnet) oder isoliert betrieben werden. Ihre komplexe Natur, die oft mehrere Anwendungen, Technologien und Organisationen umfasst, bedeutet, dass eine klare Trennung der Anliegen besonders vorteilhaft ist.

Klare Standards zur Bewertung der CPS-Leistung sind entscheidend, insbesondere für intelligente Systeme, die ML nutzen. Unterschiedliche Stakeholder haben unterschiedliche Prioritäten, was es für Designer wichtig macht, alle potenziellen Bewertungskriterien frühzeitig in der Entwurfsphase zu verstehen.

Unsere Beiträge

Dieser Artikel leistet zwei wesentliche Beiträge. Erstens skizzieren wir mehrere neue Stakeholder-Gruppen, die Bedenken in Bezug auf ML haben könnten. Wir schlagen neue Perspektiven vor, um die Bedürfnisse dieser Stakeholder effektiv zu berücksichtigen. Zweitens stellen wir zwei Kriterienkataloge bereit, um ML-fähige CPS und die Werkzeuge, die für ihr Design verwendet werden, zu bewerten und zu benchmarken.

Der Forschungsprozess

Um zu verstehen, wie man Architektur-Frameworks für moderne Systeme anpassen kann, haben wir qualitative Forschungsmethoden genutzt, die Experteninterviews und Umfragen umfassen. Zunächst haben wir die bestehende Literatur untersucht, um eine Grundlage zu schaffen und Lücken zu identifizieren. Danach haben wir Experteninterviews durchgeführt und eine Umfrage entwickelt, um mehr Einblicke von einem breiteren Publikum von Fachleuten im Bereich zu erhalten.

Unsere Forschung wurde in mehreren Phasen durchgeführt:

  1. Wir haben Lücken in bestehenden Frameworks identifiziert und Forschungsfragen formuliert.
  2. Wir haben eine kleine Gruppe von Experten interviewt, um unsere Ergebnisse zu validieren und unsere Umfrage zu verfeinern.
  3. Eine grössere Umfrage wurde durchgeführt, um mehr Daten zu unseren Forschungsfragen zu sammeln.
  4. Schliesslich haben wir unser Wissen und zusätzliche Experteninterviews genutzt, um neue Stakeholder-Gruppen, Perspektiven und Ansichten vorzuschlagen.

Identifizierung neuer Stakeholder

Durch unsere Forschung haben wir zusätzliche Stakeholder identifiziert, die Bedenken in Bezug auf ML haben, wie Datenwissenschaftler und Dateningenieure. Bestehende Frameworks haben bereits Gruppen wie Endbenutzer und Softwareentwickler berücksichtigt, aber die Perspektiven von Datenwissenschaftlern und -ingenieuren fehlten.

Datenwissenschaftler konzentrieren sich darauf, effektive Datenanalysemodelle, einschliesslich ML-Modelle, zu erstellen, während Dateningenieure sich um die Implementierung dieser Modelle in Betriebssysteme kümmern. Ihre Zusammenarbeit mit anderen Stakeholdern ist entscheidend, um die Leistung und Sicherheit von ML-fähigen Systemen zu gewährleisten.

Aus unseren Interviews und Umfragen haben wir Rückmeldungen zu den spezifischen Anliegen dieser neuen Stakeholder gesammelt. Wir haben auch die Notwendigkeit erkannt, zwischen Dateningenieuren und traditionellen Datenbankingenieuren zu unterscheiden, aufgrund der Komplexität ihrer Aufgaben.

Vorschlag neuer Perspektiven

Wir schlagen vor, zwei neue Kategorien von Architekturansichten einzuführen: Analytische Modellierung und Analytische Operationen. Diese Perspektiven sind so gestaltet, dass sie die spezifischen Bedürfnisse von Datenwissenschaftlern und Dateningenieuren ansprechen. Durch die Anwendung bestehender Notationen und Modellierungswerkzeuge können wir Ansichten erstellen, die die Kommunikation zwischen diesen Stakeholdern und anderen, die am Systemdesign beteiligt sind, erleichtern.

Für die analytische Modellierung schlagen wir vor, mathematische Notationen zu verwenden, die in der Datenwissenschaft üblich sind, einschliesslich verschiedener grafischer Darstellungen. Für analytische Operationen empfehlen wir bestehende UML-Diagramme, um die Kommunikation zwischen den Stakeholdern zu unterstützen.

Unsere Umfrageergebnisse haben diese Ideen bestätigt und uns geholfen, die vorgeschlagenen Perspektiven und Ansichten zu validieren.

Verdienstkriterien für die Bewertung

Um ML-fähige CPS effektiv zu bewerten, schlagen wir zwei Sätze von Verdienstkriterien vor. Der erste Satz konzentriert sich auf die CPS selbst, während der zweite Satz die Modellierungswerkzeuge betrifft, die für ihr Design verwendet werden.

Verdienstkriterien für intelligente CPS

Wir haben die Verdienstkriterien zur Bewertung intelligenter CPS in drei Hauptgruppen kategorisiert:

  1. Allgemeine Software- und Systemtechnik (SSE) Kriterien.
  2. Kriterien im Zusammenhang mit verteilter Datenverarbeitung, insbesondere im Kontext von CPS und IoT.
  3. Kriterien, die spezifisch für Datenengineering und Analytics sind.

Jede Kategorie enthält spezifische Kriterien, die darauf abzielen, Diskussionen zwischen verschiedenen Stakeholdern in diesen Bereichen zu erleichtern. Das Ziel dieser Kriterien ist es, sicherzustellen, dass das System funktionale und nicht-funktionale Anforderungen erfüllt, die für die Zufriedenheit der Stakeholder entscheidend sind.

Detaillierte Kriterien

Allgemeine SSE Verdienstkriterien
  1. Sicherheit und Datenschutz: Systeme müssen den Vorschriften entsprechen und Benutzerdaten schützen.
  2. Benutzerfreundlichkeit und Nachhaltigkeit: Systeme sollten hohe Benutzerfreundlichkeit, Zugänglichkeit bieten und umweltfreundlich sein.
  3. Modularität und Wartbarkeit: Systeme sollten leicht wartbar und entwickelbar sein.
  4. Zuverlässigkeit: Systeme sollten zuverlässig sein und unter erwarteten Bedingungen gut funktionieren.
  5. Effizienz: Systeme müssen hinsichtlich Ressourcenverbrauch und Leistung effizient sein.
  6. Erklärbarkeit und Transparenz: Systeme sollten so verständlich wie möglich sein.
  7. Kostenwirksamkeit: Systeme sollten erschwinglich in der Beschaffung und Wartung sein.
Kriterien im Zusammenhang mit verteilter Datenverarbeitung und CPS
  1. Sicherheitskonformität: Sicherstellen, dass Systeme sicher sind, insbesondere im Umgang mit Menschen.
  2. Interoperabilität: Systeme sollten gut mit anderen funktionieren, auch wenn sie unterschiedliche Technologien nutzen.
  3. Widerstandsfähigkeit und Wiederherstellung: Systeme sollten in der Lage sein, sich nach einem Ausfall sanft zu erholen.
Kriterien, die spezifisch für Datenengineering und Analytics sind
  1. Modellleistung: Modelle müssen bestimmten Metriken wie Genauigkeit und Präzision entsprechen.
  2. Geschwindigkeit: Systeme sollten Aufgaben schnell ausführen.
  3. Generalisierung: Modelle sollten gut funktionieren, selbst wenn sich die Eingabedaten ändern.
  4. Umgang mit Unsicherheit: Systeme müssen erkennen, wenn Eingabedaten von den erwarteten Mustern abweichen.
  5. End-to-End-Fähigkeit: Systeme sollten die gesamte Datenverarbeitungspipeline verwalten.
  6. Automatisierung: Die Modellierungs-Pipeline sollte nach Möglichkeit automatisierte Prozesse umfassen.

Verdienstkriterien für Modellierungswerkzeuge

Wir haben auch Kriterien zur Bewertung von Werkzeugen gesammelt, die beim Design von CPS verwendet werden. Einige wichtige Kriterien sind:

  1. Fachspezifität: Werkzeuge können für spezifische Anwendungsbereiche angepasst oder allgemeiner sein.
  2. Eignung: Werkzeuge sollten die benötigte Modellierungssprache effektiv unterstützen.
  3. Benutzbarkeit der Syntax: Werkzeuge sollten benutzerfreundlich sein, um sie Praktikern zugänglich zu machen.
  4. Unterstützung der Zusammenarbeit: Werkzeuge sollten die Zusammenarbeit zwischen verschiedenen Stakeholdern erleichtern.
  5. Automatisierungskapazität: Werkzeuge sollten idealerweise automatisierte Codegenerierung und Unterstützung für Tests bieten.

Validitätsüberlegungen

Während unsere Forschung wertvolle Einblicke bietet, gibt es einige Validitätsbedenken. Unsere Literaturübersicht war nicht vollständig systematisch, und die Auswahl der Experten könnte das breitere Feld nicht vollständig repräsentieren. Darüber hinaus begrenzt die Anzahl der Teilnehmer, obwohl signifikant, die Generalisierbarkeit unserer Ergebnisse.

Fazit und zukünftige Richtungen

Zusammenfassend haben wir Verbesserungen für Architektur-Frameworks vorgeschlagen, um besser auf die Bedürfnisse von ML-fähigen Systemen, insbesondere Cyber-Physische Systeme, einzugehen. Wir haben neue Stakeholder-Gruppen identifiziert, neue Perspektiven und Ansichten vorgeschlagen und Verdienstkriterien zur Bewertung sowohl von CPS als auch von den Werkzeugen entwickelt, die für ihr Design verwendet werden.

Die Erkenntnisse aus unserer Forschung sollen die Kommunikation und Zusammenarbeit zwischen den Stakeholdern erleichtern und letztendlich die Entwicklung von ML-fähigen CPS verbessern. Zukünftige Arbeiten könnten sich mit zusätzlichen Stakeholder-Gruppen befassen, um messbarere Kennzahlen zu entwickeln und unsere vorgeschlagenen Kriterien zu verfeinern. Der Fokus sollte darauf liegen, die Lücken zwischen verschiedenen Bereichen zu überbrücken, um verbesserte Entwicklungspraktiken und Ergebnisse im Bereich ML und CPS zu fördern.

Originalquelle

Titel: Machine Learning-Enabled Software and System Architecture Frameworks

Zusammenfassung: Various architecture frameworks for software, systems, and enterprises have been proposed in the literature. They identified several stakeholders and defined modeling perspectives, architecture viewpoints, and views to frame and address stakeholder concerns. However, the stakeholders with data science and Machine Learning (ML) related concerns, such as data scientists and data engineers, are yet to be included in existing architecture frameworks. Only this way can we envision a holistic system architecture description of an ML-enabled system. Note that the ML component behavior and functionalities are special and should be distinguished from traditional software system behavior and functionalities. The main reason is that the actual functionality should be inferred from data instead of being specified at design time. Additionally, the structural models of ML components, such as ML model architectures, are typically specified using different notations and formalisms from what the Software Engineering (SE) community uses for software structural models. Yet, these two aspects, namely ML and non-ML, are becoming so intertwined that it necessitates an extension of software architecture frameworks and modeling practices toward supporting ML-enabled system architectures. In this paper, we address this gap through an empirical study using an online survey instrument. We surveyed 61 subject matter experts from over 25 organizations in 10 countries.

Autoren: Armin Moin, Atta Badii, Stephan Günnemann, Moharram Challenger

Letzte Aktualisierung: 2024-06-26 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.05239

Quell-PDF: https://arxiv.org/pdf/2308.05239

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel