Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Maschinelles Lernen# Künstliche Intelligenz# Neuronales und evolutionäres Rechnen

Verbesserung der Merkmalsauswahl mit rauschverstärktem Boruta

Eine neue Methode verbessert die Merkmalsauswahl, indem sie Schattenmerkmale mit Rauschen verändert.

― 8 min Lesedauer


Geräusch-unterstützteGeräusch-unterstützteMerkmalsauswahldie Genauigkeit der Merkmalsauswahl.Eine revolutionäre Methode verbessert
Inhaltsverzeichnis

Während wir immer mehr Daten erzeugen, wird es schwieriger für Maschinen, mit all diesen Infos umzugehen. Besonders wenn die Daten viele Teile oder Merkmale haben, spricht man oft vom "Fluch der Dimensionalität." Um Maschinen zu helfen, diese Daten besser zu verstehen und zu nutzen, können wir etwas namens Merkmalsauswahl verwenden, das hilft, die wichtigsten Teile der Daten zu identifizieren. Eine Methode zur Merkmalsauswahl ist der Boruta-Algorithmus. Diese Methode schaut sich alle Merkmale an und vergleicht sie mit zufälligen Versionen dieser Merkmale, die Schattenmerkmale genannt werden, um zu sehen, welche tatsächlich nützlich sind.

Aber es gibt einen Haken. Nur weil ein Merkmal wichtig ist, heisst das nicht, dass es für sich allein steht; seine Bedeutung wird von anderen Datenmerkmalen beeinflusst. Um den Boruta-Algorithmus zu verbessern, haben wir beschlossen, etwas Rauschen zu den Schattenmerkmalen hinzuzufügen. Das bedeutet, dass wir diese Merkmale zufällig verändern, damit sie nicht einfach Kopien der Originale sind. Damit hoffen wir, den Prozess der Auswahl wichtiger Merkmale noch effektiver zu gestalten.

Der Bedarf an Merkmalsauswahl

In letzter Zeit haben wir einen Anstieg von Datenzentren und Technologien gesehen, die grosse Datenmengen verwalten, oft als Big Data bezeichnet. Dieser Anstieg der Datengenerierung ermöglicht es uns, Einblicke zu gewinnen, die vorher nicht möglich waren. Das bringt aber auch Herausforderungen mit sich, besonders bei der Verwendung von Machine-Learning-Algorithmen. Hochdimensionale Daten können diese Algorithmen verwirren, was es ihnen schwer macht, die richtigen Muster zu lernen.

Eine Möglichkeit, dieses Problem anzugehen, ist die Dimensionsreduktion, also die Reduzierung der Anzahl von Merkmalen oder Teilen in den Daten. Es gibt zwei Hauptansätze, um dies zu tun:

  1. Merkmalextraktion: Dies erzeugt eine kleinere Menge neuer Merkmale aus den Originaldaten, während die meisten wichtigen Informationen erhalten bleiben.
  2. Merkmalsauswahl: Diese Methode wählt nur die relevantesten Merkmale aus den Originaldaten aus, basierend darauf, wie sehr sie beim Treffen von Vorhersagen helfen.

Beide Methoden können überwacht, nicht überwacht oder halbüberwacht sein. Bei der überwachten Auswahl wissen wir, wie die Datenpunkte beschriftet sind, während wir bei der nicht überwachten Auswahl das nicht wissen.

Verschiedene Methoden der Merkmalsauswahl

Es gibt mehrere Möglichkeiten, Merkmale auszuwählen:

  • Filtermethoden: Diese verwenden statistische Masse, um Merkmale zu bewerten und die besten auszuwählen.
  • Wrapper-Methoden: Diese bewerten Teilmengen von Merkmalen, um die zu finden, die die Genauigkeit des Modells verbessern.
  • Hybridmethoden: Diese verwenden sowohl Filter- als auch Wrapper-Methoden, wobei ein Filter zuerst die Merkmale einschränkt, die dann von der Wrapper-Methode bewertet werden.
  • Eingebettete Methoden: Diese stützen sich auf spezifische Machine-Learning-Modelle, um Merkmale während des Trainings auszuwählen.

Random Forest ist ein beliebtes Modell zur eingebetteten Merkmalsauswahl. Es erstellt viele Entscheidungsbäume und entscheidet auf Basis der Mehrheit. Dieses Modell berechnet auch, wie wichtig jedes Merkmal ist, indem es die Leistungsunterschiede überprüft, wenn die Werte zufällig gemischt werden.

Der Boruta-Algorithmus

Der Boruta-Algorithmus baut auf der Idee von Random Forest auf, indem er originale Merkmale mit Schattenmerkmalen vergleicht. Er erstellt Kopien der originalen Merkmale, mischt deren Werte und überprüft dann die Wichtigkeit jedes Merkmals im Vergleich zu diesen gemischten Versionen. Wenn ein originales Merkmal sich als wichtiger herausstellt als die Schattenmerkmale, wird es als signifikant angesehen.

Der Algorithmus testet Merkmale weiter, bis alle klassifiziert sind oder eine bestimmte Anzahl von Runden abgeschlossen ist. Obwohl Boruta in vielen Bereichen nützlich war, hat es Einschränkungen, weil es nur die originalen Merkmale neu mischt. Wir denken, dass das die grundlegenden Eigenschaften eines Merkmals nicht verändert. Deswegen schlagen wir eine neue Methode vor, die Rauschen zu den Schattenmerkmalen hinzufügt.

Einführung von Rauschen in Schattenmerkmale

Indem wir die Schattenmerkmale mit Rauschen modifizieren, schaffen wir eine abwechslungsreichere Menge zufälliger Merkmale, gegen die die originalen Merkmale konkurrieren können. Diese Variation kann potenziell zu einer besseren Leistung bei der Merkmalsauswahl führen. Das Rauschen, das wir hinzufügen, spiegelt die statistischen Eigenschaften des originalen Merkmals wider, stört jedoch seine Verbindung zur Zielvariablen.

Die Grundidee ist einfach: Wenn wir die Schattenmerkmale ausreichend verändern, könnten wir mehr relevante Informationen darüber aufdecken, welche Merkmale bei Vorhersagen am wichtigsten sind.

Wie die neue Methode funktioniert

In unserer vorgeschlagenen Methode verwenden wir ein flaches neuronales Netzwerk, um die Wichtigkeit von Merkmalen zu bewerten. Wir beginnen mit einem Trainingssatz, der die originalen Merkmale und die neu geschaffenen Rauschen-augmented Schattenmerkmale kombiniert. Nach der Aufbereitung der Daten trainieren wir das Modell, um die Basisleistung zu bewerten.

Dann wird jedes Merkmal durch Hinzufügen eines Rauschfaktors gestört und gemischt, während die anderen Merkmale intakt bleiben. Danach messen wir, wie sich das auf die Leistung des Modells auswirkt. Die einflussreichsten Störungen zeigen auf, welche Merkmale die grösste Bedeutung haben.

Der Algorithmus verfolgt weiter, welche originalen Merkmale besser abschneiden als der Schwellenwert, der von den einflussreichen Schattenmerkmalen gesetzt wurde. Dieser Prozess wird mehrmals wiederholt, und Merkmale, die genügend "Treffer" sammeln, werden als wichtig ausgewählt.

Testen der vorgeschlagenen Methode

Um unsere Methode zu validieren, haben wir sie an vier verschiedenen öffentlichen Datensätzen getestet, die jeweils einzigartig in ihren Eigenschaften sind. Diese Datensätze enthalten verschiedene Aufnahmen und Instanzen, die helfen, zu verstehen, wie gut unsere Methode im Vergleich zum traditionellen Boruta abschneidet.

  1. Aktivitätskennung basierend auf Smartphones: Daten, die von Smartphone-Sensoren gesammelt wurden, um grundlegende Aktivitäten zu erkennen.
  2. Luftdruckausfall bei Lkw: Daten von Scania-Lkw, die den Luftdruck überwachen, oft mit fehlenden Werten.
  3. Erkennung epileptischer Anfälle: EEG-aufgezeichnete Daten, die darauf abzielen, die Gehirnaktivität während Anfällen zu identifizieren.
  4. Klassifikation von Parkinson-Krankheit: Sprachmessungen von Personen mit und ohne Parkinson-Krankheit.

Die Leistung unserer Methode wurde mit Boruta über diese Datensätze verglichen, um zu sehen, wie gut sie die Merkmalsauswahl optimieren kann, während sie die Genauigkeit beibehält.

Ergebnisse der Methode

Nach den Experimenten stellten wir fest, dass unser Rauschen-augmented Boruta konstant besser abschnitt als die ursprüngliche Boruta-Methode, was zu genaueren Vorhersagen führte und insgesamt weniger Merkmale erforderte. Das bedeutet weniger Komplexität, was die Modelle leichter verständlich und schneller berechenbar macht.

Durch die Untersuchung der Ergebnisse aus mehreren Durchläufen wurde klar, dass unsere Methode zu einem stabileren und effektiveren Prozess der Merkmalsauswahl führte. Tatsächlich erreichte die Rauschen-augmented Version durchweg eine höhere Genauigkeit über alle getesteten Datensätze.

In Fällen, in denen Boruta gut abschnitt, zeigte unsere Methode sogar noch bessere Ergebnisse. Zum Beispiel sahen wir im Smartphone-Datensatz einen deutlichen Anstieg der Genauigkeit. In anderen Fällen, selbst mit einem leichten Anstieg, blieb unser Ansatz wettbewerbsfähig, trotz der Reduzierung der Anzahl der ausgewählten Merkmale.

Statistische Analyse

Um die Gültigkeit unserer Ergebnisse sicherzustellen, führten wir auch statistische Tests über die Ergebnisse hinweg durch. Bei den meisten Datensätzen zeigten die Ergebnisse eine normale Verteilung, sodass wir den t-Test für zwei Stichproben verwenden konnten. Bei einem Datensatz wurde ein anderer Test verwendet, da die Ergebnisse diesem Muster nicht folgten. In jedem Fall bestätigten die Tests, dass unsere Methode die Boruta-Algorithmus signifikant übertraf und ihre Effektivität bei der Auswahl wichtiger Merkmale feststellte.

Vertrauensniveaus in Vorhersagen

Ein weiterer interessanter Aspekt, den wir untersucht haben, war das Vertrauensniveau in die Vorhersagen, die von jeder Methode getroffen wurden. Durch die Berechnung der Vorhersageentropie konnten wir einschätzen, wie sicher jedes Modell in seinen Entscheidungen war. Ein niedriger Entropiewert deutete auf hohe Sicherheit hin, während hohe Werte auf Unsicherheit hindeuteten. Unsere vorgeschlagene Methode zeigte insgesamt ein höheres Vertrauen, was darauf hindeutet, dass sie nicht nur bessere Merkmale auswählte, sondern auch sicherere Vorhersagen machte.

Weitere Einblicke aus der Studie

Um besser zu verstehen, wie sich Variationen im Rauschfaktor auf die Leistung auswirkten, führten wir zusätzliche Tests mit verschiedenen Werten durch. Wir fanden heraus, dass höhere Rauschlevel oft zu einer strengeren Merkmalsauswahl führten, was mehr über die Effektivität bestimmter Merkmale offenbarte und weniger wichtige ausschloss.

Fazit

Zusammenfassend lässt sich sagen, dass unsere Studie einen neuen Ansatz zur Merkmalsauswahl vorgestellt hat, der traditionell Methoden erheblich verbessert, indem Schattenmerkmale mit Rauschen modifiziert werden. Die Rauschen-augmented Boruta-Methode hat vielversprechende Ergebnisse gezeigt, indem sie Genauigkeit behielt und gleichzeitig weniger und relevantere Merkmale auswählte. Dies passt gut zum Ziel, Modelle einfacher und verständlicher zu machen.

Die Erkenntnisse aus unserer Analyse heben die Bedeutung der Auswahl der richtigen Parameter für eine optimale Leistung hervor, insbesondere in Bezug auf das hinzugefügte Rauschen zu den Schattenmerkmalen. Diese adaptive Strategie eröffnet neue Möglichkeiten für weitere Forschung und Anwendungen im Bereich des maschinellen Lernens und betont das Gleichgewicht zwischen Modellkomplexität und prädiktiver Kraft.

Originalquelle

Titel: Noise-Augmented Boruta: The Neural Network Perturbation Infusion with Boruta Feature Selection

Zusammenfassung: With the surge in data generation, both vertically (i.e., volume of data) and horizontally (i.e., dimensionality), the burden of the curse of dimensionality has become increasingly palpable. Feature selection, a key facet of dimensionality reduction techniques, has advanced considerably to address this challenge. One such advancement is the Boruta feature selection algorithm, which successfully discerns meaningful features by contrasting them to their permutated counterparts known as shadow features. However, the significance of a feature is shaped more by the data's overall traits than by its intrinsic value, a sentiment echoed in the conventional Boruta algorithm where shadow features closely mimic the characteristics of the original ones. Building on this premise, this paper introduces an innovative approach to the Boruta feature selection algorithm by incorporating noise into the shadow variables. Drawing parallels from the perturbation analysis framework of artificial neural networks, this evolved version of the Boruta method is presented. Rigorous testing on four publicly available benchmark datasets revealed that this proposed technique outperforms the classic Boruta algorithm, underscoring its potential for enhanced, accurate feature selection.

Autoren: Hassan Gharoun, Navid Yazdanjoe, Mohammad Sadegh Khorshidi, Amir H. Gandomi

Letzte Aktualisierung: 2023-09-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.09694

Quell-PDF: https://arxiv.org/pdf/2309.09694

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel