Volvo Discovery Challenge: Vorhersage von Lkw-Teile-Ausfällen
Datenwissenschaftler sagen das Risiko für den Ausfall von Lkw-Teilen mit Machine-Learning-Techniken vorher.
Mahmoud Rahat, Peyman Sheikholharam Mashhadi, Sławomir Nowaczyk, Shamik Choudhury, Leo Petrin, Thorsteinn Rognvaldsson, Andreas Voskou, Carlo Metta, Claudio Savelli
― 5 min Lesedauer
Inhaltsverzeichnis
Die Volvo Discovery Challenge war ein Wettbewerb, der 2024 auf der Europäischen Konferenz für Maschinelles Lernen und Datenanalyse stattfand. Das Hauptziel war es, das Ausfallrisiko eines bestimmten Teils, das in Volvo-Lkw verwendet wird, vorherzusagen. Den Teilnehmern wurde ein einzigartiger Datensatz zur Verfügung gestellt, der Daten von vielen Lkw enthielt.
Wettbewerbsdetails
Die Teilnehmer sollten vorhersagen, wie wahrscheinlich es war, dass ein Teil ausfällt, basierend auf verschiedenen Messungen, die von den Lkw genommen wurden. Die Daten wurden in zwei Gruppen unterteilt: den Trainingsdatensatz, der Informationen zur ersten Generation des Teils enthielt, und den Testdatensatz, der Daten aus der ersten und zweiten Generation beinhaltete.
Insgesamt nahmen 52 Datenwissenschaftler an der Challenge teil und reichten 791 Beiträge ein. Der Wettbewerb war so aufgebaut, dass kreative Lösungen mit maschinellen Lerntechniken gefördert wurden.
Wettbewerbsstruktur
Der Wettbewerb war in zwei Phasen unterteilt.
Entwicklungsphase
Diese Phase dauerte vom 15. Mai bis 15. Juni 2024. Die Teilnehmer konnten täglich Vorhersagen einreichen und erhielten Bewertungen basierend auf einem kleinen Teil der tatsächlichen Daten. Dadurch konnten die Teilnehmer sehen, wie gut ihre Modelle im Vergleich zu anderen abschneiden.
Finalphase
Vom 16. bis 30. Juni 2024 waren die Teilnehmer auf maximal drei Einreichungen beschränkt. Diese wurden mit allen tatsächlichen Daten bewertet, und die beste Bewertung bestimmte den Gewinner.
Die drei besten Teams hatten die Möglichkeit, ihre Methoden auf der Konferenz zu präsentieren. Der Wettbewerb bot auch Geldpreise für die Gewinner.
Einreichungsprozess
Die Teilnehmer reichten ihre Vorhersagen in einem ZIP-Dateiformat ein. Jede Datei enthielt Vorhersagen für jedes Lkw-Teil und gab an, ob das Ausfallrisiko niedrig, mittel oder hoch war. Ein spezieller Code wurde verwendet, um die Vorhersagen zu bewerten und sie basierend darauf zu punkten, wie gut sie mit den tatsächlichen Ergebnissen übereinstimmten.
Um den Teilnehmern zu helfen, wurde ein Starter-Kit bereitgestellt, das Beispielcode für die Erstellung von Einreichungen enthielt. Das erleichterte den Teilnehmern die Teilnahme am Wettbewerb.
Statistiken der Einreichungen
Im Verlauf des Wettbewerbs wurden 791 Einreichungen gemacht. In der Finalphase gab es weniger Einreichungen als in der Entwicklungsphase, was darauf hinweist, dass viele Teilnehmer sich in der ersten Phase darauf konzentrierten, ihre Modelle zu perfektionieren. Die Ergebnisse zeigten, dass die besten Teams in beiden Phasen ähnliche Punktzahlen erzielten, was darauf hindeutet, dass ihre Modelle robust waren.
Datenbankinformationen
Der im Wettbewerb verwendete Datensatz bestand aus drei Hauptdateien. Die Trainingsdaten umfassten über 157.000 Messungen von Lkw, die ihre Leistung über die Zeit dokumentierten. Jeder Eintrag hatte auch ein Risikoniveau zugewiesen. Die Daten enthielten eine Mischung aus gesunden Lkw und solchen, die Ausfälle erlitten hatten.
Die Testdatei enthielt ähnliche Informationen, war jedoch komplexer, da sie Daten verschiedener Generationen des Lkw-Teils abdeckte. Die Teilnehmer mussten Vorhersagen basierend auf diesem variierenden Datensatz treffen.
Risikoklassifizierung
Die Herausforderung kategorisierte das Risiko in drei Stufen: niedrig, mittel und hoch. Die Klassifikation basierte darauf, wie nah jede Messung am Zeitpunkt eines Teilausfalls war. Einträge, die näher am Ausfallereignis lagen, wurden als hochriskant gekennzeichnet, während die weiter entfernt als niedrigriskant eingestuft wurden.
Die Teilnehmer sollten Modelle entwickeln, die diese Risikostufen basierend auf den bereitgestellten Messungen genau vorhersagen konnten.
Techniken der Teilnehmer
Die Teilnehmer erkundeten verschiedene Methoden des maschinellen Lernens, um die Genauigkeit ihrer Vorhersagen zu verbessern. Einige der bemerkenswerten Ansätze beinhalteten:
- Tabellarische Datenklassifizierung: Einige Teams verwendeten Klassifikationstechniken, um einzelne Messungen zu analysieren und dabei den Kontext der Messungen zu berücksichtigen.
- Sequenzmodelle: Andere Teilnehmer nutzten Sequenzmodelle, um die Reihenfolge und das Timing der Messungen zu berücksichtigen und sich auf Trends über die Zeit zu konzentrieren.
- Merkmalsengineering: Das Erstellen neuer Merkmale aus den vorhandenen Daten, wie das Berechnen von Differenzen über die Zeit, half, die Vorhersagen der Modelle zu verbessern.
- Ensemble-Methoden: Teams kombinierten Vorhersagen aus mehreren Modellen, um bessere Ergebnisse zu erzielen und gleichzeitig individuelle Verzerrungen zu minimieren.
Gewinnstrategien
Verschiedene Teams hatten einzigartige Strategien, die ihnen halfen, im Wettbewerb erfolgreich zu sein.
Team RandomGuy
Dieses Team verwendete einen Klassifikationsansatz, der die Aufgabe in zwei Schritte unterteilte. Zuerst bestimmten sie, ob eine Reihe von Messungen ungesund war. Für die als ungesund identifizierten Daten analysierten sie dann das Risikoniveau. Sie verwendeten fortgeschrittene Modelle, die für die Arbeit mit tabellarischen Daten ausgelegt waren, und führten manuelle Anpassungen ein, um Vorhersagen weiter zu verbessern.
Team CarloMetta
Dieses Team konzentrierte sich auf den Einsatz fortgeschrittener maschineller Lerntechniken, insbesondere von Long Short-Term Memory (LSTM) Netzwerken. Sie verwendeten auch eine Methode namens Pseudo-Labeling, die es ihnen ermöglichte, ihr Modell zu verfeinern, indem sie Vorhersagen aus dem Testdatensatz zurück in ihren Trainingspool einfügten. Diese Iteration half, die Genauigkeit und Anpassungsfähigkeit ihres Modells zu verbessern.
Team MALTO
Das letzte Team nutzte ein Transformermodell, das sich auf die Sequenz der Messungen konzentrierte und die Daten an den Testdatensatz anpasste. Sie erkundeten verschiedene Merkmale und Transformationen, um ihre Vorhersagen genauer zu machen. Ihr Ansatz beinhaltete die Verwendung von Ableitungen, um Trends hervorzuheben und die Daten effektiv zu manipulieren.
Fazit
Die Volvo Discovery Challenge engagierte Datenwissenschaftler weltweit, um ein reales Problem zu lösen: das Ausfallrisiko von Lkw-Teilen vorherzusagen. Der Einsatz von Techniken des maschinellen Lernens zeigte das Potenzial datengestützter Lösungen in der Automobilindustrie auf.
Der Wettbewerb trug nicht nur zu Fortschritten in der prädiktiven Wartung bei, sondern förderte auch die Zusammenarbeit und den gemeinsamen Austausch von Wissen unter den Teilnehmern. Während sich Strategien entwickelten und durch die Herausforderung verbessert wurden, wurden wertvolle Einblicke gewonnen, die zukünftige Bemühungen in diesem Bereich unterstützen können.
Die Challenge hob die Bedeutung kontinuierlicher Innovation und die Anwendung von Technologie hervor, um die Betriebssicherheit und Effizienz in der Automobilanwendung zu verbessern.
Titel: Volvo Discovery Challenge at ECML-PKDD 2024
Zusammenfassung: This paper presents an overview of the Volvo Discovery Challenge, held during the ECML-PKDD 2024 conference. The challenge's goal was to predict the failure risk of an anonymized component in Volvo trucks using a newly published dataset. The test data included observations from two generations (gen1 and gen2) of the component, while the training data was provided only for gen1. The challenge attracted 52 data scientists from around the world who submitted a total of 791 entries. We provide a brief description of the problem definition, challenge setup, and statistics about the submissions. In the section on winning methodologies, the first, second, and third-place winners of the competition briefly describe their proposed methods and provide GitHub links to their implemented code. The shared code can be interesting as an advanced methodology for researchers in the predictive maintenance domain. The competition was hosted on the Codabench platform.
Autoren: Mahmoud Rahat, Peyman Sheikholharam Mashhadi, Sławomir Nowaczyk, Shamik Choudhury, Leo Petrin, Thorsteinn Rognvaldsson, Andreas Voskou, Carlo Metta, Claudio Savelli
Letzte Aktualisierung: 2024-09-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.11446
Quell-PDF: https://arxiv.org/pdf/2409.11446
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.codabench.org/competitions/3022/?secret_key=c5bb4004-b280-456e-84f6-3bb42737e8dc
- https://ecmlpkdd.org/2024/
- https://www.volvotrucks.com/en-en/
- https://www.hh.se/
- https://halmstaduniversity.box.com/s/x2e8gfcb37an77wwc566ror3r3sg2yg1
- https://github.com/mahmoudrahat/VolvoChallengeECML-PKDD2024/blob/main/scoring.py
- https://github.com/mahmoudrahat/VolvoChallengeECML-PKDD2024/blob/main/startkit.py
- https://github.com/mahmoudrahat/VolvoChallengeECML-PKDD2024/blob/main/SampleSubmission.zip
- https://github.com/avoskou/Volvo-Challenge
- https://github.com/CuriosAI/Volvo
- https://github.com/MAL-TO/Volvo-Discovery-Challenge-ECML-PKDD-2024
- https://www.springer.com/lncs