Herausforderungen und Trends beim Teilen von Software-Forschungsartefakten
Eine Studie über das Teilen, die Pflege und die Qualität von Softwareforschungsartefakten.
― 5 min Lesedauer
Inhaltsverzeichnis
In den letzten Jahren wurden Forscher im Bereich Software Engineering (SE) dazu ermutigt, ihre Forschungsartefakte zusammen mit ihren Veröffentlichungen zu teilen. Artefakte können Code, Daten und andere Materialien umfassen, die die Ergebnisse eines Forschungspapiers unterstützen. Das Teilen dieser Materialien hilft anderen, die Arbeit zu verstehen, zu überprüfen und darauf aufzubauen. Allerdings muss der aktuelle Stand des Teilens dieser Artefakte sowie deren Qualität und Einfluss besser verstanden werden.
Dieses Papier konzentriert sich darauf, das Teilen von Artefakten in SE-Publikationen zu untersuchen und zu charakterisieren. Es betrachtet verschiedene Aspekte, wie Forscher ihre Artefakte teilen, wie gut sie sie pflegen, ihre Beliebtheit und ihre Qualität.
Datensammlung
Um Daten zu sammeln, haben wir 2.196 Papiere untersucht, die von 2017 bis 2022 auf führenden SE-Konferenzen veröffentlicht wurden, und insgesamt 1.487 Artefakte extrahiert. Die Konferenzen, auf die wir uns konzentriert haben, sind in der Branche angesehen und bekannt für ihre hohen Forschungsstandards.
Die Studie untersucht vier Hauptbereiche:
- Übliche Praktiken zum Teilen von Artefakten.
- Pflege von Artefakten nach der Veröffentlichung.
- Beliebtheit von Artefakten in der Community.
- Die allgemeine Qualität dieser Artefakte.
Übliche Praktiken zum Teilen von Artefakten
Bei der Untersuchung, wie Forscher ihre Artefakte teilen, wurde festgestellt, dass eine wachsende Zahl von Veröffentlichungen inzwischen Links zu diesen Materialien enthält. Der Anteil der Papiere, die Artefakte bereitstellen, stieg von 60,1 % im Jahr 2017 auf 81,1 % im Jahr 2022.
Forscher nutzen verschiedene Plattformen, um Artefakte zu speichern und zu teilen, wobei GitHub die beliebteste Wahl ist. Viele Forscher bevorzugen GitHub wegen der Benutzerfreundlichkeit und Vertrautheit, obwohl einige Konferenzen empfehlen, Plattformen wie Zenodo zu nutzen, die speziell für das Teilen von Forschungsunterlagen entwickelt wurden. Der Anteil der Artefakte auf Zenodo stieg von 0 % im Jahr 2017 auf 16 % im Jahr 2022.
Python hat sich als die am häufigsten verwendete Programmiersprache für diese Artefakte herauskristallisiert und überholt Java, das traditionell bevorzugt wurde. Im Jahr 2022 waren 61,1 % der Artefakte in Python geschrieben, was den wachsenden Trend zur Nutzung dieser vielseitigen Sprache in der Forschung widerspiegelt.
Pflege von Artefakten
Die Pflege von Artefakten über die Zeit ist entscheidend, da Links inaktiv werden oder "verblassen" können, was oft als Link-Rot bezeichnet wird. Die Rate des Link-Rots hat zugenommen, was es für Forscher immer wichtiger macht, sicherzustellen, dass ihre Artefakte zugänglich bleiben.
Von 2017 bis 2022 stieg die Rate des Link-Rots von 4,8 % auf 29,8 %. Die spezielle Speicherungsmethode beeinflusst die Wahrscheinlichkeit des Link-Rots; Artefakte auf temporären Laufwerken hatten eine hohe Inaccessibility-Rate, während die auf GitHub und Zenodo gespeicherten Artefakte niedrigere Raten des Verschwindens aufwiesen.
Es ist auch wichtig, dass Forscher ihre Artefakte aktualisieren. Im Durchschnitt müssen über 90 % der Artefakte nach der Veröffentlichung kontinuierlich aktualisiert werden. Allerdings sinkt die Aktualisierungsrate über die Zeit, wobei ältere Artefakte mehr Aufmerksamkeit erhalten als neuere.
Beliebtheit von Artefakten
Die Beliebtheit von Artefakten kann durch die Anzahl der Sterne gemessen werden, die sie auf GitHub erhalten. Viele Artefakte erhalten wenig Aufmerksamkeit, wobei 65 % von ihnen zehn oder weniger Sterne haben. Das deutet darauf hin, dass trotz des Wachstums beim Teilen von Artefakten die meisten nicht viel Anerkennung oder Nutzung in der realen Welt erlangen.
Nur 3,7 % der Artefakte konnten mehr als 100 Sterne erreichen, was zeigt, dass zwar das Teilen von Artefakten zunimmt, viele dieser Materialien jedoch nicht ein breites Publikum erreichen oder einen wesentlichen Einfluss ausüben.
Qualität von Artefakten
Die Qualität der geteilten Artefakte ist wichtig für deren Nützlichkeit und Zuverlässigkeit. Diese Studie untersuchte auch die Dokumentationsqualität und die Häufigkeit von Code-Smells, die Indikatoren für potenzielle Probleme im Code sind.
Bei Python-Artefakten lösten über 96 % Code-Smell-Warnungen aus, was darauf hindeutet, dass viele Artefakte möglicherweise nicht den Standards entsprechen. Bei Java-Artefakten war die Warnrate mit 98,3 % sogar noch höher. Die Probleme beziehen sich hauptsächlich auf Codierungsrichtlinien und weniger auf funktionale Probleme, was Bedenken hinsichtlich der Gesamtqualität und Wartbarkeit dieser Artefakte aufwirft.
Ergebnisse und Vorschläge
Aus dieser Analyse geht hervor, dass das Teilen von Artefakten zwar in der SE-Community an Zugkraft gewinnt, aber mehrere Herausforderungen bestehen bleiben. Um die Qualität und Verfügbarkeit dieser Artefakte zu verbessern, können mehrere wichtige Empfehlungen ausgesprochen werden:
Verbesserung der Anleitung zur Artefaktvorbereitung: Konferenzen und Zeitschriften sollten klarere Richtlinien zur Vorbereitung von Artefakten bereitstellen, einschliesslich welcher Plattformen zu verwenden sind und wie Artefakte effektiv dokumentiert werden.
Förderung nachhaltiger Speicherlösungen: Forscher sollten ermutigt werden, etablierte Plattformen wie GitHub und Zenodo zum Speichern zu nutzen, um die Verwendung von temporären Laufwerken und persönlichen Websites zu minimieren, die anfällig für Link-Rot sind.
Standardisierung der URL-Standorte: Die URLs der Artefakte sollten in den Veröffentlichungen deutlich sichtbar sein, idealerweise in einem eigenen Abschnitt. Das würde es einfacher machen, sie zu finden und darauf zuzugreifen.
Ermutigung zur regelmässigen Pflege: Forscher sollten ihre Artefakte als laufende Projekte und nicht als einmalige Einreichungen behandeln. Regelmässige Updates sind entscheidend, um Artefakte nützlich zu halten.
Fokus auf Qualitätsverbesserungen: Es sollten grössere Anstrengungen unternommen werden, um die Qualität der Artefakte zu verbessern, insbesondere in Bezug auf die Dokumentation. Klare, umfassende README-Dateien können die Benutzerfreundlichkeit und Reproduzierbarkeit erheblich verbessern.
Bewusstsein für die Wichtigkeit von Artefakten schärfen: Die Community sollte weiterhin ein Umfeld fördern, in dem Artefakte als kritische Bestandteile der Forschung geschätzt werden, nicht nur als ergänzende Materialien.
Fazit
Die zunehmende Transparenz und das Teilen von Artefakten in SE-Publikationen stellt einen positiven Fortschritt im Bereich dar. Allerdings muss die Community weiterhin bestehende Probleme im Zusammenhang mit der Pflege, Beliebtheit und Qualität von Artefakten angehen. Durch die Umsetzung dieser Vorschläge können Forscher und Konferenzorganisatoren die Effektivität und den Einfluss von Forschungsartefakten verbessern, was letztendlich der breiteren Software-Engineering-Community zugutekommt.
Da Forschungsartefakte weiterhin eine entscheidende Rolle bei der Förderung von Zusammenarbeit, Überprüfung und Fortschritt im Software Engineering spielen, wird der Fokus auf die Verbesserung ihrer Praktiken entscheidend sein, um sicherzustellen, dass die Vorteile des Teilens dieser Materialien vollständig realisiert werden.
Titel: Research Artifacts in Software Engineering Publications: Status and Trends
Zusammenfassung: The Software Engineering (SE) community has been embracing the open science policy and encouraging researchers to disclose artifacts in their publications. However, the status and trends of artifact practice and quality remain unclear, lacking insights on further improvement. In this paper, we present an empirical study to characterize the research artifacts in SE publications. Specifically, we manually collect 1,487 artifacts from all 2,196 papers published in top-tier SE conferences (ASE, FSE, ICSE, and ISSTA) from 2017 to 2022. We investigate the common practices (e.g., URL location and format, storage websites), maintenance activities (e.g., last update time and URL validity), popularity (e.g., the number of stars on GitHub and characteristics), and quality (e.g., documentation and code smell) of these artifacts. Based on our analysis, we reveal a rise in publications providing artifacts. The usage of Zenodo for sharing artifacts has significantly increased. However, artifacts stored in GitHub tend to receive few stars, indicating a limited influence on real-world SE applications. We summarize the results and provide suggestions to different stakeholders in conjunction with current guidelines.
Autoren: Mugeng Liu, Xiaolong Huang, Wei He, Yibing Xie, Jie M. Zhang, Xiang Jing, Zhenpeng Chen, Yun Ma
Letzte Aktualisierung: 2024-04-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2404.06852
Quell-PDF: https://arxiv.org/pdf/2404.06852
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/lppl.txt
- https://github.com/
- https://zenodo.org/
- https://github.com/github/linguist
- https://hellogithub.com/report/tiobe/
- https://pmd.github.io/latest/pmd_rules_java.html
- https://ra.bdware.cn
- https://github.com/morgen52/SE-artifact
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://zenodo.org/record/7041714