自動車ソフトウェアのデータ課題を乗り越える
自動車ソフトウェアは、安全性と効果のために正確なデータと協力が必要なんだ。
― 1 分で読む
目次
自動車ソフトウェアは機械学習(ML)を使うことで、特に自動運転や運転支援システムにおいて重要な役割を果たしてる。これらのシステムは、より安全で効率的な運転を実現するために、カメラやレーダーなどの各種センサーからのデータに依存してる。でも、このソフトウェアを作るのは簡単じゃない。大量のデータを集めて、正しくラベル付けする必要があって、これはめっちゃ大変。
自動車ソフトウェアにおけるデータの役割
データはMLモデルをトレーニングするために必須。データの質が良ければ良いほど、ソフトウェアのパフォーマンスもいい。だから、メーカーは自分たちのシステムに必要なデータの種類をしっかり指定しなきゃいけない。残念ながら、このプロセスで色んな問題が出てくる。メーカーとデータ供給者が必要なデータやその集め方について合意するのが難しいことが多い。
データニーズの明確化の課題
大きな課題の一つは、データの収集とラベル付けの方法についての明確なガイドラインが欠けてること。多くの企業がデータの質を定義したり、それを測定するのに苦労してる。例えば、集めたデータが十分に多様性がないと、ソフトウェアが実際の状況でうまく機能しなくて、偏った判断を引き起こす可能性がある。
業界の専門家との話し合いで、データ仕様を定義するための普遍的なアプローチはないことが明らかになった。企業によって「良い」データとは何かという考え方がバラバラで、コラボレーションが複雑になってる。
アノテーションの重要性
アノテーションは、MLモデルがデータから学べるようにラベルを付けるプロセスを指す。例えば、自動運転車では、歩行者、交通標識、他の車両などのオブジェクトを識別するために画像データにアノテーションを付ける必要がある。質の高いアノテーションはモデルのパフォーマンスを向上させるけど、これを生成するのはコストや時間がかかる。
さらに、アノテーションにおける「質」がどういうことかについて混乱が生じることが多い。正しくラベル付けされている項目の数なのか、それとも異なるアノテーターが同じデータをどれだけ一貫して解釈するかのことなのか。明確な定義がないことで、企業が基準を設定するのが難しくなってる。
データ収集とアノテーションプロセス
正しいデータを集めることはめっちゃ重要。企業はシステムにうまく合うデータを見つけるまでに、多くの試行錯誤をすることが多い。シミュレーションデータを使う方が、特にキャプチャしにくいレアなシナリオの場合、実世界のデータを集めるより効率的で安く済むこともある。ただ、シミュレーションに頼りすぎると、ソフトウェアが実際の世界でどんなふうに動くかの理解にギャップが生じてしまう。
効果的なデータ収集とアノテーションプロセスを構築するためには、企業はデータとアノテーションの両方から期待することを文書化して、システムの質と安全を維持しなきゃいけない。これらのプロセスの透明性は、業界が直面するいくつかの障害を克服するのに役立つ。
コラボレーションの課題
OEM(原装部品メーカー)とサプライヤーとのコラボレーションは、データ集約型ソフトウェアを開発するために欠かせない。OEMは期待を明確に伝える必要があって、サプライヤーはその期待を理解して満たさなきゃいけない。
しかし、従来の調達プロセスは、新しいデータ中心のプロジェクトにはうまく機能しないことがある。OEMは単なる顧客からサプライヤーとのパートナーシップに移行してる。これにはマインドセットとビジネスモデルの変化が必要。昔の「バイヤー-セラー」関係は、両者が開発プロセスに積極的に関わるダイナミックなパートナーシップに変わってきてる。
安全ケースの開発
自動車産業では、安全が最優先、特に自動運転技術の台頭により。安全ケースを作成するには、システムが安全要件を満たしているという証拠を集めることが必要。これには、データの収集と処理の各ステップを文書化して、安全基準を守ることを確認することが含まれる。
発生する課題は、安全ケースがしっかりしたデータに基づく必要があり、それは適切なデータ仕様と質の高いアノテーションに依存していること。これらの側面について明確な理解がなければ、ソフトウェアの責任や安全を確立するのが難しくなる。
新しいビジネスモデルと契約
より良いコラボレーションを促進するためには、新しいビジネスモデルと契約が必要。OEMは、堅苦しい仕様よりも共有目標に焦点を当てた柔軟な契約を作成する方向に移行してる。このシフトは、データと継続的なフィードバックを重視するソフトウェア開発の反復的な性質に適応するために重要。
通常、特定の成果物に焦点を当てた契約の従来の概念は、データ集約型ソフトウェア開発の流動的な性質を考慮して進化する必要がある。これには、こうしたプロジェクトにおいて成功を定義するための革新的なアプローチが求められる。
質の指標の必要性
コラボレーションの大きな障害の一つは、データとアノテーションの質を測定する指標を定義することの難しさ。企業はしばしば、受け入れられる質とは何か、一貫してそれを測定する方法を確立するのに苦労してる。
明確な指標がないと、サプライヤーとOEMは成功を効果的に評価できなくなる。彼らは、目標達成のための十分なガイダンスを提供しない抽象的な要件で作業をすることになりがち。すべての利害関係者が期待とパフォーマンス基準を揃えられるように、明確で実行可能な指標を開発する必要がある。
知識共有と文書化
効果的なコミュニケーションは、成功するコラボレーションにおいて重要。データ収集、プロセス、期待についてOEMとサプライヤー間で知識を共有することで、アウトカムが大きく改善される。企業は、すべてのプロセスが明確で透明に保たれるように、手続きを文書化する必要がある。
文書化の失敗は誤解やエラーを引き起こし、それがソフトウェアの安全性や質を低下させることになる。透明な文書化は、より良い責任の所在を確立でき、技術の包括的な安全ケースを構築するのに役立つ。
業界への提言
業界の専門家との会話やフィードバックを基に、状況改善のためのいくつかの提言ができる:
明確な定義:データとアノテーションの質についての明確な基準を開発して、あいまいさを最小限に抑え、すべての関係者が共通理解を持てるようにする。
柔軟な契約:堅苦しい契約から、反復開発と共有責任を可能にするより柔軟で協力的な合意に移行する。
質の指標:データ質とアノテーション質を一貫して測定できる具体的な指標を作成する。
文書化:すべてのプロセスが明確で透明になるよう、徹底した文書化の実践を導入する。
反復プロセス:データ選定やアノテーションにおいて反復的なプロセスを受け入れ、継続的な改善と適応を促進する。
トレーニングとリソース:すべての利害関係者がデータの質と効果的なアノテーションの重要性を理解できるよう、トレーニングやリソースを提供する。
コラボレーションツール:OEMとサプライヤー間での効果的なコラボレーションを促進するためにオープンソースツールや共有プラットフォームを活用する。
結論
自動車業界はデータ駆動型ソフトウェア開発へと大きく変わっていってる。データ仕様やアノテーションに関する課題を解決することは、自動車ソフトウェアシステムの安全性と有効性を確保するために重要。強化されたコラボレーション、明確な定義、柔軟な契約、改善されたコミュニケーションは、このプロセスの不可欠なステップ。
業界が進化し続ける中で、これらの課題に対処し、革新的な自動車技術の開発に関わるすべての利害関係者の成功したコラボレーションを確保するためには、継続的な研究と開発が必要。
タイトル: Automotive Perception Software Development: An Empirical Investigation into Data, Annotation, and Ecosystem Challenges
概要: Software that contains machine learning algorithms is an integral part of automotive perception, for example, in driving automation systems. The development of such software, specifically the training and validation of the machine learning components, require large annotated datasets. An industry of data and annotation services has emerged to serve the development of such data-intensive automotive software components. Wide-spread difficulties to specify data and annotation needs challenge collaborations between OEMs (Original Equipment Manufacturers) and their suppliers of software components, data, and annotations. This paper investigates the reasons for these difficulties for practitioners in the Swedish automotive industry to arrive at clear specifications for data and annotations. The results from an interview study show that a lack of effective metrics for data quality aspects, ambiguities in the way of working, unclear definitions of annotation quality, and deficits in the business ecosystems are causes for the difficulty in deriving the specifications. We provide a list of recommendations that can mitigate challenges when deriving specifications and we propose future research opportunities to overcome these challenges. Our work contributes towards the on-going research on accountability of machine learning as applied to complex software systems, especially for high-stake applications such as automated driving.
著者: Hans-Martin Heyn, Khan Mohammad Habibullah, Eric Knauss, Jennifer Horkoff, Markus Borg, Alessia Knauss, Polly Jing Li
最終更新: 2023-03-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.05947
ソースPDF: https://arxiv.org/pdf/2303.05947
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。