メディアでの喫煙をAIで特定すること
AIツールは、テキストや画像の喫煙コンテンツを検出して、公共の健康を改善できるよ。
― 1 分で読む
喫煙は世界的に主要な死亡原因だよ。毎年約800万人が喫煙によって亡くなっていて、健康に多くの悪影響を与えてる。喫煙者は心臓病、呼吸器疾患、いろんなタイプの癌に悩まされることがあるんだって。OECD国みたいな地域では、15歳以上の約15%の人が喫煙してる。EUではこの数字がちょっと高くて17%だよ。さらに、喫煙に関連する死亡の15%は受動喫煙が原因なんだ。
メディアの影響
映画やメディアは、喫煙がどのように世間に見られているかに影響を与えてる。映画で喫煙が頻繁に描かれると、特に若い視聴者にとっては喫煙がもっと受け入れられそうに見えるんだ。ただ、メディアが喫煙に与える正確な影響を測るのは難しいんだよね。たとえば、オンライン広告のデータはなかなか手に入らなくて、喫煙習慣への影響を分析するのは大変なんだ。
この課題に対処するために、研究者たちは色々な方法を考えてる。メディアでの喫煙の描写を追跡すると、その魅力を減らす手助けになるかもしれない。これには広告の監視、調査の実施、コンテンツを分析するための人工知能(AI)の活用が含まれる。
人工知能の役割
AIはタバコの研究や政策作成で期待が持てるんだ。画像やテキストの中の喫煙関連のコンテンツを特定する手助けができるから、公衆衛生の取り組みにとって貴重なツールなんだよ。ただ、AIをトレーニングするためのデータ収集は大変で時間がかかるんだ。
画像処理の世界では、ResNetというモデルがあって、1400万以上の画像を使ってトレーニングされてるんだ。テキスト用にはBERTという別のモデルが大量の文書を使ってトレーニングされたよ。GPTみたいな生成モデルはさらに大きなデータセットを持ってて、能力を高めてる。
AIツールは、トピックモデリングやクラスタリングみたいな手法を使ってテキストや画像を分析できる。特に喫煙に関連する特定の用語を識別するためには、固有表現認識を利用することもある。画像については、分類や物体検出の手法で喫煙関連のビジュアルを見つけることができる。
マルチモーダルモデルが注目されてるのは、テキストと画像を一緒に分析できるからなんだ。映画では、喫煙シーンを見つけるのが普通の画像と比べて難しいことが多いから特に関連があるよ。
データセットの必要性
今のところ、喫煙コンテンツに特化した広く利用可能なデータセットはないんだ。このデータの不足が新しいモデルのトレーニングを難しくしてるのが現状。研究者たちは、事前にトレーニングされた既存のAIモデルを使うことを提案してる。これにより、テキストと画像の両方で喫煙関連のコンテンツを効率的に特定できるようになるんだ。これらのAIツールを組み合わせることで、異なる種類のデータを活用してる。
システムの仕組み
このアプローチの中心には、異なるデータ形式を扱うための構造化された方法があるんだ。ビデオは画像処理モデルで分析され、テキストは言語モデルで処理される。ビデオ分析にはCLIP-ViT-B-32というモデルが使われていて、ハンガリー語を含む複数の言語を理解できるんだ。
プロセスは、受信データの形式をチェックすることから始まるよ。ビデオの場合、分析では1秒ごとにフレームをサンプリングして、各フレームを標準サイズにリサイズして一貫した分析を行うんだ。
フィルタリングは次のステップで、AIモデルがサンプリングされた画像を調べて、喫煙と関連するものを特定するんだ。「smoking」という特定の用語が参照点として使われて、この用語と比較することで、関連コンテンツをハイライトできるんだ。
画像分類
画像がフィルタリングされたら、精度を向上させるために追加の分類モデルが適用されるよ。EfficientNetやResNetみたいなモデルがこのタスクに使われて、EfficientNetが喫煙画像の特定で最も効果的だったんだ。
これらのモデルは、喫煙者と非喫煙者の画像を含むデータセットを使ってトレーニングされてる。分類ステップを通じて画像を洗練させることで、喫煙検出システムの全体的な精度を向上させられるんだ。
テキストデータの処理
テキスト中の喫煙用語を検出するには、固有表現認識を使うんだ。ハンガリー語の喫煙用語に関するデータセットが存在しなかったから、革新的なアプローチを取ったんだ。ChatGPTみたいな生成ツールを使って、喫煙関連の単語やフレーズの辞書を作成したんだ。
これらの用語のランダムな組み合わせを作ってブロックを形成し、指定された喫煙用語を含むテキストを生成するのに使ったんだ。これで、言語モデルトレーニング用の喫煙関連コンテンツの堅牢なコーパスができたんだ。
いくつかの言語モデルがテストされて、XLM-RoBERTaモデルがハンガリー語のテキスト中の喫煙関連用語を正確に特定するのに最も優れていることが分かったよ。
継続的な改善
システムの正確性を保つために、人間からのフィードバックを取り入れてるんだ。これにより、モデルの設定を調整したり、トレーニングに使うデータを洗練させたりできるよ。検出プロセスでの間違いは修正して、モデルに更新をかけて今後のパフォーマンス向上に繋げられるんだ。
システムのテスト
システムの画像処理側を評価するために、YouTubeからタバコ会社の短い広告映像を集めたんだ。ビデオをフレームに分割して喫煙検出を行ったんだ。AIモデルは、そのビデオ内のかなりの量の喫煙コンテンツを特定できて、予測の精度も悪くなかったよ。
マルチモーダルフィルタリングと微調整された画像分類モデルの結果を組み合わせることで、喫煙検出のシステムのパフォーマンスを向上させることができたんだ。
結論
AIモデルを通じて喫煙関連コンテンツを特定する取り組みは、テクノロジーが公衆衛生の問題に取り組む可能性を示してるよ。特定のデータセットの不足やメディアにおける喫煙描写の複雑さといった課題は残ってるけど、確立されたAI手法と人間のフィードバックの組み合わせなら、前向きな道を提供してくれるかもしれない。
このアプローチが、メディアが公衆の認識にどのように影響を与えるかを理解することで、喫煙率の減少に繋がるかもしれない。こうした分野での継続的な取り組みは、より効果的なタバコ管理戦略と、最終的にはコミュニティの健康結果の向上に繋がる可能性があるんだ。
タイトル: A multimodal deep learning architecture for smoking detection with a small data approach
概要: IntroductionCovert tobacco advertisements often raise regulatory measures. This paper presents that artificial intelligence, particularly deep learning, has great potential for detecting hidden advertising and allows unbiased, reproducible, and fair quantification of tobacco-related media content. MethodsWe propose an integrated text and image processing model based on deep learning, generative methods, and human reinforcement, which can detect smoking cases in both textual and visual formats, even with little available training data. ResultsOur model can achieve 74% accuracy for images and 98% for text. Further-more, our system integrates the possibility of expert intervention in the form of human reinforcement. ConclusionsUsing the pre-trained multimodal, image, and text processing models available through deep learning makes it possible to detect smoking in different media even with few training data.
著者: Robert Lakatos, P. Pollner, A. Hajdu, T. Joo
最終更新: 2023-09-19 00:00:00
言語: English
ソースURL: https://www.medrxiv.org/content/10.1101/2023.09.19.23295710
ソースPDF: https://www.medrxiv.org/content/10.1101/2023.09.19.23295710.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた medrxiv に感謝します。