脳の言語処理の役割
研究によると、脳が音と口の動きを組み合わせて言葉を理解する仕組みがわかった。
― 1 分で読む
目次
言葉の処理は、いくつかの感覚が一緒に働くことを含んでるんだ。話すとき、音(音素)だけじゃなくて、唇の動き(視素)も使うよね。こういった視覚的な手がかりは、特に騒がしい環境では、言葉を理解するのに役立つんだ。マクガーク効果っていう有名な現象があって、これは脳が音と動きを組み合わせて、言葉の全体像を作り出すことを示してる。音素と視素の情報がどう脳で管理されるかを理解するのが重要なんだ。
関与する脳の領域
脳の特定のエリアは、言葉の音や口の動きを認識するのに重要だよ。後部上側頭皮質は音を処理する主なエリアだと考えられてる。研究によると、これらのエリアは、音と視覚的な手がかりを処理するときに活性化するんだ。
もう一つ興味深いエリアが、腹側後頭側頭皮質(VOTC)だ。最近の研究では、このエリアが視覚的および聴覚的な言葉の処理に重要だって示唆されてる。多くの研究者が、参加者がリップリーディングや視覚音声を観察する時に、VOTCのいくつかの部分が活性化するのを確認してる。
左VOTCには視覚的単語形式エリア(VWFA)っていう地域があって、書かれた言葉を読むのを助けることで知られてるんだ。VWFAは言語ネットワークと密接に連携していて、書かれた言葉だけじゃなくて、話し言葉にも敏感で、読むことを学ぶ前からもそうなんだ。
研究の概要
私たちの研究では、音素と視素に反応する特定の脳の領域を特定することを目指したんだ。フランス語を母国語とするグループと協力して、機能的MRIスキャンを使って脳の活動を観察しながら、いろんなテストを行ったよ。
参加者と方法
私たちは24人の大人を研究したんだけど、全員視力と聴力が正常または補正されてた。ほとんどの参加者は右利きで、学習障害や神経的な問題の歴史はなかった。彼らはインフォームド・コンセントを与えて、時間に対して報酬を受けたよ。視覚と聴覚の言葉を処理する方法を評価するために、いくつかのタスクを含む実験デザインを使ったんだ。
タスクデザイン
参加者は2つのセッションを経て、まず視覚的な音節に慣れてからMRIスキャンを受けたんだ。彼らは、音と視覚的な手がかりを識別するためのさまざまなローカライザー実験や音韻的タスクを完了したよ。
単語-顔-シーンローカライザー
このローカライザータスクでは、参加者は書かれた単語、家、顔の画像を見たんだ。繰り返された画像を見たときにボタンを押すワンバックタスクをやったよ。これが、単語、顔、または場所に反応する領域を特定するのに役立ったんだ。
視覚-音声ローカライザー
このタスクは、視覚的な音声に敏感な脳の領域を特定することに焦点を当ててた。参加者は人が話す動画を見て、それを話していない唇の動きの動画と比較したんだ。
聴覚-音声ローカライザー
ここでは、参加者は意味のない音とその混乱したバージョンを聞いて、音声に反応する脳の領域を特定したよ。認識可能な音と変更されたバージョンを対比することで、研究者たちは音声処理に関連する領域を特定したんだ。
イベント関連音韻実験
参加者には音声と視覚の両方の形式で音節が提示されたんだ。目標は、両方の形式で提示された子音を解読することと、脳がこれらの音韻単位をどう処理するかを評価することだったよ。
取得パラメータ
参加者を高度なMRI技術でスキャンして、脳の活動の詳しい画像を得たんだ。さまざまなタスクは参加者がタスクを理解するのを助けるためにデザインされたよ。特定の聴覚と視覚の刺激を使って、言葉処理中の脳の反応を評価するためのコントロールされた環境を作ることを目指してた。
結果
単変量ローカライザー結果
ローカライザータスクは、異なる脳の領域で重要な反応を示したよ。単語-顔-シーンタスクでは、単語や顔を識別するための特定の領域が明らかになったし、聴覚と視覚の音声ローカライザーは、音声処理に敏感な側頭部のクラスターを特定したんだ。
行動反応
音韻的タスク中、参加者は繰り返された音を検出する能力を示し、視覚的なタスクと比較して聴覚的なタスクでより高い正確さを示した。これは、リップリーディングが音声を聞くことに比べて難しいことを反映してるよ。
聴覚と視覚の解読
多変量解析を使って、定義された脳の領域 across both auditory and visual modalitiesから子音に関する情報を解読したんだ。VWFAは両方の形式で子音を解読する能力を示したよ。しかし、FFAやPPAなどの他の領域では、聴覚的子音に対して重要な反応は見られなかった。
クロスモーダル解読
脳が異なる言葉のモダリティ間で情報を解読できるかを調べたよ。一部の領域は重要なクロスモーダル解読を示したけど、VWFAはモダリティ間での共有表現を示さなかった。つまり、音素と視素を別々に処理してるってことだ。
全脳クロスモーダルサーチライト
全脳の包括的な分析によって、追加の領域でのクロスモーダルの活性化が確認されたよ。特定のクラスターは音声の発音に関連していて、感覚運動プロセスが話し言葉と視覚的な言葉の理解にどのように関わってるかを示してるんだ。
討論
私たちの発見は、言葉の処理がさまざまな脳の領域に依存した多面的なタスクで、視覚的および聴覚的情報を統合することを強調してる。VWFAは音韻表現を認識する上で重要な役割を果たすけど、モダリティ間での整合性はないみたい。これは、脳が言語を処理する方法や、さまざまな感覚の入力がどのように結合されるかに対する理解に複雑さを加えるよ。
この研究は、視覚的な音声や聴覚的な音を処理する特定の領域がある一方で、これらのモダリティの統合は脳全体の異なるレベルで起こることを強調してる。FFAは音声の視覚的側面を符号化するようだけど、それを聴覚的な表現と直接結びつけるわけじゃないみたい。つまり、言語処理よりも顔認識での役割が大きいってことなんだ。
影響と今後の方向性
私たちの研究は、多感覚な音韻表現の理解とそれらが脳に分布する仕組みの基礎を築いてるよ。音声処理における聴覚と視覚のネットワークの関与は、言語学習やコミュニケーションの支援のための介入をデザインするのに役立つかもしれない。
さらなる研究では、これらの脳の領域が日常の言葉を含む活動中にどのように相互作用するかを探ることができるね。また、視覚と聴覚の情報がどのように処理されるかの微妙な違いを理解することで、特に聴覚障害や言語遅れのある人々向けのコミュニケーションツールを改善するための戦略を提供できるかもしれない。
要するに、唇の動きからの視覚的手がかりと音からの聴覚信号を統合することは、言葉を理解する上で大切な部分だよ。これらのプロセスに対する理解が深まることで、言語に関連する課題に対する教育や治療の新しいアプローチが開かれていくんだ。
タイトル: Phonological representations of auditory and visual speech in the occipito-temporal cortex and beyond
概要: Speech is a multisensory signal that can be extracted from the voice and the lips. Previous studies suggested that occipital and temporal regions encode both auditory and visual speech features but their precise location and nature remain unclear. We characterized brain activity using fMRI (in male and female) to functionally and individually define bilateral Fusiform Face Areas (FFA), the left Visual Word Form Area (VWFA), an audio-visual speech region in the left Superior Temporal Sulcus (lSTS) and control regions in bilateral Para-hippocampal Place Areas (PPA). In these regions, we performed multivariate patterns classification of corresponding phonemes (speech sounds) and visemes (lip movements). We observed that the VWFA and lSTS represent phonological information from both vision and sounds. The multisensory nature of phonological representations appeared selective to the anterior portion of VWFA, as we found viseme but not phoneme representation in adjacent FFA or even posterior VWFA, while PPA did not encode phonology in any modality. Interestingly, cross-modal decoding revealed aligned phonological representations across the senses in lSTS, but not in VWFA. A whole-brain cross-modal searchlight analysis additionally revealed aligned audio-visual phonological representations in bilateral pSTS and left somato-motor cortex overlapping with oro-facial articulators. Altogether, our results demonstrate that auditory and visual phonology are represented in the anterior VWFA, extending its functional coding beyond orthography. The geometries of auditory and visual representations do not align in the VWFA as they do in the STS and left somato-motor cortex, suggesting distinct multisensory representations across a distributed phonological network. Significance statementSpeech is a multisensory signal that can be extracted from the voice and the lips. Which brain regions encode both visual and auditory speech representations? We show that the Visual Word Form Area (VWFA) and the left Superior Temporal Sulcus (lSTS) both process phonological information from speech sounds and lip movements. However, while the lSTS aligns these representations across the senses, the VWFA does not, indicating different encoding mechanisms. These findings extend the functional role of the VWFA beyond reading. An additional whole-brain approach reveals shared representations in bilateral superior temporal cortex and left somato-motor cortex, indicating a distributed network for multisensory phonology.
著者: Olivier Collignon, A. Van Audenhaege, S. Mattioni, F. Cerpelloni, G. Remi, S. Arnaud
最終更新: 2024-07-26 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.25.605084
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.25.605084.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。