Simple Science

最先端の科学をわかりやすく解説

# 生物学# 神経科学

私たちの脳がスピーチのリズムをどう処理するかを理解する

自然なスピーチを聞いているときの脳の活動に関する研究では、複雑な相互作用が明らかになった。

― 1 分で読む


スピーチリズムと脳の反応スピーチリズムと脳の反応かにした。研究が脳の複雑な言語処理メカニズムを明ら
目次

誰かが話すのを聞いているとき、私たちの脳はたくさんの情報を一度に処理しているんだ。自然なスピーチは、言語を理解するのに役立つ音のパターンを作り出す。研究者たちは、私たちの脳がスピーチにどう反応するかを長年研究してきたんだ。重要な発見の一つは、脳が音にリズミカルに反応するってこと。これが話されていることに集中するのを助けてくれる。でも、このリズムがスピーチそのものから来ているのか、それとも脳が自分自身の内部リズムに従っているのかはまだはっきりしていない。

スピーチにおける音節とリズム

スピーチの音節は、約200ミリ秒ごとに発生するんだ。このタイミングは、スピーチの音量が変わることと関連していて、それは1秒間に約5回起こるとされている。私たちの脳は、このタイミングを「シータリズム」(4-7 Hz)と呼ばれる脳のリズムと合わせると言われている。でも、もっと大きな単語のグループを見てみると、この一致を見つけるのは難しくなる。いい例として、スピーチのフレーズが約1秒間続くリズムを持つことがある。これらのフレーズは、「デルタリズム」(2 Hz以下)と呼ばれる脳の遅いリズムによって追跡されるかもしれない。

音韻の役割

他の研究で私たちの脳がデルタ範囲のリズミカルなフレーズを把握できることが示されている。しかし、いくつかの研究では、このデルタリズムが、文を分解して複数の単語の意味を組み合わせようとする脳の努力を反映している可能性があるとも言われている。例えば、私たちの脳のリズムは、明確なポーズがなくても、単語のグループがいつ終わるかを予測できる。でも、音韻、つまりスピーチのストレスやイントネーションのパターンは、言語を解釈するうえで重要な役割を果たしている。

実験デザイン

この研究では、自然なスピーチを聞くときにこれらの異なるプロセスがどう協力するかを理解したかったんだ。私たちは、スピーチの音響的特徴、つまりポーズや音の変化がどのように脳のリズムと相互作用するかを調べつつ、複数の単語から成るフレーズの意味も考慮した。

そのために、参加者にストーリーを聞いてもらい、その間に脳の活動を記録した。実験中、ストーリーの自然なポーズを変更した。ある部分では、ストーリーをそのままにして、別の部分では全体の構造を保ちながらポーズの長さをランダムに変更した。このようにして、スピーチのリズムの変化が脳の反応にどのように影響を与えるかを見ることができた。

脳活動の分析

私たちの目標は、音声信号をどのように脳が処理するかと、その音が発生する文脈を明らかにすることだった。実験中、デルタとガンマの周波数範囲で脳の活動が、聞く条件によってどう変わったかに注目した。

ストーリーを聞いた後、私たちは異なる脳のエリアがスピーチの音にどのように反応したかを詳しく見た。自然なスピーチのリズムが壊れたとき、脳がデルタ範囲でスピーチと同期する能力が低下することが分かった。その一方で、デルタの整合性が低下すると、ガンマの活動が増加し、新たに入ってくるスピーチの処理方法に変化があったことを示唆していた。

デルタとガンマの活動

スピーチが予測可能なとき、脳はデルタリズムで強い整合性を示すことが観察された。スピーチが予測不可能になると、デルタの整合性は弱くなるが、ガンマのコヒーレンスが増加した。この関係は、私たちの脳が何かを予測してそれが起こらなかったときに、ガンマ活動を増加させることで予期しない情報を処理しようとすることを示している。

単語グループの処理

私たちはまた、脳のデルタ整合性が複数単語のフレーズの境界で明らかかどうかを調べた。通常、これらのフレーズは単語のグループからの意味を統合するのに役立つと考えられている。特定のアルゴリズムを使ってこれらの複数単語のチャンクを特定し、単語のチャンクとそれに相応する脳の活動の関係を分析した。

結果として、明確なポーズがないチャンクの開始時にデルタ整合性がまだ存在することが分かった。これは、私たちの脳がスピーチに明確なポーズがなくても文脈からの信号を拾うことができることを意味している。

チャンクの文脈処理

次に、スピーチの単語のチャンクを認識することが、脳活動を予測するモデルの精度を向上させるかどうかを調べた。2つのモデルを作成した:チャンクを含むモデルと含まないモデル。チャンクを含むモデルがより良いパフォーマンスを示し、私たちの脳がスピーチを理解するために文脈を利用していることを示している。

これらの結果が信頼できるものであることをさらに確かめるために、デルタ位相活動がモデルのパフォーマンスにどのように関係しているかを分析した。明確なポーズがないチャンクの開始時にデルタ整合性が存在することとモデルの精度との間に重要な関連があることを発見した。これは、複数単語のチャンクを認識することが、脳が遅いリズミカルな活動にどれだけうまく整合するかに関連していることを示唆している。

プロセス間の相互作用

これらの発見は、私たちの脳がスピーチを層状に処理していることを示している。ボトムアップ処理は音やリズムに焦点を当て、トップダウン処理は文脈や期待に依存している。これらのプロセスは両方とも、スピーチをよりよく理解するのに重要なんだ。

スピーチの自然な構造が乱れると、例えば私たちのポーズの変更によって、予測可能性が減少する。この変化により、脳は適応し、これらの2つの処理のバランスに変化が生じる。

結果のまとめ

要するに、私たちの研究は、脳がスピーチのリズミカルな側面を処理しつつ、文脈情報も取り入れていることを示している。デルタリズムはフレーズがどう広がるかに対する期待とより整合しているようで、ガンマ活動は予期しない情報に対する脳の反応を反映している。

ストーリーのスピーチの構造を操作することで、タイミングの変化が脳の活動と話された言葉の同期にどのように影響するかを見つけた。これらの2つのリズムは並行して機能し、脳が感覚入力を知識や経験と融合させてスピーチをよりよく理解するのを可能にしている。

結論

私たちが話し言葉を処理する方法は複雑で、多くの相互作用しているシステムが関与している。私たちの発見は、スピーチのリズミカルなパターンと文脈情報が、どちらも言語を理解するうえで重要な役割を果たしていることを明らかにする。これらのプロセスに対する理解が深まることで、言語障害がある人を助けたり、コミュニケーション技術を改善したりする新しいアプローチにつながるかもしれない。

これらの要素がどのように連携して働くかを理解することで、スピーチ処理のニュアンスや、日常のやり取りにおけるリズムと文脈の重要性についての洞察が得られるかもしれない。

オリジナルソース

タイトル: Dissociating endogenous and exogenous delta activity during natural speech comprehension

概要: Decoding human speech requires the brain to segment the incoming acoustic signal into meaningful linguistic units, ranging from syllables and words to phrases. Integrating these linguistic constituents into a coherent percept sets the root of compositional meaning and hence understanding. One important cue for segmentation in natural speech are prosodic cues, such as pauses, but their interplay with higher-level linguistic processing is still unknown. Here we dissociate the neural tracking of prosodic pauses from the segmentation of multi-word chunks using magnetoencephalography (MEG). We find that manipulating the regularity of pauses disrupts slow speech-brain tracking bilaterally in auditory areas (below 2 Hz) and in turn increases left-lateralized coherence of higher frequency auditory activity at speech onsets (around 25 - 45 Hz). Critically, we also find that multi-word chunks--defined as short, coherent bundles of inter-word dependencies--are processed through the rhythmic fluctuations of low frequency activity (below 2 Hz) bilaterally and independently of prosodic cues. Importantly, low-frequency alignment at chunk onsets increases the accuracy of an encoding model in bilateral auditory and frontal areas, while controlling for the effect of acoustics. Our findings provide novel insights into the neural basis of speech perception, demonstrating that both acoustic features (prosodic cues) and abstract processing at the multi-word timescale are underpinned independently by low-frequency electrophysiological brain activity.

著者: Nikos Chalas, L. Meyer, C.-W. Lo, H. Park, D. S. Kluger, O. Abbasi, C. Kayser, R. Nitsch, J. Gross

最終更新: 2024-02-01 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.01.578181

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.01.578181.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事

ニューラル・コンピューティングと進化コンピューティング生物物理シナプスを使った人工ニューラルネットワークの進展

この記事では、神経ネットワークにおける生物物理的シナプスの利点について話してるよ。

― 1 分で読む