言語モデルと脳の活動:研究
物語を聞いているときの言語モデルと脳の反応の関係を調べてる。
Eunji Kim, Sriya Mantena, Weiwei Yang, Chandan Singh, Sungroh Yoon, Jianfeng Gao
― 1 分で読む
目次
俺たちは二つの異なる言語モデルをトレーニングしてる。一つはGPT-2トークナイザーを使ってて、もう一つはLLaMA-2。GPT-2の方はトランスフォーマー層が4つ、LLaMA-2は3つだ。これらのモデルは同じ道のために作られた二つの違う車みたいなもんだ、エンジンがちょっと違うだけで。
言葉を比較する時、相対的な位置づけが重要だから、相対位置エンコーディングってのを使ってる。これでモデルは文の中で各単語がどこにいるかを追跡できる。GPT-2の方は32の位置制限があるけど、LLaMA-2は64を扱える。大きな駐車場があって、より多くの車が停められるみたいな感じだ。両モデルの語彙はそれぞれの前のモデルからきてて、全てがうまく収まるようになってる。
言語モデルを使った類似ペアの作成
このモデルをトレーニングするために、LLaMA-2をメンターとして使う。いろんなソースからたくさんのテキストを集めて、使うトークナイザーに応じて各モデルに供給する。トレーニング中は、32か64の単語のシーケンスをランダムに選んで、バッチサイズは128か256。つまり、トレーニングの各ラウンドで膨大な数の単語の可能性を見てる。
それから、特定の計算に基づいて類似している単語のペアを作成する。類似ペアは一緒に遊ぶ友達のペアみたいなもんだ。トレーニング素材でどれだけ一緒に見つかるかを比較する。モデルは今まで見たものに基づいて次の単語を予測することを学んでる。いろんなロス関数の組み合わせを使ってトレーニングするから、時間が経つにつれて正しい予測に近づくことを目指してる。このトレーニングは結構な時間、高性能なGPUで続けられる、これはこの手の仕事に特化した高級電卓みたいなもんだ。
推定のための適切な閾値の見つけ方
モデルができたら、効果的な予測のための閾値を設定する必要がある。この閾値はモデルがうまく機能しているかを見極めるのを助ける。最適な数値を見つけるために、1億トークンのトレーニングセットを使っていろんな設定を試した。いろんなレシピを試して一番美味しいのを見つけるみたいなもんだ。
六つのデータセットを見て、異なる設定がモデルのパフォーマンスにどう影響するかを調べた。各データセットでテストしながら、他のデータセットはメインモデルの構築に使った。それから、効果的な閾値を異なる値に設定した時のモデルのパフォーマンスを比較した。GPT-2トークナイザーは8に設定した時が一番良かったけど、LLaMA-2トークナイザーは9でパフォーマンスが良かった。
次のトークンの精度の比較
評価の際に、いろんなデータセットを基準として使った。いくつかのデータセットでは自分たちのデータ参照を作ったけど、他のは公開されてるモデルを使った。モデルがシーケンスの中で次の単語を予測するのがどれだけうまくいくかをテストした。
モデルを比較した時、片方は反応を生成するのに時間がかかるかもしれないけど、しばしばより良いアウトプットを生み出してた。これはレストランでおいしい食事を待つのと、急いでスナックを食べるのに似てる。待ち時間が長いと、より満足のいく体験になるかもしれない。
また、モデルが単語を正確に一致させられる場合や、曖昧な一致に頼らなきゃいけない場合も見た。これは人混みの中で友達を認識しようとするみたいなもんだ-はっきり見えない時でも、服装や髪型で誰かわかるかもしれない。
fMRIデータからの洞察
脳の活動もfMRIを使って調べた、これは人々が物語を聞いている時の脳の反応を見る方法だ。ポッドキャストを楽しんでいる間に、三人からデータを集めた。彼らが反応する必要はなく、ただ聞いてた。
数回のスキャンセッションで、被験者は約20時間のユニークな物語を聞いた。各セッションは分析できるたくさんのデータポイントを提供してくれた。脳が物語にどれだけ反応するかを見て、聞いた単語に基づいて脳活動を予測するモデルを作った。
データを分析するためにノイズを除去し、すべてが適切に整列しているか確認した。結論を混乱させる可能性のある録音の部分を注意深く取り除いた。ここでの目標は、言語理解が特定の脳機能に結びつくかを調べることだった。
脳の反応における曖昧な一致
脳データの研究で、曖昧な一致モデルを作った。このモデルは、単語がどれだけ密接に関連しているかを見つけるのに役立つ、たとえそれらが正確に一致しなくても。以前の単語との類似性に基づいて、次の単語がどれだけ可能性が高いかを比較するために賢い数学を使った。
データを脳のタイミングに合わせて滑らかにすることで、聞いている単語に対応する脳の反応をより正確に予測することができた。これにより、異なる単語が同じ脳の活動を引き起こすことができる様子が示された、たとえそれらが同じでなくても。
予測パフォーマンスの比較
次に、曖昧な一致モデルが正確な一致モデルに対してどれだけうまく機能するかをテストした。努力したにもかかわらず、曖昧な帰納モデルは正確な一致モデルをあまり上回らなかった。これは脳データがノイズが多く、解釈するのが常に簡単ではないからかもしれない。
こう考えてみてほしい: 人混みの中で曲を聴いていると、メロディは聞こえるかもしれないけど、すべての言葉は聞き取れないかもしれない。曖昧なモデルはそんな感じで、一般的な雰囲気を感じ取ることができるけど、細かい部分は逃すかもしれない。結果は、似たような単語が同じ脳の領域を活性化できるが、その違いはしばしば微妙であることを示していた。
現実世界での応用
言語と脳のつながりを理解することは、さまざまな分野で役立つかもしれない。たとえば、教育方法の改善や、言語に困難を抱える人への支援方法の理解、あるいは人間の理解をより正確に模倣する人工知能の開発に寄与する可能性がある。
要するに、これらのモデルを開発し、脳の反応を探求することで、言語がどう機能するかがさまざまなレベルで明確になってくる-機械学習を駆動するアルゴリズムから、私たちの脳の神経回路まで。これは可能性に満ちたエキサイティングな分野で、学習プロセスは複雑かもしれないけど、かなり楽しいことでもある!
タイトル: Interpretable Language Modeling via Induction-head Ngram Models
概要: Recent large language models (LLMs) have excelled across a wide range of tasks, but their use in high-stakes and compute-limited settings has intensified the demand for interpretability and efficiency. We address this need by proposing Induction-head ngram models (Induction-Gram), a method that builds an efficient, interpretable LM by bolstering modern ngram models with a hand-engineered "induction head". This induction head uses a custom neural similarity metric to efficiently search the model's input context for potential next-word completions. This process enables Induction-Gram to provide ngram-level grounding for each generated token. Moreover, experiments show that this simple method significantly improves next-word prediction over baseline interpretable models (up to 26%p) and can be used to speed up LLM inference for large models through speculative decoding. We further study Induction-Gram in a natural-language neuroscience setting, where the goal is to predict the next fMRI response in a sequence. It again provides a significant improvement over interpretable models (20% relative increase in the correlation of predicted fMRI responses), potentially enabling deeper scientific investigation of language selectivity in the brain. The code is available at https://github.com/ejkim47/induction-gram.
著者: Eunji Kim, Sriya Mantena, Weiwei Yang, Chandan Singh, Sungroh Yoon, Jianfeng Gao
最終更新: 2024-10-31 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2411.00066
ソースPDF: https://arxiv.org/pdf/2411.00066
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://huggingface.co/datasets/monology/pile-uncopyrighted
- https://github.com/karpathy/minGPT
- https://infini-gram.io/api_doc.html
- https://infini-gram.io/pkg_doc.html
- https://github.com/AlexWan0/infini-gram/tree/main
- https://github.com/ejkim47/induction-gram
- https://babylm.github.io/
- https://huggingface.co/TinyLLaMA/TinyLLaMA-1.1B-intermediate-step-1431k-3T
- https://github.com/OpenNeuroDatasets/ds003020