オープンソースとクローズドソースの言語モデルを分類タスクで評価する
この記事では、主要なNLPタスクにおけるさまざまな言語モデルのパフォーマンスを調べる。
― 1 分で読む
目次
最近の大規模言語モデル(LLM)の改善により、多くの自然言語処理(NLP)タスクで印象的な能力が示されているけど、これらのモデルについてはまだ多くの疑問が残ってる。オープンソースモデルはクローズドモデルと同じくらい上手く機能するのかな?一部のモデルは特定のタスクでうまくいくのに、他のモデルはそうでないのはなぜ?パフォーマンスを改善するための方法は何?この記事では、分類の分野におけるこれらの疑問を、いくつかのタスク(名前付きエンティティ認識(NER)、政治党所属の予測、誤情報検出)に対して異なるタイプのモデルを評価することで考察するよ。
分類における言語モデル
大きなLLMは一般的にパフォーマンスを向上させるけど、オープンソースモデルはファインチューニングするとクローズドソースモデルと競争できることもある。RoBERTaのような監視型の小規模モデルは、GPT-4のような生成的LLMと比べて、多くのデータセットで同等かそれ以上のパフォーマンスを発揮することもある。ただ、クローズドモデルはより広範な一般化を必要とする困難なタスクでは優位に立つ傾向があるね。そのため、モデルの選択は、そのタスクの具体的な要求に応じて行うべきだ。
大規模言語モデルに関する疑問
多くの研究者は、GPT-3.5やGPT-4のようなクローズドLLMのパフォーマンスに注目してきた。これらのモデルは、ソーシャルメディアデータから政治党所属を予測したり、誤情報を特定したりするタスクで素晴らしい結果を出している。しかし、オープンソースモデルがこれらのタスクでどのように機能するかについての研究はほとんどない。この研究は、これらのモデルがクローズドモデルのパフォーマンスに匹敵するかどうか、またその結果を改善するための戦略が何かを調査しているよ。
比較したモデルの種類
この研究では、GPT-3.5とGPT-4(クローズド生成LLM)、Llama 2(オープン生成LLM)、RoBERTa(小型の非生成モデル)の3種類のモデルを比較する。異なるプロンプトやチューニング技術が各モデルのパフォーマンスにどう影響するかを調べるよ。
主な発見
- 小型モデルは監視型の設定で、より高価な生成LLMと同等かそれ以上のパフォーマンスを発揮できることがある。
- 適切なプロンプト設計やその他の技術が生成モデルの強力な結果には不可欠。ファインチューニングの機会があれば、オープンソースモデルはクローズドモデルにはない利点を提供できるかもしれない。
- 最大のクローズドモデルは、高い一般化能力が求められる難しいタスクでは小型モデルを上回る傾向がある。
テキスト分類の進化
テキスト分類は、ルールベースのアプローチから古典的な機械学習、そして現在の深層学習手法に至るまで長い道のりを歩んできた。今やNLPはトランスフォーマーモデルが主流。RoBERTaのようなモデルは、隠れた単語を予測するためにマスク付き言語モデルという手法を使用している。一方で、GPTのような生成モデルは、シーケンス内の次の単語を予測するよ。RoBERTaを使った分類タスクは、最後の隠れ層からの埋め込みを取り出し、線形層を通じて処理する。
生成モデルは、人間の言語を理解するのが得意で、特に人間フィードバックからの強化学習(RLHF)を使ってファインチューニングされると、その理解力が向上する。これにより、「プロンプトエンジニアリング」が台頭し、プロンプトの慎重な設計がモデルのパフォーマンスを大きく向上させることができる。軽微なプロンプトの変更が出力に大きな違いを生じるといういくつかの課題があるものの、これらのモデルを人間の理解により近づける努力が進められているよ。
大規模言語モデルの課題
LLMの批判の一つは、それらのトレーニングに膨大なリソースが必要で、多くの企業が再現するのが難しいこと。Llama 2のようなモデルがオープンソースコミュニティにリリースされたことで、研究者はクローズドモデルのトレーニングにかかるコストを大幅に削減しながらそのパフォーマンスを研究できるようになった。小型モデルは高価なモデルに匹敵するパフォーマンスを達成できるが、いくつかの分野ではまだ不足がある。
ある研究者たちは、リソースが限られた環境でのパフォーマンスを改善することに注力している。fp16や8bit量子化、LoRAファインチューニングのような技術は、特定のタスクに向けてモデルをファインチューニングする際の計算要求を大幅に削減できる。この研究では、NERタスクに対してLlama 2にLoRAファインチューニングを実施しているよ。
名前付きエンティティ認識
NERはNLPにおける重要なタスクで、非構造化テキストを整理されたデータに変換するのに役立つ。この抽出された情報は、多くのアプリケーションで理解を高めるし、グラフニューラルネットワークのような他のモデルにもフィードされることがある。
現在のほとんどのNER手法は、RoBERTaのような事前学習済み言語モデル(PLM)を利用している。これらのモデルは、トークンからのコンテキスト出力を受け取り、エンティティ抽出のパフォーマンスを改善するためにMLPやBiLSTM、CRF、グローバルポインターのようなコンポーネントを使用することがある。どんな方法を使っても、効果的なNERは最適なファインチューニングのために適切にアノテーションされたデータセットに依存している。
最近の研究では、GPT-3.5が特定のエンティティを生成するようにプロンプトされると、NERタスクに対して意味のある結果を出せることが示された。制約があるゼロショットやフューショットのシナリオでもうまく機能することがある。これらの洞察に基づいて、この研究では後の実験で同様の技術を採用しているよ。
政治イデオロギー予測
政治イデオロギーの予測は、党派的な発言や極化を分析する上で重要なタスクだ。このタスクは一般的にソーシャルメディアユーザーの政治党やイデオロギーを予測することを含む。テキストコンテンツやネットワークデータなど、様々な特徴がこのプロセスで考慮される。
多くの研究が、ヒューマンラベルデータをこのタスクのゴールドスタンダードとして提示している。しかし、最近の発見によると、GPT-4はソーシャルメディアメッセージに基づいて政治的所属を分類する際に、人間のアノテータを上回っていることが分かった。これらの有望な結果にもかかわらず、この研究が扱うべき疑問はまだいくつかある。たとえば、過去の研究では、政治家と一般市民の間で政治行動が異なる可能性が示されている。また、二党制での作業はマルチパーティー状況の扱いとは異なるかもしれず、タスクの複雑さが増す。
誤情報検出
誤情報は重大な社会的懸念で、研究者たちはそれに対抗するためにかなりの時間を費やしてきた。アルゴリズムによる検出は、しばしば「真」または「偽」と情報にラベルを付ける分類問題として捉えられる。多くのアプローチがネットワーク情報やユーザープロファイルの要素を考慮する一方で、テキストコンテンツは信頼性のある予測を行う上で中心的な役割を果たしている。
従来モデルは一時的に一般的だったが、BERTのようなトランスフォーマーベースのモデルによって置き換えられ、誤情報を検出する上で優れたパフォーマンスを提供している。最近では、GPT-4のようなモデルがさらなる利点を示し、改善された一般化能力と不確実性の定量化が可能になっている。しかし、誤情報が急速に増加する中で、スケーラビリティはすべてのモデル、特にコストのかかるGPT-4のようなモデルにとって課題である。
クローズドソースモデルの限界
GPT-3.5やGPT-4のようなクローズドソースモデルは、さまざまなNLPタスクで優れたパフォーマンスを誇るが、限界もある。通常はAPIを通じてアクセスされるこれらのモデルは、ユーザーのプロセッシングパワーへの懸念を軽減するが、トレーニングデータやモデルバージョンに対するコントロールを制限する。トレーニングデータの透明性が欠けているため、モデルの成功が一般化能力から来ているのかデータの漏洩から来ているのかを判断するのが難しい。
クローズドソースモデルで研究結果を再現するのは、API使用に伴う高コストや発表されていないアップデートによるパフォーマンスの変動から難しい。さらに、これらのモデルをトレーニングし運用するために必要な膨大なエネルギー消費の倫理的な影響や環境への影響も持続可能な実践に懸念をもたらす。
実験の概要
実験では、Llama 2のパフォーマンスをGPT-3.5やGPT-4、最先端の手法と比較した。分類タスクのためにRoBERTaをファインチューニングした。具体的には、Hugging FaceにホストされたLlama 2モデルを利用し、会話タスクに最適化されたGPT-3.5とGPT-4にアクセスするためにOpenAIのAPIを使用した。
モデルの比較
テストでは、ゼロショットとフューショットの設定で生成モデルをプロンプトした際の最良結果を測定した。GPT-4を使用する際には、NERや暗黙の政治党予測のようなタスクに対して、コストを最小限に抑えるために最も要求の厳しいデータセットのみを選択した。
パフォーマンスの観察
- 監視型設定での小型モデル: 小型モデルは生成モデルと比較して、同等かそれ以上のパフォーマンスを達成できることが多い。
- プロンプト設計が重要: ゼロショットのシナリオで効果的なプロンプトが、フューショット設定でも同じパフォーマンスに繋がらないことがあり、プロンプトエンジニアリングの重要性を示している。
- オープンソースモデルが競争できる: Llama 2をファインチューニングしたことで、GPT-3.5を上回ることができたが、一般化タスクではRoBERTaのような小型モデルにはまだ劣っていた。
政治予測の複雑さ
カナダの選挙データセットに対するGPT-3.5とRoBERTaの予測を調べると、RoBERTaは特定のケースで著しく良い成績を収めた。これをさらに探求するために、一部の成功したケースと失敗したケースを分析してもらったので、政治学者に選ばれたケースの分析を依頼した。発見された結果は、RoBERTaの強みがデータ内の非意味的パターンを特定する能力にあり、GPT-3.5がより文脈的アプローチを利用していることを示していた。
誤情報検出の課題
RoBERTaはLIARデータセットで合理的な結果を示したが、CT-FAN-22では大きく苦戦した。この不一致は、CT-FANのデータソースが多様であるのに対し、LIARデータセットがより均一であることから生じる一般化の難しさを示唆している。誤情報の迅速な進化は、検出タスクをさらに複雑にしており、変化を扱えるモデルが求められている。
モデルのコスト分析
LLMが大きくなるにつれて、必要な計算パワーの増加は環境の持続可能性やコスト効果について懸念を引き起こしている。分析によると、最小のモデルであるRoBERTaは、トレーニングと推論のエネルギー消費が最も低い。単純な分類タスクにおいて、RoBERTaはパフォーマンスとコストの観点から大きな生成モデルと比較して優れた選択肢となる。
結論
この研究では、名前付きエンティティ認識、政治イデオロギー予測、誤情報検出に関連する分類タスクにおけるさまざまな言語モデルのパフォーマンスを検討した。私たちの発見は、小型の監視型モデルが生成モデルに匹敵する、あるいはそれ以上のパフォーマンスを提供することが多いことを強調している。また、これらの小型モデルはコスト、速度、透明性の点で顕著な利点を持つ。
プロンプト設計はモデルのパフォーマンスに重要な役割を果たしており、ゼロショット設定で効果的な戦略がフューショットシナリオにも適用されるとは限らないことを示した。また、Llama 2のようなオープンソースモデルがGPT-3.5のようなクローズドソースモデルを上回ることができることも示していて、オープンソースコミュニティの協力の価値を浮き彫りにしている。
小型の監視型モデルは明確なパターンのあるタスクで優れているが、生成モデルは広範な一般化が必要なタスクではうまく機能する傾向がある。この研究は、各タスクの具体的なニーズ、利用可能なリソース、望ましい一般化レベルに基づいて適切なモデルを選択する必要性を強調している。これらの洞察は、自然言語処理のさらなる進展に道を開き、フィールド内の共同研究を促進するかもしれない。
補足資料
NERタスク
NER評価のために、モデルを実行してエンティティを抽出するための簡単な後処理ステップを実施した。使用したデータセットは、チャット最適化モデルに合うように対話形式に再構成された。
政治イデオロギー予測
政治イデオロギー予測のために、TwitterのAPIを通じて収集されたさまざまなデータセットに特定のキーワードを特定した。大規模なツイートデータセットを使用してモデルをファインチューニングすることで、ソーシャルメディアユーザーからの政治的予測の精度を向上させることを目指した。
誤情報検出
誤情報の実験では、追加のコメントなしに情報の真実性を評価するためにプロンプトが設計された。評価プロセスでは、さまざまなモデルのパフォーマンスを標準データセットで比較し、それらの長所と短所を特定した。
最後の考え
この言語モデルの分類タスクに関する包括的な評価は、小型モデルの可能性を強調しつつ、より大きな生成モデルの先進的な能力も認識している。NLPの分野が進化し続ける中で、継続的な研究がこれらのシステムとその実世界での応用に対する理解を深めることができるだろう。
タイトル: Open, Closed, or Small Language Models for Text Classification?
概要: Recent advancements in large language models have demonstrated remarkable capabilities across various NLP tasks. But many questions remain, including whether open-source models match closed ones, why these models excel or struggle with certain tasks, and what types of practical procedures can improve performance. We address these questions in the context of classification by evaluating three classes of models using eight datasets across three distinct tasks: named entity recognition, political party prediction, and misinformation detection. While larger LLMs often lead to improved performance, open-source models can rival their closed-source counterparts by fine-tuning. Moreover, supervised smaller models, like RoBERTa, can achieve similar or even greater performance in many datasets compared to generative LLMs. On the other hand, closed models maintain an advantage in hard tasks that demand the most generalizability. This study underscores the importance of model selection based on task requirements
著者: Hao Yu, Zachary Yang, Kellin Pelrine, Jean Francois Godbout, Reihaneh Rabbany
最終更新: 2023-08-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.10092
ソースPDF: https://arxiv.org/pdf/2308.10092
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。