型チェックフィルタリングを使った自己自動化の改善
新しい方法が、カジュアルな表現をフォーマルな言語に変換する精度を向上させる。
― 1 分で読む
大規模言語モデル(LLM)は、自然言語を形式言語に変換する可能性を示しているんだよね。このプロセスはオートフォーマライゼーションって呼ばれてる。ただ、この期待とは裏腹に、現在の方法には課題があるんだ。例えば、Lean証明支援ツールのProofNetフォーマライゼーションベンチマークでは、非公式な文の16.1%しか正確に変換できなかったんだ。同様に、最新のモデルであるGPT-4oのテストでは、成功率が34.9%にとどまったよ。
これらのモデルの大きな問題は、形式文がタイプチェックに合格しないことが多いということ。タイプチェックは、文が文法的に正しいだけでなく、定義された型と整合性があることも確認するんだ。驚くことに、GPT-4oのエラーの86.6%はタイプチェック失敗から来てたんだ。
この問題を解決するために、タイプチェックフィルタリングを取り入れた新しい方法を提案するよ。まず、ある非公式な文に対して多様な形式化を生成するんだ。それから、Lean証明支援ツールを使って、タイプチェックに合格できなかった候補を排除する。さらに、この方法を自己整合性技術と組み合わせることで、GPT-4oの形式化の精度を18.3%向上させて、ProofNetベンチマークで新たな高得点53.2%を達成したんだ。
オートフォーマライゼーションの重要性
論理的推論の自動検証は、数学、ソフトウェア、ハードウェアの検証、そして人工知能を含むさまざまな分野にとって重要なんだ。証明支援ツールは数学的な文を明確に表現し、その証明を機械的にチェックするのを手助けしてくれる。でも、これらのツールは形式化を必要とするから、非公式な数学的文を形式言語に変換する必要があるんだ。
オートフォーマライゼーションは簡単なプロセスではないから、自動化の方法を改善するための研究が続いているよ。現在の最先端の解決策は、主に大規模言語モデルの少数ショット学習能力や蒸留逆翻訳に依存しているんだけど、これらの技術は限られた成功しか見せていないんだ。例えば、ProofNetベンチマークでLean 3を使用した際、Codexモデルを使った結果が一番良くて、成功率は16.1%だった。
最近のモデルは性能が向上しているけど、正しい形式化を生成する信頼性が依然として不足しているんだ。GPT-4oの評価では、テストしたモデルの中では最高のパフォーマンスを発揮したけど、Lean 4に正確に変換できたのは34.9%だけだった。
タイプチェックの課題
分析を通じて、これらのモデルが失敗する共通の理由を特定したよ:タイプチェックに合格できないこと。タイプチェックは、形式化が文法や定義を正しく使用しているかを評価するのに重要なんだ。タイプチェックが正しい翻訳を保証するわけではないけど、必要なステップであり、簡単に自動化できるんだ。モデルや使用する形式言語によって、タイプチェックの成功率は4%から45.2%まで変わることがわかったよ。
特に、タイプチェックの成功率の向上が、非公式な文の翻訳の正確さの向上と関連していることを発見したんだ。だから、自動定理証明器からのタイプチェックの信号を利用して、既存のオートフォーマライゼーション手法を強化することを目指してるんだ。
提案する方法論
私たちのアプローチは、サンプリング、フィルタリング、選択の三つの主要なステップを含むよ。各非公式な文と対応するターゲット形式言語に対して、まず複数の潜在的な形式化を生成する。次に、Lean証明支援ツールがこれらの文をタイプチェックして、合格しないものをフィルタリングする。残った候補から選択ヒューリスティクスを適用して、一つの最終的な翻訳を選ぶんだ。
この方法は、Lean 4を使ったProofNetベンチマークの四つの異なるモデルで実施されたよ。手動評価の結果、このアプローチがオートフォーマライゼーションの精度を大幅に向上させることが示された、特に最高のパフォーマンスを発揮したGPT-4oは34.9%から53.2%に向上したんだ。
フォーマライゼーション技術の評価
オートフォーマライゼーション手法は、そのパフォーマンスを厳密に評価する必要があるよ。私たちの実験では、非公式な文と対応するLean 3での形式化ペアを含むさまざまな学部の数学演習からなるProofNetベンチマークを使用したんだ。それから、独立した研究チームが作成したLean 4版のベンチマークに移行したよ。
Llemma-7B、Llemma-34B、Llama3-8B-Instruct、GPT-4-turbo、そしてGPT-4oなど、さまざまなモデルをテストしたんだ。それぞれのモデルは、蒸留逆翻訳を用いたファインチューニングと少数ショット学習の二つの適応戦略を受けたよ。
手動評価が成功を測る最も正確な方法だけど、スケーラビリティに課題があるから、タイプチェック率と正確性の相関関係も探っているんだ。タイプチェック率と正しさの関連は考慮されるけど、形式文の妥当性を単独で決定することはできないからね。
実験からの重要な発見
評価の結果、私たちの提案した方法の効果に関する重要な洞察が得られたよ。タイプチェックフィルタリングを採用し、自己整合性技術と組み合わせたモデルは、常にベースライン手法よりも優れた結果を出していたんだ。
例えば、同じ条件下で異なるモデルのパフォーマンスを比較したら、タイプチェックフィルタリングがパフォーマンスを向上させるだけでなく、成功に不可欠であることがわかったよ。
文の長さの役割
特に注目すべき観察は、形式文の長さが精度に与える影響だよ。分析によると、モデルは非公式な入力を翻訳する際、長い形式化に苦労する傾向があることがわかった。発見によると、私たちの方法がすべての長さでパフォーマンスを向上させる中、長い文に関して特に目立って改善が見られたんだ。
結論
要するに、私たちは既存のアプローチと統合し、結果を大幅に改善する新しいオートフォーマライゼーション方法を開発したよ。タイプチェックと候補選択に焦点を当てることで、この技術はLLMから派生した形式化の精度を向上させるのに効果的であることが証明されたんだ。
今後の作業では、サンプルサイズを増やしたり、選択プロセスを微調整したり、より良い形式化のための全体的なフレームワークを強化したりすることで、これらのモデルをさらに洗練させることができるかもしれない。今回の研究は効果的なオートフォーマライゼーションの可能性を示しているけど、これらの方法を現実のシナリオに適用することが重要な次のステップだよ。
数学者が自分の研究を形式化する方法を改善することで、検証や形式的推論の分野に貢献し、精度を犠牲にせずに生産性を向上させるツールを提供できることを願っているんだ。
タイトル: Improving Autoformalization using Type Checking
概要: Large language models show promise for autoformalization, the task of automatically translating natural language into formal languages. However, current autoformalization methods remain limited. The last reported state-of-the-art performance on the ProofNet formalization benchmark for the Lean proof assistant, achieved using Codex for Lean 3, only showed successful formalization of 16.1% of informal statements. Similarly, our evaluation of GPT-4o for Lean 4 only produces successful translations 34.9% of the time. Our analysis shows that the performance of these models is largely limited by their inability to generate formal statements that successfully type-check (i.e., are syntactically correct and consistent with types) - with a whopping 86.6% of GPT-4o errors starting from a type-check failure. In this work, we propose a method to fix this issue through decoding with type-check filtering, where we initially sample a diverse set of candidate formalizations for an informal statement, then use the Lean proof assistant to filter out candidates that do not type-check. Using GPT-4o as a base model, and combining our method with self-consistency, we obtain a +18.3% absolute increase in formalization accuracy, and achieve a new state-of-the-art of 53.2% on ProofNet with Lean 4.
著者: Auguste Poiroux, Gail Weiss, Viktor Kunčak, Antoine Bosselut
最終更新: 2024-06-11 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.07222
ソースPDF: https://arxiv.org/pdf/2406.07222
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/leanprover-community/repl
- https://github.com/rahul3613/ProofNet-lean4
- https://ai.meta.com/blog/meta-llama-3/
- https://openai.com/index/new-models-and-developer-products-announced-at-devday/
- https://openai.com/index/hello-gpt-4o/
- https://github.com/OpenAccess-AI-Collective/axolotl
- https://github.com/albertqjiang/MMA