視覚的質問応答の強化視覚的質問応答の強化モデルの性能を大幅に向上させるよ。Square-10MデータセットはVQAコンピュータビジョンとパターン認識テキスト中心の視覚的質問応答の進展新しいデータセットSquare-10Mがオープンソースの視覚的質問応答機能を大幅に向上させたよ。2025-08-18T02:31:12+00:00 ― 1 分で読む
LayTextLLM:LayTextLLM:新しいドキュメントモデルウトの統合。文書分析のための画期的なテキストとレイア計算と言語LayTextLLMを使った文書処理の進歩テキストとレイアウトをうまく組み合わせて、文書理解を向上させる新しいモデルを紹介するよ。2025-07-20T12:48:00+00:00 ― 1 分で読む