データ評価に関する最新の記事

計算と言語 SIB-200: 包括的な言語評価への一歩

新しいデータセットが多言語モデルの評価をいろんな言語で強化するよ。

2025-09-26T23:44:12+00:00 ― 1 分で読む

計算と言語質問応答システムを評価する新しい方法

SQuArEメトリックは、複数の回答リファレンスを通じてQAシステムの評価を改善するよ。

2025-09-23T13:58:18+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識小さい物体に対する弱教師ありセマンティックセグメンテーションの評価

新しい手法がWSSSにおける小さな物体のパフォーマンス評価を改善する。

2025-09-22T00:11:00+00:00 ― 1 分で読む

計算と言語リトリーバル拡張生成システムの評価

人間の参照なしでRAGシステムを評価するための新しいフレームワーク。

2025-09-21T17:51:48+00:00 ― 1 分で読む

計算と言語回答の質に対する新しい評価方法

異なる詳細レベルで回答の質を測定する方法を紹介します。

2025-09-18T05:04:12+00:00 ― 1 分で読む

計算と言語質問応答システムの評価方法を向上させる

この研究では、機械質問応答の答えを評価するための新しい方法を提案してるよ。

2025-09-15T03:20:12+00:00 ― 1 分で読む

人工知能 AIの説明評価方法の改善

新しい方法がAIモデルの説明評価を向上させる。

2025-09-13T08:41:04+00:00 ― 1 分で読む

計算と言語 WSC+を使った言語モデル評価の進展

新しいデータセットと手法が言語モデルの質問生成を強化する。

2025-09-12T20:18:00+00:00 ― 1 分で読む

計算と言語言語モデルの推論の検証を強化する

新しいデータセットがAIモデルの推論ステップの検証を向上させる。

2025-09-12T11:28:42+00:00 ― 1 分で読む

計算と言語新しいベンチマークで言語モデルを評価する

この記事は、複雑なタスクを使って大規模言語モデルを評価するベンチマークを紹介してるよ。

2025-09-11T04:55:54+00:00 ― 1 分で読む

計算と言語 ChatGPTの語彙の豊かさを評価する

ChatGPTがどんな言語や語彙の特徴を使うかに関する研究。

2025-09-09T07:46:12+00:00 ― 1 分で読む

人工知能サイバーセキュリティにおける大規模言語モデルの評価

CyberMetricによるサイバーセキュリティにおけるAIと人間の専門家の評価を詳しく見てみよう。

2025-09-08T19:39:24+00:00 ― 1 分で読む

計算と言語長文におけるモデル編集の評価

新しい方法がモデル編集の効果を評価して、より長いテキストを生成するのを調べてるよ。

2025-09-08T06:21:30+00:00 ― 1 分で読む

計算と言語質問応答評価方法の改善

人間みたいな判断でAIの回答の正しさを評価する新しい枠組み。

2025-09-07T13:06:36+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識拡散モデルにおける機械的アンラーニングの評価

新しいデータセットが画像生成における機械的忘却の評価方法を強化する。

2025-09-06T06:02:12+00:00 ― 1 分で読む

計算と言語 FanOutQAを紹介するよ：複雑な質問応答のための新しいデータセットだよ。

FanOutQAは、構造化データを使って難しいマルチホップの質問で言語モデルを評価するのに役立つよ。

2025-09-05T08:58:12+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 AIモデルにおける視覚的幻覚への対処

新しいツールがAIの精度を向上させるために多様な視覚的幻覚事例を生成する。

2025-09-04T23:45:12+00:00 ― 1 分で読む

人工知能大規模ビジョン-言語モデルの幻覚評価

この記事では、LVLMの幻覚を評価するための新しいフレームワークについて話してるよ。

2025-09-04T12:02:06+00:00 ― 1 分で読む

機械学習生涯ベンチマーク：モデル評価への新しいアプローチ

機械学習でオーバーフィッティングを防ぐための連続モデル評価の方法。

2025-09-02T23:49:36+00:00 ― 1 分で読む

計算と言語 RAGシステムのファクト検証の向上

新しい方法が情報検索強化生成システムのファクトチェックを向上させる。

2025-08-31T22:19:12+00:00 ― 1 分で読む

計算と言語会話システムにおける意図認識の改善

否定や含意を通じてユーザーの意図をより理解する。

2025-08-31T10:04:30+00:00 ― 0 分で読む

計算と言語談話エンティティ認識における言語モデルの評価

言語モデルのエンティティ認識ルールの理解に関する分析。

2025-08-30T21:34:00+00:00 ― 1 分で読む

ソフトウェア工学 LLMを使った自動運転テストシナリオのリアリズム評価

この研究は、リアルな自動運転車のシナリオにおけるLLMの使用を評価してるよ。

2025-08-29T14:13:48+00:00 ― 1 分で読む

計算と言語多様な方言のNLPを強化する

さまざまな言語の方言でNLPのパフォーマンスを向上させるためのフレームワーク。

2025-08-28T20:51:00+00:00 ― 1 分で読む

計算と言語 NovelQA: 長文理解の新しいベンチマーク

文学における長文を処理する能力でLLMを評価する。

2025-08-28T03:12:24+00:00 ― 1 分で読む

機械学習バイオメディスンにおけるLLMの信頼性評価

新しいフレームワークが、LLMsがバイオメディカルアシスタントとしてどれだけ信頼できるかを評価する。

2025-08-27T05:13:06+00:00 ― 1 分で読む

ソフトウェア工学コード言語モデルの評価：データ汚染の課題

ある研究がデータ汚染がコードモデルの評価に与える影響を強調してる。

2025-08-25T23:27:42+00:00 ― 1 分で読む

計算と言語分子研究における言語モデルの評価

新しいデータセットのおかげで、言語モデルの分子知識の評価が良くなったよ。

2025-08-24T19:45:30+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 SPHINX-Vで画像理解を変革する

SPHINX-Vは、ユーザーとのやり取りを通じてAIが画像を解釈する能力を向上させるんだ。

2025-08-24T07:49:48+00:00 ― 1 分で読む

計算と言語 BEAR：言語モデルを評価するための新しいフレームワーク

BEARは、言語モデルの関係的知識の評価を改善する。

2025-08-22T05:16:12+00:00 ― 1 分で読む

計算と言語言語モデルにおけるパラフレーズの一貫性の評価

この研究は、言語モデルが同じ推論問題の異なる表現をどのように扱うかを調べている。

2025-08-18T21:28:48+00:00 ― 1 分で読む

計算と言語多言語モデルの毒性評価

新しいデータセットは、言語モデルが文化ごとに有害なコンテンツをどう扱うかを評価してるよ。

2025-08-17T13:52:48+00:00 ― 1 分で読む

計算と言語大規模な視覚と言語モデルの精度を評価する

新しいベンチマークがLVLMの評価とその精度を向上させる。

2025-08-17T06:46:12+00:00 ― 1 分で読む

計算と言語大きな言語モデルにおける事実の再現性の評価

LLMが事実情報をどれくらい覚えてるかと、その要因についての評価。

2025-08-16T20:45:48+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識テキストから画像モデルの評価：新しいアプローチ

この研究は、テキストから画像モデルの評価方法を改善する方法を提供してるよ。

2025-08-16T12:59:42+00:00 ― 1 分で読む

計算と言語ポーランド語のタスクにおける少数ショット学習の進展

ポーランド語分類のための少数ショット学習法を評価する研究。

2025-08-15T22:38:36+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識手書きテキストの情報抽出の評価

新しい指標が手書き文書における情報抽出システムの評価を改善する。

2025-08-15T11:58:42+00:00 ― 1 分で読む

計算と言語 WorkBenchの紹介: 新しいオフィスタスクデータセット

WorkBenchは、ユニークな評価方法を使ってエージェントの現実的なオフィス作業をこなす能力をテストするんだ。

2025-08-14T22:09:12+00:00 ― 1 分で読む

計算と言語変わりゆく世界での大規模言語モデルの評価

LLMが新しい情報やバイアスにどう適応するかを評価する。

2025-08-11T02:46:36+00:00 ― 1 分で読む

人工知能 ALI-Agentフレームワークで言語モデルを評価する

人間の価値観に対する言語モデルの整合性を評価する新しい方法。

2025-08-09T06:16:24+00:00 ― 1 分で読む

データ評価 に関する最新の記事

データ評価に関する最新の記事