VideoVistaは、動画の質問応答モデルのための包括的な評価を提供してるよ。

2025-07-27T13:35:48+00:00 ― 1 分で読む

分散・並列・クラスターコンピューティング分散システム研究の再現性向上

この記事では、コンピュータにおける研究アーティファクトの信頼性を高める方法について探ります。

2025-07-27T08:04:00+00:00 ― 1 分で読む

計算と言語 GLM-4モデルを詳しく見る

GLM-4モデルは言語理解と生成の能力が向上してるよ。

2025-07-27T06:52:54+00:00 ― 1 分で読む

計算と言語言語モデルの評価：新しいアプローチ

他のLLMを評価するためのLLMの使用に関する研究とその影響。

2025-07-27T04:30:42+00:00 ― 1 分で読む

計算と言語言語モデルによる議論のランキングの根拠

言語モデルが議論評価のための説得力のある理由を生成する方法に関する研究。

2025-07-26T20:52:30+00:00 ― 1 分で読む

計算と言語新しい言語モデルがガリシア語のアクセス性を向上させる

2つの新しいモデルが、ガリシア語を話す人たちの技術アクセスを改善することを目指しているよ。

2025-07-26T20:44:36+00:00 ― 1 分で読む

計算と言語比喩における機械翻訳の課題

機械翻訳における比喩的な言語の翻訳の難しさを調べる。

2025-07-26T17:58:42+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 DF40を紹介: ディープフェイク検出のための新しいデータセット

DF40は、ディープフェイク検出方法を改善するための包括的なアプローチを提供してるよ。

2025-07-26T16:08:06+00:00 ― 1 分で読む

計算と言語大規模言語モデルの誠実さを評価する

この研究では、LLMの正直さを3つの重要な分野で評価してるよ。

2025-07-26T14:33:18+00:00 ― 1 分で読む

情報検索企業の質問応答システムを改善すること

企業がユーザーサポートを向上させるために、質問応答システムをどう改善しているかを見てみよう。

2025-07-26T12:26:54+00:00 ― 1 分で読む

人工知能 AIのアルゴリズム理解の評価

AIがアルゴリズムをどう理解してるかとその影響についての研究。

2025-07-26T11:31:36+00:00 ― 1 分で読む

計算と言語深さを持ってクロスドメインのテキスト分類を評価する

新しい指標が、異なるドメインでのテキスト分類モデルの評価を改善する。

2025-07-26T10:44:12+00:00 ― 1 分で読む

計算と言語言語モデルにおけるデータ汚染：増えつつある懸念

データの汚染は、大規模言語モデルの評価にかなり影響を与えるんだ。

2025-07-26T10:12:36+00:00 ― 1 分で読む

計算と言語大規模言語モデルの倫理的整合性の評価

人間の価値観に合ったLLMを評価する新しい方法ができたよ。

2025-07-26T05:12:24+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 AIにおけるバイアスへの対処：VLBiasBenchアプローチ

大きなビジョン・ランゲージモデルのバイアスを評価する新しいツール。

2025-07-26T01:15:24+00:00 ― 1 分で読む

計算と言語自動詩生成における多様性の評価

研究では、機械が人間と比べてどのように多様で創造的な詩を作るかを評価している。

2025-07-25T20:38:54+00:00 ― 1 分で読む

計算と言語ヘイトスピーチに対抗するカウンターナラティブの評価

新しい方法で、ヘイトスピーチに対するカウンターナラティブの評価が改善される。

2025-07-25T20:15:12+00:00 ― 1 分で読む

計算と言語 InternLM-Lawの紹介: 法律関連の質問に特化したモデル

InternLM-Lawは、高度なトレーニングで多様な中国の法律質問に対する応答を強化する。

2025-07-25T15:30:48+00:00 ― 1 分で読む

計算と言語言語モデルにおけるユーザープロフィールの役割

ユーザープロファイルが言語モデルのパーソナライズをどう向上させるかを探る。

2025-07-25T14:11:48+00:00 ― 0 分で読む

計算と言語計画依存性を理解するモデルのパフォーマンス評価

研究によると、モデルは料理レシピのステップ間の依存性に苦しんでいる。

2025-07-25T11:41:42+00:00 ― 0 分で読む

計算と言語言語モデルを評価する新しい方法

この論文では、さまざまなプロンプトにわたって言語モデルを評価する方法を紹介してるよ。

2025-07-25T08:45:12+00:00 ― 1 分で読む

計算と言語地域ごとの言語モデルにおける性別バイアスの評価

新しい方法が地域ごとの性別バイアス評価の違いに対処。

2025-07-25T07:13:06+00:00 ― 1 分で読む

計算と言語新しいデータセットがマルチターン会話のための言語モデルを強化する

M2Lingualデータセットは、いろんな言語で指示に従う能力を向上させるよ。

2025-07-24T23:03:18+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識テキストから画像モデルの評価に対する新しいアプローチ

この記事では、テキストから画像モデルを効果的に評価するための新しい方法を紹介しています。

2025-07-24T20:25:18+00:00 ― 1 分で読む

計算と言語 INVALSIテストを使ったイタリア語モデルの評価

この研究は、イタリアのINVALSIテストを使って言語モデルのパフォーマンスを評価してるよ。

2025-07-24T09:37:30+00:00 ― 1 分で読む

計算と言語 RAGシステムの進展：新しい評価フレームワーク

RAGBenchは、リトリーバル拡張生成システムを評価するための包括的なデータセットを紹介してるよ。

2025-07-24T05:24:42+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 Dyscaを使った大規模ビジョン・ランゲージモデルの評価

Dyscaが合成データを使ってLVLMのパフォーマンスを評価する新しい方法を紹介したよ。

2025-07-24T03:49:54+00:00 ― 1 分で読む

数学ソフトウェアトポロジー最適化技術の進展

効率とパフォーマンスのための現代のエンジニアリングデザインの方法を見てみよう。

2025-07-23T22:52:08+00:00 ― 1 分で読む

計算と言語因果イベント抽出方法の進展

新しいアプローチが人間中心の評価を使って因果イベントの抽出を改善したよ。

2025-07-23T21:38:36+00:00 ― 1 分で読む

機械学習機械学習におけるシステムの先送りが与える影響の評価

人間の専門家に頼ることで、MLモデルの予測精度がどう変わるかを評価する。

2025-07-23T14:11:48+00:00 ― 1 分で読む

機械学習ロバストエントロピーサーチを使ったベイズ最適化の進展

複雑なエンジニアリングやロボティクスのタスクにおけるより良い解決策のための新しい方法を紹介します。

2025-07-23T07:31:16+00:00 ― 1 分で読む

計算と言語ヘイトスピーチ検出のためのデータセット評価

オンラインのヘイトスピーチを特定するためのデータセットの質を評価する研究。

2025-07-23T04:07:54+00:00 ― 1 分で読む

計算と言語言語モデルにおける信念修正の評価

新しい方法が、言語モデルが新しい証拠でどのように信念を適応させるかを測定する。

2025-07-22T18:07:30+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識マルチモーダルモデルの評価方法を再考する

新しいベンチマークがバイアスを最小限に抑えてマルチモーダルモデルの評価を改善する。

2025-07-22T12:12:00+00:00 ― 1 分で読む

人工知能 GraphArenaツールでLLMを評価する

GraphArenaは、実際のデータを使ってグラフ問題におけるLLMのパフォーマンスを評価するよ。

2025-07-22T10:13:30+00:00 ― 1 分で読む

離散数学グループプロジェクトでの公正な評価: 新しいアプローチ

グループプロジェクトでのクレジットの公平な分配方法を探ってみよう。

2025-07-21T22:54:06+00:00 ― 1 分で読む

計算と言語科学研究のための言語モデルの評価

仮説検定における大規模言語モデルを評価するための新しいベンチマーク。

2025-07-21T19:52:24+00:00 ― 1 分で読む

人工知能 CRABの紹介：言語モデルの新しいベンチマーク

CRABはリアルな環境での言語モデルのテストを強化するよ。

2025-07-21T18:41:18+00:00 ― 1 分で読む

情報検索変化する環境での情報検索システムの評価

この記事では、時間の変化が情報検索システムの評価に与える影響を検討しているよ。

2025-07-21T15:08:00+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識医療画像モデルの公平性に関する取り組み

ヘルスケアにおけるファウンデーションモデルの公平性を評価するためのFairMedFMを紹介します。

2025-07-21T07:45:36+00:00 ― 1 分で読む

評価 に関する最新の記事

評価に関する最新の記事