評価に関する最新の記事

計算と言語 TempoSumベンチマークを使った要約モデルの評価

TempoSumベンチマークは、情報が変化する中で要約モデルの性能を評価するんだ。

2025-11-21T04:10:18+00:00 ― 1 分で読む

計算と言語新しいメトリック密度がダイアログシステムの評価を強化する

DEnsityは、人間の会話パターンに基づいて対話システムを評価する新しいアプローチを提供してるよ。

2025-11-19T08:03:48+00:00 ― 1 分で読む

情報検索ユーザーフィードバックを取り入れてレコメンデーションを強化する

この記事では、より良い推薦のために多様なユーザーフィードバックを使うメリットについて話してるよ。

2025-11-18T22:03:24+00:00 ― 1 分で読む

計算と言語 ArgU: 議論を生成するための新しいツール

ArgUは、効果的な議論のために事実に基づいた構造化された論拠を作るよ。

2025-11-18T18:06:24+00:00 ― 1 分で読む

計算と言語医療要約におけるGPT-3の評価

この研究は、GPT-3が医療文献を効果的に要約する能力を評価してるよ。

2025-11-18T08:06:00+00:00 ― 1 分で読む

サウンド音楽の美しさを測る：新しいアプローチ

音楽の演奏の美しさを評価するための数学的な方法。

2025-11-18T07:37:25+00:00 ― 1 分で読む

歯科・口腔医学ブラジルの歯科ケア向上：研究

この研究はブラジルの歯科専門センターにおける歯周治療を評価しているよ。

2025-11-18T03:45:30+00:00 ― 1 分で読む

計算と言語人間ユーザー向けの機械生成された理由の評価

この記事では、AI生成の説明がユーザーにどれだけ効果的かを調べてるよ。

2025-11-17T22:53:00+00:00 ― 1 分で読む

サウンド DCASE 2023: 自動フォーリーサウンド合成の進展

マルチメディア用の自動フォーリー音作成を改善するためのコンペ。

2025-11-17T14:37:10+00:00 ― 1 分で読む

計算と言語 C-Evalの紹介：中国語モデル用の新しい評価ツール

C-Evalは、中国語のLLMの推論能力と知識スキルを評価する。

2025-11-17T02:52:12+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識文書理解の進展：新しいデータセット

新しいデータセットが、機械が文書を読み取り反応する方法を改善する。

2025-11-16T12:39:00+00:00 ― 1 分で読む

計算と言語 RACE読解データセットの評価

RACEデータセットの読解力に関する強みと弱みの分析。

2025-11-16T12:15:18+00:00 ― 1 分で読む

計算と言語 NLPにおける超人的なパフォーマンスの主張を評価する

言語モデルのベンチマークとそれが人間のパフォーマンスに与える影響を批判的に見てみよう。

2025-11-16T11:51:36+00:00 ― 1 分で読む

計算と言語 NLP評価におけるスコア不足の対処法

この記事では、NLPシステムの評価で欠損スコアを扱う新しい方法を紹介するよ。

2025-11-15T11:45:54+00:00 ― 1 分で読む

計算と言語チャットボットの共感を進める

チャットボットがどうやって共感するようにトレーニングされているか学ぼう。

2025-11-15T09:00:00+00:00 ― 0 分で読む

計算と言語 mLongT5: 多言語テキスト処理の進化

mLongT5は、複数の言語で長いテキストを効率的に管理するよ。

2025-11-15T00:10:42+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識テキストから画像合成の評価を改善する

新しい方法が、テキスト説明から生成されたAI画像の評価をもっと良くするんだ。

2025-11-15T00:02:48+00:00 ― 1 分で読む

計算と言語階層的なスクリプト生成の進展

階層的タスク分解を通じて構造化された指示を作成する研究。

2025-11-14T19:26:18+00:00 ― 1 分で読む

計算と言語 IKDSumm: 災害ツイートを要約する新しいアプローチ

IKDSummは、災害に関する特定の知識を使って、災害時のツイートを効果的に要約するよ。

2025-11-14T07:51:06+00:00 ― 1 分で読む

人工知能 LLMを強化する：TELeR分類法

複雑なタスクでLLMのパフォーマンスを向上させるための新しい分類法。

2025-11-14T04:49:24+00:00 ― 1 分で読む

計算と言語誤った情報が溢れる世界での議論の評価

コンテキストを考慮して議論の質を評価する新しい方法。

2025-11-14T03:46:12+00:00 ― 0 分で読む

計算と言語言語モデルの評価：もっと詳しく見る

研究は、言語モデルが言語を理解する評価方法を検討している。

2025-11-13T03:08:54+00:00 ― 1 分で読む

計算と言語シーホースの紹介：多言語要約データセット

シーホースは、人間の評価付きの多言語要約の大規模なコレクションを提供しているよ。

2025-11-13T01:42:00+00:00 ― 1 分で読む

計算と言語機械翻訳における文化的コンテンツ: 新しい洞察

文化的参照を翻訳するための機械翻訳システムの研究の進展。

2025-11-12T14:14:42+00:00 ― 1 分で読む

人工知能 LoReTTaで異なるタイプのデータをつなげる

さまざまな医療データタイプを統合してより良い分析をする新しい方法。

2025-11-12T13:51:00+00:00 ― 1 分で読む

計算と言語言語モデルの評価：人口統計のギャップを埋める

言語モデルのパフォーマンスをいろんな人のデモグラフィックで評価するのは、効果的に使うためにめっちゃ大事だよね。

2025-11-12T13:35:12+00:00 ― 1 分で読む

計算と言語リトリーバル拡張型言語モデルの課題

研究によると、テキスト生成における検索拡張型言語モデルの限界が明らかになった。

2025-11-12T08:11:18+00:00 ― 1 分で読む

計算と言語長文の推論に新しいアプローチが登場したよ。

長いテキストを効果的に考えるための構造化されたフレームワークを紹介します。

2025-11-12T05:41:12+00:00 ― 1 分で読む

計算と言語 MMSMRを紹介するよ：チャットボット評価のための新しいデータセットだよ。

MMSMRデータセットは、多様な人間の反応を使ってチャットボットの会話評価を改善することを目指してるよ。

2025-11-12T04:38:00+00:00 ― 1 分で読む

計算と言語文化的規範：中国とアメリカの比較

この研究では、中国とアメリカの文化の社会的規範をデータ分析を通じて比較してるよ。

2025-11-12T03:50:36+00:00 ― 1 分で読む

計算と言語ユーザーのクエリに対するテーブル要約の強化

ユーザーの質問に基づいてテーブルをまとめる新しいアプローチで、より良いインサイトを得る。

2025-11-12T00:48:54+00:00 ― 1 分で読む

計算と言語生成されたテキストを評価する新しい方法

機械生成テキストの評価をわかりやすく説明するシステムを紹介します。

2025-11-12T00:17:18+00:00 ― 0 分で読む

計算と言語多言語モデルの進展

新しいデータセットが、さまざまな言語で指示を理解するための言語モデルの能力を向上させる。

2025-11-10T17:20:48+00:00 ― 1 分で読む

計算と言語言語モデルの精度を向上させること

新しい方法が、言語モデルが正確な回答を提供する際の課題に対処してるよ。

2025-11-10T09:58:24+00:00 ― 1 分で読む

機械学習反実仮想スコアを使ったアブステイン分類器の評価

欠損予測を推定することで、禁じられた分類器を評価する方法。

2025-11-10T06:52:08+00:00 ― 1 分で読む

情報検索会話システムにおける確認質問の役割

確認の質問は、会話システムでの効果的なコミュニケーションにとって欠かせない。

2025-11-09T18:34:06+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識より良いコミュニケーションのための手話動画の要約

新しい方法が手話コンテンツのビデオ要約を改善する。

2025-11-09T12:22:48+00:00 ― 1 分で読む

計算と言語多様なモダリティのエンティティリンク技術の進展

さまざまなデータタイプをうまくリンクするためのモデルの能力を向上させる。

2025-11-09T09:44:48+00:00 ― 1 分で読む

計算と言語チェーン・オブ・ソート・ハブ：言語モデルにおける推論の評価

大規模言語モデルの多段階推論能力を評価するツール。

2025-11-09T08:41:36+00:00 ― 1 分で読む

計算と言語要約評価の新しいアプローチ

参照ベースと参照なしの手法を組み合わせて、より良い要約評価を目指す。

2025-11-09T01:11:18+00:00 ― 1 分で読む

評価 に関する最新の記事

評価に関する最新の記事