Dinesh Manocha

計算と言語言語モデルにおける指示調整の限界を探る

AI言語モデルのインストラクションチューニングの落とし穴を見てみよう。

2025-09-12T08:19:06+00:00 ― 1 分で読む

音声・音声処理 RECAPの紹介:オーディオキャプショニングの新境地

RECAPは、高度な技術を使って再トレーニングなしで正確な音声キャプションを生成するんだ。

2025-09-09T20:24:20+00:00 ― 1 分で読む

ロボット工学ロボティクスにおける言語モデルの安全リスク

ロボットシステムに言語モデルを統合する危険性を調べる。

2025-09-07T15:05:06+00:00 ― 1 分で読む

ロボット工学ロボットのためのポータブルオブジェクトナビゲーションの進展

ロボットはダイナミックな環境で動いてる物体をうまく見つけることを学んでる。

2025-08-29T14:05:54+00:00 ― 1 分で読む

ロボット工学言語指示でロボットナビゲーションを進化させる

言語モデルを使ってロボットがナビゲーションの指示を生成する方法。

2025-08-28T04:07:42+00:00 ― 1 分で読む

ロボット工学スマートアシスタンスでロボットの知能を向上させる

新しい方法がロボットに助けを求めさせて、エラーを減らすのに役立ってる。

2025-08-28T01:06:00+00:00 ― 1 分で読む

ロボット工学視覚技術を使ったロボットナビゲーションの進歩

新しい方法で、視覚技術とコンテキスト認識システムを使って、複雑な環境でのロボットのナビゲーションが向上してるよ。

2025-08-26T22:06:30+00:00 ― 1 分で読む

ロボット工学家庭用ロボットの状況に応じた質問への対処

新しいデータセットが、ロボットが家の状況に関する複雑な質問に答えるのを手助けしてるんだ。

2025-08-13T04:24:54+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識マルチコンセプト動画生成の新しい方法

動画制作を改善する方法は、複数のコンセプトをカスタマイズして、より明確にすることだよ。

2025-08-09T02:27:18+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識画像生成におけるテキストプロンプトの統合のための革新的な技術

新しい方法で、複数のテキストプロンプトからの画像生成が改善されるよ。

2025-08-08T22:14:30+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識視覚と言語モデルの幻覚対策

この記事では、LVLMにおける幻覚について話し、それに対処する方法を提案してるよ。

2025-08-07T17:48:06+00:00 ― 1 分で読む

ロボット工学混雑した交差点での交通管理の革新的アプローチ

新しい方法が複雑な交差点での交通の流れと燃費効率を改善する。

2025-08-06T17:18:42+00:00 ― 1 分で読む

計算と言語 ABEX: NLUにおけるデータ拡張の新しいアプローチ

ABEXは、自然言語理解タスクのためにトレーニングデータを強化するために、Abstract-and-Expandを使ってるよ。

2025-08-01T12:37:24+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識音楽生成のためのテキストと画像の組み合わせ

新しいモデルは、テキストと視覚情報の両方を使って音楽を生成するよ。

2025-07-31T12:47:15+00:00 ― 1 分で読む

サウンド GAMA: 音を理解するための新しいモデル

GAMAは音と語の知見を融合させて音声処理を改善するよ。

2025-07-29T04:55:00+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識マルチモーダル言語モデルの進展

新しいモデルが音声と視覚データを組み合わせて、理解を向上させるんだ。

2025-07-25T05:22:10+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識同期した動きでリアルなデジタルヒューマンを作る

音声と映像データを使って、表現豊かなデジタルキャラクターを作る方法。

2025-07-23T19:16:24+00:00 ― 1 分で読む

ロボット工学物を見つけるためにロボットが協力してる

二つのロボットが一緒に働くことで、事前のトレーニングなしに物の位置を改善する。

2025-07-02T20:57:54+00:00 ― 1 分で読む

ロボット工学新しい方法でロボットがガラス障害物をよりよく検出できるようになったよ。

研究者たちは、透明な物体の周りでのロボットのナビゲーションをより安全にするために、ライダー技術を強化している。

2025-06-29T16:20:06+00:00 ― 1 分で読む

音声・音声処理ゼロショット音声分類の進展

ReCLAPは、より正確な音声分類のために詳細なプロンプトを使って音声分類を強化するよ。

2025-06-12T13:04:15+00:00 ― 1 分で読む

ロボット工学屋外スペースのロボット：新しいアプローチ

人間の指示と技術を組み合わせて、安全なロボットナビゲーションを実現する。

2025-06-07T01:20:30+00:00 ― 1 分で読む

ロボット工学四足ロボットの歩行適応の進展

新しい方法で、四足ロボットの厳しい地形での動きが改善された。

2025-06-06T01:46:24+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識ドローンアクション認識の進展

SOARはドローン映像分析におけるアクション認識精度を向上させる。

2025-06-05T08:39:24+00:00 ― 1 分で読む

ロボット工学屋外地形におけるロボットナビゲーションの進展

新しい方法がロボットの多様な屋外環境をナビゲートする能力を向上させる。

2025-06-03T05:50:00+00:00 ― 1 分で読む

計算と言語文書質問応答の革命

新しい方法が視覚的に豊かなドキュメントで答えを見つける課題に取り組んでるよ。

2025-03-07T21:17:33+00:00 ― 1 分で読む

サウンドデザイナーのための音声制作の革命

新しいシステムは、詳細なテキスト説明を使って音声コントロールを変革する。

2025-03-05T04:14:42+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 DAVE: 自動運転研究の革新

DAVEデータセットは、より良いAIトレーニングのために複雑な道路シナリオを捉えている。

2025-01-20T21:51:18+00:00 ― 1 分で読む

コンピュータビジョンとパターン認識 AIモデルにおけるオブジェクト幻覚チャレンジ

LVLMは現実を認識するのが苦手で、深刻な結果を招く危険がある。

2025-01-20T11:25:21+00:00 ― 1 分で読む