Yu Qiao

Artificial Intelligence Framework for Training Adaptive AI Agents

A new method combines language models with reinforcement learning for AI training.

2025-09-19T19:46:48+00:00 ― 5 min read

Computer Vision and Pattern Recognition Vlogger: A New Tool for Video Creation

Vlogger simplifies video blogging, making it quicker and easier for creators.

2025-09-16T11:12:00+00:00 ― 6 min read

Image and Video Processing A-Eval: Benchmarking Abdominal Organ Segmentation Models

A-Eval assesses models for segmenting abdominal organs across diverse datasets.

2025-09-15T17:17:50+00:00 ― 11 min read

Computation and Language Advancing AI with Structured Reasoning Techniques

A new method for improving AI's reasoning and explanation capabilities.

2025-09-14T14:33:54+00:00 ― 7 min read

Robotics Advancing Robot Code Generation with RobotScript

RobotScript enhances how robots execute tasks from natural language.

2025-09-05T03:58:00+00:00 ― 7 min read

Robotics Advancements in Robot Behavior Synthesis

A new framework enhances robot actions through human commands.

2025-09-04T09:55:42+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Object Relationship Recognition

The All-Seeing Project V2 improves AI's understanding of object relationships in images.

2025-09-02T23:57:30+00:00 ― 6 min read

Computation and Language WanJuan-CC: A New Dataset for Language Models

A high-quality dataset for training language models from English web content.

2025-09-02T21:19:30+00:00 ― 4 min read

Computer Vision and Pattern Recognition Advancements in AI for Autonomous Driving

AI models improve understanding of driving scenes for safer navigation.

2025-08-31T12:26:42+00:00 ― 7 min read

Computer Vision and Pattern Recognition AVIBench: New Tool for Evaluating LVLMs Against Adversarial Attacks

AVIBench tests LVLMs to ensure they withstand adversarial visual instructions.

2025-08-29T08:26:12+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancements in Video Understanding Models

A new model improves video understanding through innovative training techniques.

2025-08-26T20:39:36+00:00 ― 6 min read

Computer Vision and Pattern Recognition New Dataset Captures Learning Through Observation

Researchers create a dataset to study how people learn by mimicking others.

2025-08-26T05:31:06+00:00 ― 7 min read

Computer Vision and Pattern Recognition Advancements in Dense Video Captioning with DIBS Framework

DIBS enhances video event captioning by refining boundaries using unlabeled data.

2025-08-22T21:35:48+00:00 ― 7 min read

Computer Vision and Pattern Recognition Lumina-T2X: A New Age in Media Creation

Transform text into images, videos, and audio seamlessly with Lumina-T2X.

2025-08-12T05:14:30+00:00 ― 6 min read

Robotics Advancing Self-Driving Cars with Human-Like Decision Making

A new approach enhances self-driving cars by mimicking human thinking patterns.

2025-08-07T12:24:12+00:00 ― 8 min read

Computation and Language Weak-to-Strong Search: A New Way to Guide Large Language Models

This article details an innovative approach to improve language models using smaller models.

2025-08-05T05:45:42+00:00 ― 7 min read

Computer Vision and Pattern Recognition Improving Video Captioning for Better Machine Learning

A new dataset and model enhance video captioning quality for machines.

2025-08-01T13:56:24+00:00 ― 5 min read

Computation and Language Evaluating Safety in Multimodal Language Models

A toolkit for assessing the safety of advanced language models.

2025-07-30T14:40:18+00:00 ― 5 min read

Computer Vision and Pattern Recognition Advancements in Vision Model Training Methods

New approach improves learning from interleaved image-text data.

2025-07-30T14:16:36+00:00 ― 7 min read

Computer Vision and Pattern Recognition OmniCorpus Dataset: A New Resource for Multimodal Learning

A comprehensive dataset merging images and text to aid machine learning.

2025-07-29T22:44:24+00:00 ― 6 min read

Computer Vision and Pattern Recognition New Protocol Sets Standard for Text-to-Video Evaluation

A structured approach to assess text-to-video models with improved efficiency.

2025-07-29T03:38:54+00:00 ― 11 min read

Computation and Language Advancing Language Models Through Self-Training Methods

A new framework helps language models learn symbolic language without human input.

2025-07-27T19:31:18+00:00 ― 7 min read

Computer Vision and Pattern Recognition Introducing DocGenome: A Dataset for Scientific Document Understanding

A new dataset enhances AI's ability to process scientific documents effectively.

2025-07-27T17:40:42+00:00 ― 5 min read

Computation and Language Advancements in Language Model Translation Capabilities

Researchers improve translation skills for over 100 languages, focusing on low-resource languages.

2025-07-17T07:07:00+00:00 ― 7 min read

Computer Vision and Pattern Recognition A New Way to Add Objects to Images Using Text

This method simplifies adding objects to images with text prompts, ensuring natural results.

2025-07-08T14:33:24+00:00 ― 6 min read

Computer Vision and Pattern Recognition Advancements in Text-to-Image Technology

A new model revolutionizes image generation from text descriptions, enhancing various industries.

2025-07-02T04:22:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition Advancements in 3D Scene Reconstruction with GigaGS

GigaGS tackles challenges in large 3D scene modeling with innovative techniques.

2025-06-14T10:18:06+00:00 ― 5 min read

Computation and Language Improving Language Models with Integrated Value Guidance

A method enhancing language model alignment with human preferences.

2025-06-04T22:46:54+00:00 ― 5 min read

Computation and Language Enhancing Reasoning in Multimodal Models

A new method improves reasoning skills in language models using preference optimization.

2025-05-22T16:25:03+00:00 ― 4 min read

Computer Vision and Pattern Recognition SyncVIS: Transforming Video Instance Segmentation

SyncVIS enhances the tracking and segmentation of objects in videos for various applications.

2025-04-27T23:24:15+00:00 ― 5 min read

Computer Vision and Pattern Recognition Optimizing Visual Understanding in AI Models

New method boosts multimodal language models' visual task performance.

2025-01-24T20:33:00+00:00 ― 6 min read

Computer Vision and Pattern Recognition Meet Vinci: Your Smart Life Assistant

Vinci makes daily tasks easier with hands-free help and real-time guidance.

2025-01-18T22:30:27+00:00 ― 7 min read