Latest Articles for Visual Question Answering

Computer Vision and Pattern Recognition HaloQuest: A New Approach to Hallucination in VLMs

HaloQuest addresses hallucination issues in vision-language models with a new dataset.

2025-07-08T23:14:48+00:00 ― 9 min read

Computer Vision and Pattern Recognition Comparing Object-Centric Representations with Foundation Models in Visual Question Answering

This study evaluates object-centric representations against foundation models for VQA tasks.

2025-07-08T20:52:36+00:00 ― 5 min read

Artificial Intelligence Advancing Multimodal Models with RagLLaVA

RagLLaVA enhances multimodal models, improving accuracy in complex data tasks.

2025-07-04T04:41:48+00:00 ― 6 min read

Computer Vision and Pattern Recognition Improving Medical Diagnoses with Vision-Language Models

Two methods enhance how models analyze medical images for better diagnosis.

2025-07-04T03:14:54+00:00 ― 6 min read

Robotics Advancements in AI for Space Robotics

Enhancing robots' decision-making skills for space exploration.

2025-06-28T19:39:48+00:00 ― 5 min read

Computer Vision and Pattern Recognition CluMo: A New Method for Visual Question Answering

CluMo helps models learn continuously in Visual Question Answering without forgetting past knowledge.

2025-06-24T11:38:48+00:00 ― 6 min read

Computation and Language Introducing MaVEn: A New Approach to Multi-Image Understanding

MaVEn enhances AI's ability to process multiple images for better reasoning.

2025-06-23T15:38:00+00:00 ― 5 min read

Computation and Language Advancements in Vision-Language Models for Visual Reasoning

This article examines the progress of vision-language models and their reasoning capabilities.

2025-06-21T17:48:48+00:00 ― 4 min read

Computer Vision and Pattern Recognition Advancing Visual Question Answering with RACC

RACC optimizes knowledge retrieval for more efficient visual question answering.

2025-06-13T17:50:36+00:00 ― 5 min read

Computer Vision and Pattern Recognition Visual Question-Answering: A Comprehensive Overview

Learn about the challenges and models in visual question-answering tasks.

2025-06-12T18:56:00+00:00 ― 5 min read

Computation and Language NVLM: Advancing Multimodal AI Understanding

NVLM enhances AI's grasp of language and visuals for diverse tasks.

2025-06-10T18:52:30+00:00 ― 5 min read

Computer Vision and Pattern Recognition OneEncoder: Bridging Different Media Types

OneEncoder efficiently connects images, text, audio, and video for better information processing.

2025-06-10T12:33:18+00:00 ― 7 min read

Computation and Language Advancements in On-Device Language Models

New features enhance user experience in screen understanding and multilingual interactions.

2025-06-07T22:24:30+00:00 ― 6 min read

Computation and Language Advancements in Natural Language Explanation for Machine Learning

Research improves data generation in machine learning using synthetic methods for clearer explanations.

2025-06-07T06:44:24+00:00 ― 5 min read

Computer Vision and Pattern Recognition Evaluating LLM-Generated Data Visualizations with VQA

This study uses Visual Question Answering for assessing charts created by AI models.

2025-06-04T06:51:00+00:00 ― 7 min read

Computer Vision and Pattern Recognition Addressing Security Risks in Vision Language Models

TrojVLM exposes vulnerabilities in Vision Language Models to backdoor attacks.

2025-06-03T16:22:00+00:00 ― 7 min read

Computer Vision and Pattern Recognition Harnessing Multi-Modal Language Models for Remote Sensing Analysis

Learn how MLLMs enhance our ability to understand satellite imagery.

2025-05-30T22:59:42+00:00 ― 8 min read

Robotics Revolutionizing Robot Navigation with S2P Technology

A new method for robots to navigate effectively without extensive training.

2025-05-29T12:37:48+00:00 ― 6 min read

Computer Vision and Pattern Recognition LLaVA: A Smarter Approach to Visual Question Answering

LLaVA improves Visual Question Answering by blending local device power with cloud processing.

2025-05-27T21:02:42+00:00 ― 9 min read

Computer Vision and Pattern Recognition Advancing Visual Question Answering in Education

A new model enhances VQA by providing detailed explanations for educational content.

2025-05-26T06:58:57+00:00 ― 6 min read

Computation and Language Unpacking Llava: A New Approach to Image Question Answering

Llava blends text and images to improve question answering.

2025-05-21T19:58:21+00:00 ― 7 min read

Computer Vision and Pattern Recognition Improving Autonomous Driving with Visual Question Answering

A new framework enhances machine understanding in driving environments.

2025-05-15T20:40:00+00:00 ― 8 min read

Computer Vision and Pattern Recognition Improving Visual Question Answering with Task Progressive Curriculum Learning

A novel method enhances performance in Visual Question Answering by structuring learning.

2025-05-05T21:41:20+00:00 ― 10 min read

Computer Vision and Pattern Recognition Catching Tampered Images in Remote Sensing

New methods tackle image tampering in remote sensing effectively.

2025-04-20T10:08:51+00:00 ― 7 min read

Computer Vision and Pattern Recognition Revolutionizing Visual Reasoning with Perception Tokens

Perception Tokens enhance AI's ability to understand and interpret images.

2025-04-17T02:42:00+00:00 ― 6 min read

Computation and Language Making Sense of Visual Question Answering

Learn how AI answers visual questions and provides explanations.

2025-03-19T19:47:06+00:00 ― 6 min read

Computer Vision and Pattern Recognition The Magic Behind Doubly Universal Adversarial Perturbations

A look into how Doubly-UAP tricks AI models with images and text.

2025-03-18T22:55:12+00:00 ― 6 min read

Computer Vision and Pattern Recognition DeepSeek-VL2: The Next Step in AI Intelligence

DeepSeek-VL2 merges visual and text data for smarter AI interactions.

2025-03-12T02:24:27+00:00 ― 5 min read

Computer Vision and Pattern Recognition FedPIA: Advancing Vision-Language Models with Data Privacy

FedPIA enhances machine learning while safeguarding sensitive data privacy.

2025-02-20T17:45:36+00:00 ― 6 min read

Computer Vision and Pattern Recognition A New Era in Visual Question Answering

Advancements in AI enhance visual question answering capabilities.

2025-01-18T05:39:18+00:00 ― 6 min read