Informática - Multimédia

RSS

Visão computacional e reconhecimento de padrões Criando um Metaverso Aberto para Todos

Uma nova abordagem para criar espaços virtuais acessíveis usando WebXR e A-Frame.

2025-06-22T18:26:06+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Avanços na Compreensão de Documentos Visuais com o SynthDoc

A SynthDoc cria documentos sintéticos pra aprendizado de máquina em leitura de documentos.

2025-06-22T09:13:06+00:00 ― 7 min ler

Multimédia Novo Método para Prever Emoções em Vídeos

Este estudo apresenta um modelo para analisar reações emocionais a conteúdos em vídeo.

2025-06-21T12:56:30+00:00 ― 8 min ler

Processamento de Áudio e Fala Combinando Voz e Rosto pra Melhor Reconhecimento de Identidade

Este artigo fala sobre os benefícios de juntar sistemas de reconhecimento de voz e facial.

2025-06-21T08:24:30+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Simplificando a Geração de Imagens RGBA com o Alfie

Um novo jeito de criar imagens RGBA de forma fácil e eficaz.

2025-06-21T06:45:12+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Canguru: Uma Nova Abordagem para Entender Vídeos

Kangaroo melhora a análise de vídeo integrando visuais, sons e texto de forma eficaz.

2025-06-20T14:33:30+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Uma Nova Abordagem para Segmentação de Imagens

Este artigo apresenta um modelo de codificador único para melhorar a segmentação de imagens com base em descrições de texto.

2025-06-20T14:09:48+00:00 ― 7 min ler

Som Avanços na Tecnologia de Extração de Fala do Falante-Alvo

Novos métodos melhoram a separação de vozes em ambientes barulhentos.

2025-06-20T13:47:05+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões Melhorando a Legenda de Imagens com Inferência Causal

Um novo framework melhora a precisão das legendas de imagens e reduz erros.

2025-06-20T09:09:36+00:00 ― 6 min ler

Multimédia Avançando Sistemas de Interação Multimodal

Melhorando como as máquinas ajudam os usuários por meio de interações e respostas mais eficazes.

2025-06-19T23:48:42+00:00 ― 6 min ler

Interação Homem-Computador MetaDigiHumano: Um Novo Jeito de Conectar no Metaverso

Explorando humanos digitais e interfaces hápticas pra interações imersivas.

2025-06-18T20:09:42+00:00 ― 6 min ler

Processamento de Imagem e Vídeo Melhorando a Transmissão de Dados de Vídeo Através de Previsões Inteligentes

Novos métodos melhoram a transmissão de vídeo prevendo os dados ausentes de forma eficaz.

2025-06-18T18:03:35+00:00 ― 6 min ler

Som Geração de Música de Fundo Dinâmica para Mídia Interativa

Uma estrutura para ajuste de música em tempo real em jogos e filmes.

2025-06-18T10:46:20+00:00 ― 6 min ler

Multimédia Avanços na Codificação de Vídeo de Rostos Gerados

O MRDAC melhora a qualidade do vídeo facial e a compressão usando múltiplos quadros de referência.

2025-06-18T07:23:24+00:00 ― 7 min ler

Som Usando Sons Ultrassônicos para Medição de Distância Interna

Pesquisadores exploram ecos ultrassônicos para medir distâncias com precisão em ambientes internos tranquilos.

2025-06-18T04:17:40+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões O Papel das Sombras na Processamento de Imagens

Explorando detecção, remoção e geração de sombras na visão computacional.

2025-06-17T23:21:30+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Melhorando a Claridade da Imagem em Clima Ruim

Um novo método melhora a qualidade da imagem em condições climáticas ruins usando modelos de linguagem e visão.

2025-06-17T23:05:42+00:00 ― 6 min ler

Multimédia Uma Nova Estrutura para Privacidade na Computação em Nuvem Móvel

Esse framework melhora a eficiência de apps multimídia enquanto protege a privacidade do usuário.

2025-06-17T15:51:12+00:00 ― 8 min ler

Computação e linguagem LongLLaVA: Uma Nova Era no Processamento de Imagens

LongLLaVA melhora a compreensão de várias imagens para várias aplicações.

2025-06-17T07:57:12+00:00 ― 5 min ler

Visão computacional e reconhecimento de padrões SegTalker: Avançando a Tecnologia de Rosto Falante

O SegTalker melhora vídeos de rostos falantes com texturas realistas e edição fácil.

2025-06-16T15:21:48+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões HiSC4D: Uma Nova Abordagem para Captura de Movimento

HiSC4D captura o movimento humano usando sensores vestíveis pra uma análise de interação melhor.

2025-06-16T02:27:36+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avançando a Pergunta-Resposta para Eventos de Vídeo Densos

Apresentando um método pra melhorar a resposta a perguntas em vídeos com vários eventos.

2025-06-16T02:19:42+00:00 ― 7 min ler

Som Avanços na Diarização de Fala em Áudio-Visual

Uma visão geral dos métodos de diarização de falantes em áudio-visual, desafios e sistemas.

2025-06-15T21:14:00+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Avanços na Performance de Modelos de Visão-Linguagem

Esse trabalho melhora os modelos de visão-linguagem com estratégias de dados melhores e técnicas inovadoras.

2025-06-15T18:02:00+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avançando a Ancoragem Visual com MMCA

Um novo método melhora a identificação de objetos em imagens através da integração personalizada de visual e texto.

2025-06-15T09:12:42+00:00 ― 6 min ler

Multimédia Melhorando a Classificação de Memes com SimCLIP

SimCLIP melhora a análise de memes ao combinar texto e imagens de forma eficaz.

2025-06-15T01:42:24+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Identificando a Pessoa Mais Importante em Imagens Sociais

O conjunto de dados MIP-GAF ajuda a analisar a dinâmica social em imagens.

2025-06-14T02:24:06+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Melhorando Modelos de Visão-Linguagem com Alinhamento Composicional

Uma nova abordagem aprimora a conexão entre imagens e texto em VLMs.

2025-06-13T05:12:12+00:00 ― 6 min ler

Som Conectando Arte e Música Através das Emoções

Pesquisa liga pinturas à música interpretando emoções.

2025-06-12T23:35:50+00:00 ― 7 min ler

Multimédia Novo Método para Detectar Emoções Humanas

Um estudo revela uma nova forma de identificar emoções usando vídeo, som e texto.

2025-06-12T23:24:36+00:00 ― 6 min ler

Visão computacional e reconhecimento de padrões Melhorando o Reconhecimento de Fala com Vários Tipos de Entrada

Este artigo explora como entradas variadas podem aumentar a precisão do reconhecimento de fala.

2025-06-12T15:30:00+00:00 ― 6 min ler

Processamento de Áudio e Fala Transformando a Educação Musical com LLaQo

O LLaQo oferece um feedback detalhado para a avaliação de performances musicais, melhorando o aprendizado dos alunos.

2025-06-12T02:32:40+00:00 ― 6 min ler

Arquitetura de redes e da Internet Starlink e o Futuro do Streaming de Vídeo

Explorando como a Starlink influencia o streaming de vídeo no mundo todo.

2025-06-11T20:33:00+00:00 ― 6 min ler

Som O Papel Crescente da IA na Criação Musical

A inteligência artificial tá mudando a música com novas ferramentas e jeitos de fazer.

2025-06-11T07:55:15+00:00 ― 7 min ler

Arquitetura de redes e da Internet Avanços no Controle de Congestionamento para Streaming de Vídeo

Melhorando a comunicação em tempo real com novos métodos de controle de congestionamento.

2025-06-11T02:22:48+00:00 ― 7 min ler

Som Avanços na Geração de Vídeo para Áudio

Novos métodos melhoram a sincronização de áudio com cenas de vídeo que mudam.

2025-06-10T20:35:05+00:00 ― 5 min ler

Computação e linguagem NVLM: Avançando a Compreensão da IA Multimodal

O NVLM melhora a compreensão de linguagem e visuais da IA para várias tarefas.

2025-06-10T18:52:30+00:00 ― 6 min ler

Computação e linguagem Método de Redução de Tokens Melhora Eficiência em MLLMs

O método TRIM reduz os tokens de imagem em modelos de linguagem multimodal, mantendo o desempenho.

2025-06-10T11:06:24+00:00 ― 6 min ler

Computação e linguagem O Papel dos Grandes Modelos de Linguagem na Raciocínio Cross-Modal

Explorando como os LLMs melhoram o raciocínio em diferentes tipos de dados.

2025-06-10T08:52:06+00:00 ― 9 min ler

Som PDMX: Um Novo Recurso para Pesquisa de Música com IA

A PDMX oferece uma coleção enorme de músicas simbólicas de domínio público pra desenvolvimento de IA.

2025-06-10T08:26:20+00:00 ― 7 min ler