Criando Personagens Digitais com Personalidades Reais
Aprenda como a tecnologia cria personagens digitais realistas para interações divertidas.
― 5 min ler
Nos últimos anos, a tecnologia avançou, permitindo que a gente crie personagens digitais com os quais podemos interagir de uma maneira mais realista. Uma área empolgante desse desenvolvimento é a criação de personagens que parecem super personalizados, como uma pessoa que a gente conhece. Este artigo vai discutir como a gente pode criar versões digitais de personagens de programas de TV, focando em um personagem como o Sheldon de The Big Bang Theory.
O que é Criação de Personagens Profundamente Personalizados?
O processo de criar esses personagens se chama Criação de Personagens Profundamente Personalizados (CPP). Isso significa fazer um personagem que não só se pareça com o original, mas que também se comporte como ele. A gente pode usar diferentes tipos de dados, como texto, vídeo e áudio, para ensinar o personagem a interagir igualzinho ao personagem original.
O principal objetivo da CPP é gerar respostas que reflitam a personalidade do personagem enquanto proporcionam interações de alta qualidade. Interações de alta qualidade significam que as respostas não são apenas corretas, mas também parecem genuínas e apropriadas para o personagem.
Coletando Dados para CPP
Para construir esses personagens, primeiro a gente precisa coletar dados que capturem a personalidade deles. A gente faz isso coletando diálogos dos programas onde esses personagens aparecem. Por exemplo, focamos em coletar dados de The Big Bang Theory. Os dados são feitos de falas individuais dos personagens, junto com o áudio e vídeo dessas falas.
A gente coletou cerca de 10.000 falas para cada personagem, além de horas de áudio e vídeo. Esses dados são cruciais porque permitem que a gente veja como os personagens falam, o tom de voz deles e suas expressões faciais. Com uma quantidade grande de dados, conseguimos criar personagens que parecem mais completos e reais.
O Processo de Fazer Personagens Digitais
Criar um personagem digital envolve várias etapas:
Coleta de Dados: A gente junta vídeo, áudio e transcrições escritas dos diálogos do personagem.
Limpeza dos Dados: A gente garante que os dados estejam claros e alinhados corretamente. Isso significa que o texto coincide com os clipes de áudio e vídeo de forma precisa.
Extração de Características: A gente analisa os dados coletados para pegar características importantes do personagem. Isso inclui as palavras que eles usam, o tom de voz e como eles expressam emoções através das expressões faciais.
Treinamento do Modelo: Uma vez que a gente tem nossas características, treinamos um modelo de computador para aprender com esses dados. O modelo aprende a criar respostas que combinam com a personalidade do personagem com base nas entradas que recebe.
Geração de Respostas: Depois que o modelo está treinado, a gente pode usá-lo para criar respostas. Quando alguém interage com o personagem digital, o modelo gera uma resposta adequada com base na personalidade do personagem.
Avaliando Caracterização e Qualidade
Para garantir que nossos personagens digitais sejam eficazes, precisamos avaliar quão bem eles refletem as personalidades dos personagens originais. Fazemos isso de algumas maneiras:
Testes Subjetivos: Realizamos pesquisas onde as pessoas interagem com os personagens digitais e depois dão feedback sobre quão bem as respostas combinam com a personalidade do personagem.
Testes Objetivos: Medimos vários aspectos das respostas, como fluência e relevância, para determinar se elas atendem aos padrões esperados.
Resultados da Criação de DeepCharacters
Depois de seguir o processo de CPP, descobrimos que as respostas dos nossos personagens digitais combinavam bastante com os traços de personalidade dos personagens originais. Por exemplo, nosso Sheldon digital mostrou sua linguagem científica característica e comportamento, enquanto outro personagem pode exibir um tom emocional diferente.
Importância das Respostas Multimodais
Uma das principais forças dos nossos personagens é a capacidade de gerar respostas multimodais. Isso significa que os personagens podem responder não só por texto, mas também por áudio e vídeo, fazendo a interação parecer mais imersiva.
Quando alguém manda uma mensagem de texto para o personagem, o sistema processa essa entrada e gera uma resposta que inclui texto, áudio e uma representação em vídeo do personagem falando. Essa abordagem dá mais profundidade à interação, permitindo que as pessoas se sintam mais envolvidas.
Direções Futuras na Criação de Personagens
A tecnologia que desenvolvemos permite possibilidades empolgantes na criação de personagens. Daqui pra frente, imaginamos várias melhorias:
Incorporar Mais Recursos: Adicionar mais tipos de dados, como gestos ou movimentos corporais, para enriquecer ainda mais as interações.
Criar Modelos 3D: Usar tecnologia 3D para tornar os personagens ainda mais realistas e imersivos.
Melhorar a Qualidade de Áudio e Vídeo: Continuar aprimorando a qualidade de áudio e vídeo para garantir que as conversas pareçam mais naturais.
Desenvolver Métricas de Avaliação: Criar melhores formas de avaliar quão bem os personagens refletem suas personalidades originais.
Conclusão
Resumindo, o desenvolvimento da Criação de Personagens Profundamente Personalizados representa um grande passo à frente em como a gente interage com personagens digitais. Usando dados detalhados de diálogos de programas de TV, conseguimos criar personagens que parecem reais e envolventes. A capacidade de gerar respostas personalizadas e multimodais abre muitas possibilidades para entretenimento, educação e várias outras áreas.
À medida que seguimos com esse trabalho, o potencial para criar personagens digitais que parecem pessoas reais continua a crescer, abrindo caminho para interações ainda mais imersivas e significativas. Isso não só melhora o entretenimento, mas também pode ser usado na educação, saúde e outros campos onde a interação personalizada pode fazer uma diferença real.
Título: Hi Sheldon! Creating Deep Personalized Characters from TV Shows
Resumo: Imagine an interesting multimodal interactive scenario that you can see, hear, and chat with an AI-generated digital character, who is capable of behaving like Sheldon from The Big Bang Theory, as a DEEP copy from appearance to personality. Towards this fantastic multimodal chatting scenario, we propose a novel task, named Deep Personalized Character Creation (DPCC): creating multimodal chat personalized characters from multimodal data such as TV shows. Specifically, given a single- or multi-modality input (text, audio, video), the goal of DPCC is to generate a multi-modality (text, audio, video) response, which should be well-matched the personality of a specific character such as Sheldon, and of high quality as well. To support this novel task, we further collect a character centric multimodal dialogue dataset, named Deep Personalized Character Dataset (DPCD), from TV shows. DPCD contains character-specific multimodal dialogue data of ~10k utterances and ~6 hours of audio/video per character, which is around 10 times larger compared to existing related datasets.On DPCD, we present a baseline method for the DPCC task and create 5 Deep personalized digital Characters (DeepCharacters) from Big Bang TV Shows. We conduct both subjective and objective experiments to evaluate the multimodal response from DeepCharacters in terms of characterization and quality. The results demonstrates that, on our collected DPCD dataset, the proposed baseline can create personalized digital characters for generating multimodal response.Our collected DPCD dataset, the code of data collection and our baseline will be published soon.
Autores: Meidai Xuanyuan, Yuwang Wang, Honglei Guo, Xiao Ma, Yuchen Guo, Tao Yu, Qionghai Dai
Última atualização: 2023-04-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.11093
Fonte PDF: https://arxiv.org/pdf/2304.11093
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.