Construindo uma Estrutura para Inteligência Social em PLN
Uma nova infraestrutura conecta conjuntos de dados de NLP pra medir inteligência social.
― 12 min ler
Índice
- Entendendo a Inteligência Social
- Componentes da Inteligência Social
- Inteligência Cognitiva
- Inteligência Situacional
- Inteligência Comportamental
- Desafios na Medição da Inteligência Social
- Cenário Atual de Dados de NLP Social
- Construção da Biblioteca de Dados
- Anotação da Biblioteca de Dados
- Destaques do Cenário Atual de Dados
- Mudanças Temporais nos Tópicos
- Tipos de Dados em Inteligência Social
- Uso de IA na Criação de Conjuntos de Dados
- Avaliando o Desempenho de Modelos de Linguagem
- Principais Descobertas
- Recomendações Futuras para a Criação de Conjuntos de Dados
- Focar em Cenários Específicos e Complexos
- Incentivar Interações Multidisciplinares
- Promover Conjuntos de Dados Multifacetados
- Melhorar Representação Linguística e Cultural
- Aumentar a Interatividade nos Dados
- Desenvolver Conjuntos de Dados Dinâmicos
- Explorar Dados Multimodais
- Recomendações para Coleta de Dados
- Preocupações com Representação
- Compreendendo o Contexto Social
- Aproveitando a IA de Forma Colaborativa
- Desenvolvendo Ferramentas de Anotação
- Abordando Considerações Éticas
- Conclusão
- Declaração Ética
- Fonte original
- Ligações de referência
À medida que ferramentas de Processamento de Linguagem Natural (NLP) se tornam parte do dia a dia, é essencial incluir inteligência social nessas tecnologias. Atualmente, existem muitos conjuntos de dados úteis que ajudam a medir a inteligência social, mas não há um sistema bem organizado que conecte essas várias partes. Para lidar com essa lacuna, criamos uma Infraestrutura de Dados de IA Social, que inclui um sistema de classificação detalhado e uma coleção de 480 conjuntos de dados de NLP. Essa infraestrutura ajuda os pesquisadores a olharem para os conjuntos de dados existentes e verificarem como diferentes modelos de linguagem se saem nas áreas de inteligência social.
Dados são vitais e podem sobreviver aos sistemas que os utilizam. A inteligência social em si é um tema de interesse há bastante tempo, com muitos psicólogos reconhecendo-a como uma forma única de inteligência que ajuda a navegar nas relações humanas. Pesquisadores hoje acreditam que, para criar uma inteligência artificial parecida com a humana, a inteligência social é crucial. No entanto, ainda falta uma compreensão clara e abrangente da inteligência social no contexto da IA.
Nossa Infraestrutura de Dados de Inteligência Social oferece uma visão ampla da inteligência social em NLP, apresentando uma classificação bem pensada e uma biblioteca de conjuntos de dados de NLP. Os pesquisadores podem usar esse sistema para criar tarefas, avaliar modelos de linguagem e obter insights para futuros estudos sobre inteligência social.
Entendendo a Inteligência Social
Estudos anteriores definiram a inteligência social principalmente através de habilidades cognitivas - quão bem alguém entende os outros - mas essa visão ignora o lado comportamental, que foca em como alguém interage com os outros. Ambas as dimensões são importantes, mas incompletas, já que a inteligência social abrange muitos aspectos. Os conjuntos de dados atuais que se relacionam com a inteligência social também costumam focar apenas em uma área, em vez de oferecer uma visão mais completa. Portanto, é vital criar uma definição abrangente que possa organizar melhor os conjuntos de dados existentes. Sem organização, é desafiador ver questões de pesquisa maiores e tendências para futuros estudos.
Para criar um sistema bem organizado, estabelecemos a Infraestrutura de Dados de Inteligência Social, que consiste em um sistema de classificação abrangente para a inteligência social e uma biblioteca de dados organizada contendo 480 conjuntos de dados de NLP. Essa classificação define formalmente diferentes aspectos da inteligência social, ajudando a trazer clareza e estrutura à sua definição na IA. A biblioteca de dados organiza conjuntos de dados de acordo com nossa classificação, permitindo que os pesquisadores encontrem lacunas em conjuntos de dados e direcionem futuros esforços no desenvolvimento de conjuntos de dados para inteligência social.
Componentes da Inteligência Social
Uma visão equilibrada da inteligência social consiste em três tipos principais: inteligência cognitiva, inteligência situacional e inteligência comportamental. Esses tipos trabalham juntos para moldar a interação humana.
Inteligência Cognitiva
Inteligência cognitiva envolve entender pistas verbais e não verbais para captar o que os outros estão pensando e sentindo. Isso inclui entender intenções, crenças e emoções. Essa inteligência é crítica para uma comunicação eficaz e muitas tarefas de NLP. Por exemplo, reconhecer a intenção é essencial para diálogos orientados a tarefas, enquanto suporte à saúde mental requer uma compreensão das emoções.
Inteligência Situacional
Inteligência situacional foca na consciência dos contextos sociais e como eles impactam a cognição e o comportamento. Isso envolve entender eventos sociais, normas culturais e informações individuais sobre os falantes. A inteligência situacional serve como base para a tomada de decisões, ligando a inteligência cognitiva a comportamentos apropriados. Incorporar elementos contextuais melhora significativamente o desempenho dos sistemas de NLP.
Inteligência Comportamental
Inteligência comportamental refere-se à capacidade de se comunicar com sucesso e agir de maneira apropriada para atingir objetivos sociais. Isso inclui compartilhamento de informações, influenciar os outros e manter relacionamentos por meio de conversas. A inteligência comportamental tem implicações diretas para interações tanto entre humanos quanto entre humanos e IA, exigindo habilidades como empatia, persuasão e transparência.
Desafios na Medição da Inteligência Social
Os três tipos de inteligência social estão interconectados, frequentemente influenciando uns aos outros. Um agente com inteligência situacional pode expressar melhor a inteligência cognitiva ao captar pistas do contexto social, enquanto entender os estados mentais dos outros pode melhorar a consciência situacional. Essa natureza dinâmica torna difícil medir a inteligência social apenas com conjuntos de dados estáticos.
Diante desses desafios, nossa análise examinará quão bem os benchmarks existentes capturam a complexidade da inteligência social e observará se os conjuntos de dados refletem mais de um tipo de inteligência. Por exemplo, alguns conjuntos de dados exigem múltiplas inteligências para interpretar linguagem ofensiva de maneira apropriada com base no contexto social. Também forneceremos sugestões para projetar futuros conjuntos de dados focados em inteligência social.
Cenário Atual de Dados de NLP Social
Surge a pergunta: quão detalhados podem os conjuntos de dados existentes ajudar os pesquisadores a construir e avaliar os aspectos centrais da inteligência social na IA? Para responder isso, utilizamos nossa classificação de IA Social para categorizar publicações de NLP relevantes em uma biblioteca de conjuntos de dados.
Construção da Biblioteca de Dados
Reunimos dados da ACL Anthology, focando em conjuntos de dados publicados entre janeiro de 2001 e outubro de 2023. Filtramos títulos e resumos para palavras-chave relacionadas à inteligência social e criação de conjuntos de dados. Isso nos levou a curar uma coleção de 480 artigos, removendo estudos irrelevantes. Também coletamos metadados importantes para esses artigos, o que ajuda os pesquisadores a acessarem informações cruciais rapidamente.
Anotação da Biblioteca de Dados
Dois autores revisaram o conteúdo dos artigos e os classificaram de acordo com o tipo de inteligência. Essa classificação é baseada no foco principal do conjunto de dados. Por exemplo, conjuntos de dados centrados no reconhecimento de intenções foram rotulados como inteligência cognitiva. Essa abordagem estruturada ajuda a organizar conjuntos de dados com base em suas áreas de foco.
Destaques do Cenário Atual de Dados
Ao visualizar a distribuição de conjuntos de dados entre diferentes tipos de inteligência, podemos tirar conclusões sobre as tendências atuais de NLP relacionadas à inteligência social. A maioria dos conjuntos de dados enfatiza a inteligência cognitiva (64,2%), seguida por inteligência comportamental (22,7%) e minimamente inteligência situacional (3,8%). Uma pequena parte dos conjuntos de dados (9,4%) abrange múltiplos tipos de inteligência.
Mudanças Temporais nos Tópicos
O foco da pesquisa em inteligência situacional começou mais tarde do que os outros dois tipos, surgindo em 2008. Ao longo dos anos, houve uma mudança em direção a tarefas mais específicas e complexas para todos os tipos de inteligência. Por exemplo, trabalhos anteriores sobre inteligência cognitiva lidavam principalmente com categorização ampla de diálogos, enquanto estudos recentes abordam tópicos sutis como sarcasmo e ironia.
Tipos de Dados em Inteligência Social
Ao examinar os tipos de dados utilizados na pesquisa sobre inteligência social, notamos uma distinção entre conjuntos de dados interativos e estáticos. Conjuntos de dados interativos permitem trocas de informações, enquanto conjuntos de dados estáticos consistem em textos autossuficientes sem contexto social.
Uso de IA na Criação de Conjuntos de Dados
Há uma tendência crescente em aproveitar a IA para gerar e anotar conjuntos de dados relacionados à inteligência social. Embora o uso de IA para geração esteja aumentando, a anotação dos conjuntos de dados ainda envolve uma mistura de esforços humanos e de IA. Isso levanta questões sobre a qualidade e relevância dos dados gerados.
Avaliando o Desempenho de Modelos de Linguagem
Usando nossa Infraestrutura de Dados de IA Social, avaliamos o desempenho dos atuais grandes modelos de linguagem (LLMs) em relação à inteligência social. Essa avaliação revela os pontos fortes e fracos dos modelos e destaca áreas onde futuros conjuntos de dados podem melhorar.
Principais Descobertas
Nossos resultados indicam que os modelos de linguagem se saem melhor em tarefas simples em comparação com as mais complexas. Por exemplo, um modelo que se destaca em reconhecer intenções simples pode ter dificuldades com sarcasmo. Além disso, tarefas com menos conjuntos de dados e demandas contextuais sutis se mostram mais desafiadoras para os LLMs. Além disso, conjuntos de dados que fornecem um contexto social mais rico tendem a produzir melhores resultados.
Por outro lado, os LLMs costumam se sair melhor do que o desempenho médio humano em tarefas de inteligência comportamental, indicando suas capacidades em gerar respostas em conversação. No entanto, ainda há uma diferença notável entre o desempenho dos LLMs e o melhor desempenho humano em tarefas mais sutis.
Recomendações Futuras para a Criação de Conjuntos de Dados
Com base em nossa análise do cenário de dados atual e na avaliação do desempenho dos LLMs, identificamos várias áreas para o desenvolvimento futuro de conjuntos de dados:
Focar em Cenários Específicos e Complexos
Futuros conjuntos de dados devem abordar cenários sutis que reflitam a riqueza da comunicação humana, como sarcasmo e dilemas morais. É crucial modelar a complexidade das interações sociais para capturar com precisão a ambiguidade da linguagem.
Incentivar Interações Multidisciplinares
A pesquisa deve se estender além de diálogos simples para incluir conversas longas e multipartidárias, considerando estruturas discursivas diversas. Essa abordagem ajudará a desenvolver sistemas de inteligência social mais avançados.
Promover Conjuntos de Dados Multifacetados
Muitos conjuntos de dados existentes focam em um tipo de inteligência. Esforços futuros devem apoiar a criação de conjuntos de dados que reúnam diferentes tipos de inteligência para incentivar avaliações holísticas.
Melhorar Representação Linguística e Cultural
Há uma grande necessidade de melhorar a diversidade em conjuntos de dados em relação a idiomas, culturas e contextos sociais. Isso permitirá que os modelos generalizem melhor entre várias populações.
Aumentar a Interatividade nos Dados
Mais conjuntos de dados interativos permitiriam que os modelos de linguagem desenvolvessem habilidades sociais essenciais. Esses ambientes interativos também mudariam o foco para a compreensão do comportamento em vez de medir apenas a precisão.
Desenvolver Conjuntos de Dados Dinâmicos
Valores e comportamentos sociais mudam ao longo do tempo, portanto, conjuntos de dados devem evoluir para capturar as mudanças contínuas nas interações sociais. Uma estrutura flexível pode ajudar a acomodar personalizações futuras.
Explorar Dados Multimodais
Os conjuntos de dados devem integrar várias formas de comunicação, como gestos e expressões faciais, para proporcionar uma compreensão mais completa das pistas sociais.
Recomendações para Coleta de Dados
Abordagens tradicionais para a criação de conjuntos de dados de IA social dependeram de anotações crowdsourced. No entanto, esse modelo apresenta várias questões:
Preocupações com Representação
Uma amostra aleatória de anotadores pode não representar adequadamente perspectivas diversas. Mover-se em direção a uma anotação mais liderada por especialistas de várias áreas - como linguística, psicologia e sociologia - melhorará a qualidade dos dados.
Compreendendo o Contexto Social
Anotadores muitas vezes carecem do contexto social necessário para compreender totalmente as interações que estão observando. Envolver os anotadores diretamente em interações sociais pode fornecer dados mais ricos e interativos.
Aproveitando a IA de Forma Colaborativa
Incluir a IA no processo de geração e co-anotação de conjuntos de dados pode melhorar a qualidade e a eficiência da coleta de dados.
Desenvolvendo Ferramentas de Anotação
Ferramentas devem facilitar a anotação e visualização de constantes da inteligência social, apoiando uma integração mais suave em plataformas existentes para coleta de dados reprodutível.
Abordando Considerações Éticas
Os conjuntos de dados usados em pesquisas de IA social devem incorporar considerações éticas para evitar preconceitos e respeitar a privacidade do usuário. Construir métodos de coleta de dados centrados na comunidade, onde os usuários participam na co-concepção dos esforços, pode garantir justiça e inclusividade.
Conclusão
Estabelecemos uma Infraestrutura de Dados de IA Social que inclui um sistema de classificação detalhado e uma biblioteca de 480 conjuntos de dados de NLP. Essa infraestrutura facilita uma compreensão mais clara do conceito de inteligência social em sistemas de IA e ajuda os pesquisadores a organizar conjuntos de dados existentes. Nossa análise fornece insights sobre o cenário atual e direções futuras para o desenvolvimento de conjuntos de dados que aprimorem a inteligência social em sistemas de NLP.
Enquanto buscamos a abrangência, reconhecemos que é impossível cobrir todos os conjuntos de dados dentro do reino da inteligência social. Nossa análise foca em comparações relativas dentro do domínio de NLP. Trabalhos futuros devem continuar a construir sobre nossa biblioteca de dados, à medida que modelos de linguagem são treinados em conjuntos de dados extensos que podem levar a inconsistências de desempenho. Nosso trabalho enfatiza a necessidade de futuros designs de conjuntos de dados, abordando a crescente demanda por inteligência social em sistemas de IA.
Declaração Ética
Esta pesquisa foi revisada e aprovada pelo Comitê de Ética Institucional relevante, garantindo conformidade com os padrões éticos. Reconhecemos o potencial para abuso à medida que os sistemas de IA se tornam mais socialmente inteligentes e encorajamos esforços futuros para estabelecer diretrizes claras sobre as capacidades da IA para prevenir resultados prejudiciais.
Em resumo, nosso trabalho clama por uma abordagem colaborativa no desenvolvimento de dados de IA social, integrando diversas perspectivas, conhecimento interdisciplinar e práticas éticas para avançar o campo de forma responsável.
Título: Social Intelligence Data Infrastructure: Structuring the Present and Navigating the Future
Resumo: As Natural Language Processing (NLP) systems become increasingly integrated into human social life, these technologies will need to increasingly rely on social intelligence. Although there are many valuable datasets that benchmark isolated dimensions of social intelligence, there does not yet exist any body of work to join these threads into a cohesive subfield in which researchers can quickly identify research gaps and future directions. Towards this goal, we build a Social AI Data Infrastructure, which consists of a comprehensive social AI taxonomy and a data library of 480 NLP datasets. Our infrastructure allows us to analyze existing dataset efforts, and also evaluate language models' performance in different social intelligence aspects. Our analyses demonstrate its utility in enabling a thorough understanding of current data landscape and providing a holistic perspective on potential directions for future dataset development. We show there is a need for multifaceted datasets, increased diversity in language and culture, more long-tailed social situations, and more interactive data in future social intelligence data efforts.
Autores: Minzhi Li, Weiyan Shi, Caleb Ziems, Diyi Yang
Última atualização: 2024-02-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.14659
Fonte PDF: https://arxiv.org/pdf/2403.14659
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://aclanthology.org/
- https://docs.google.com/spreadsheets/d/1jSTmPaqaEVXxoLmt_DCk933PsthMucbIFT7KmZt2Q3A/edit?usp=sharing
- https://huggingface.co/datasets/snips_built_in_intents
- https://github.com/dmbavkar/iSarcasm/blob/master/isarcasm_test.csv
- https://github.com/cardiffnlp/tweeteval/tree/main/datasets/stance/abortion
- https://github.com/cambridge-wtwt/acl2020-wtwt-tweets
- https://huggingface.co/datasets/sem_eval_2018_task_1/viewer/subtask5.english/test
- https://huggingface.co/datasets/go_emotions
- https://huggingface.co/datasets/social_i_qa
- https://declare-lab.github.io/CICERO/
- https://drive.google.com/drive/folders/1XRhrzgG_R0zypPgPlCxK0nlqKbfaI9xe
- https://huggingface.co/datasets/feradauto/MoralExceptQA
- https://huggingface.co/datasets/daily_dialog
- https://huggingface.co/datasets/AlekseyKorshuk/persona-chat
- https://github.com/UKPLab/emnlp2016-empirical-convincingness/blob/5396e5ae06dd65c064fc0864f106f095f47acfe7/data/CSV-format/ban-plastic-water-bottles_yes-emergencies-only.xml.csv
- https://gitlab.com/ucdavisnlp/persuasionforgood/-/blob/master/data/AnnotatedData/300_dialog.xlsx?ref_type=heads
- https://github.com/SALT-NLP/positive-frames/blob/main/data/wholetest.csv
- https://huggingface.co/datasets/nbertagnolli/counsel-chat
- https://huggingface.co/datasets/cmu-lti/cobracorpus
- https://github.com/SALT-NLP/CulturallyAwareNLI/blob/main/data/data.tsv