Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Aprendizagem de máquinas

Avaliação da Inteligência de Grandes Modelos de Linguagem

Um olhar sobre como medimos a inteligência dos modelos de linguagem de IA.

― 5 min ler


Avaliando a InteligênciaAvaliando a Inteligênciada IA: Um MergulhoProfundoraciocínio em modelos de linguagem.Avaliando tanto o conhecimento quanto o
Índice

Com a ascensão de grandes modelos de linguagem (LLMs) como o ChatGPT, muita gente tá falando sobre inteligência, utilidade e os riscos potenciais. Tem uma preocupação com a ideia de IA “super-humana”, ou seja, sistemas que podem ser muito mais inteligentes que as pessoas. É claro que os LLMs atuais conseguem se sair bem em várias tarefas comparados aos humanos, mas ainda têm dificuldade com coisas que parecem fáceis pra gente.

Uma preocupação grande é a Confiabilidade. Por exemplo, os LLMs conseguem escrever artigos de pesquisa sobre quase qualquer assunto com um mínimo de informações. No entanto, eles podem gerar informações que não são precisas ou confiáveis, levando a restrições sobre o uso de conteúdo gerado por IA em revistas científicas. Isso levanta uma pergunta importante: Podemos usar os mesmos métodos pra medir a inteligência humana pra checar quão inteligentes os LLMs realmente são?

Dois Tipos de Inteligência

Pra entender melhor a inteligência dos LLMs, pode ser legal dividir a inteligência em dois tipos: inteligência quantitativa e inteligência qualitativa.

Inteligência Quantitativa

Inteligência quantitativa se refere à quantidade de informações que os LLMs conseguem armazenar e manipular. Isso é parecido com como os humanos acumulam conhecimento. Como os LLMs são treinados com uma quantidade enorme de dados da internet, eles conseguem cobrir uma variedade imensa de assuntos - desde hobbies como tricô até temas complexos como física quântica. Eles conseguem guardar mais informações do que qualquer ser humano.

Pra avaliar a inteligência quantitativa, a gente deveria testar os LLMs em uma ampla gama de tópicos e diferentes níveis de detalhe. Em vez de só algumas perguntas, poderíamos avaliar um modelo usando centenas de milhares de perguntas em um curto período. Isso incluiria uma mistura de conhecimento básico, entendimento comum e assuntos avançados. Testes atuais, como o teste de compreensão de linguagem multitarefa (MMLU), é um bom começo. Mas não separa claramente a recuperação de informações das habilidades de resolução de problemas.

Inteligência Qualitativa

Inteligência qualitativa envolve habilidades mais complexas, como Raciocínio e tirar conclusões significativas a partir de informações que o modelo nunca viu antes. Essa parte é crucial porque ajuda a determinar se um modelo tá só rearranjando dados familiares ou se realmente consegue lidar com novos problemas. Pra avaliar a inteligência qualitativa de forma precisa, a gente precisa de métodos de teste diferentes.

Por exemplo, comparar como os LLMs convencem as pessoas em debates pode dar insights sobre suas habilidades persuasivas. Usar métodos como ensaios controlados randomizados (RCTs) ajuda a avaliar tanto os aspectos qualitativos quanto quantitativos. Mas ainda não temos uma abordagem padrão pra avaliar a inteligência qualitativa nos LLMs.

Crescimento de Dados vs. Crescimento de Inteligência

À medida que mais dados são inseridos nos LLMs e eles crescem, chegará um ponto em que não conseguem mais absorver informações. Isso levanta uma reflexão interessante: se pudéssemos treinar um modelo com todas as informações já criadas, quão inteligente ele poderia se tornar? Mesmo que ele tenha todo o conhecimento e insights humanos, argumentamos que sua capacidade de pensar e raciocinar não seria muito maior que a dos humanos. Isso porque o treinamento do modelo é baseado em ideias e linguagem humanas.

Mesmo que os LLMs mostrem ótimas habilidades linguísticas, ainda tá em debate se isso se traduz em habilidades de pensamento mais amplas. Será que linguagem é suficiente pra desenvolver essas habilidades? Além disso, simplesmente reorganizar uma quantidade enorme de dados pode não levar a um comportamento que pareça humano.

Quando falamos de IA “super-humana”, vemos que os LLMs de hoje podem facilmente superar o conhecimento humano em termos de quantidade. Eles conseguem lidar rapidamente com tarefas que exigiriam uma equipe de pessoas. No entanto, é menos provável que eles melhorem suas habilidades qualitativas de forma significativa, pelo menos com os métodos de treinamento atuais.

A Necessidade de uma Melhor Avaliação

Pra realmente entender quão inteligentes esses modelos são, precisamos olhar tanto pra medidas quantitativas quanto qualitativas. Também precisamos desenvolver novas estruturas pra abordar essas questões na pesquisa. Mesmo agora, apesar de não termos uma compreensão clara de como os LLMs crescerão em inteligência, seu impacto na sociedade já é imenso.

À medida que esses modelos avançam em inteligência quantitativa, eles podem ser usados em várias áreas, combinando expertise de diferentes campos. Tarefas que hoje levam equipes de profissionais em breve podem ser geridas por um único LLM. Isso significa que um simples pedido pode levar a novas campanhas de marketing, obras criativas ou estudos complexos sendo elaborados.

Enquanto esses avanços podem acelerar processos, a ideia de que em breve teremos uma IA super inteligente pode ser exagerada. Em vez disso, podemos enfrentar desafios como perda de empregos, desinformação e manipulação política à medida que esses modelos se tornam mais integrados ao nosso dia a dia.

Conclusão

Em conclusão, o desenvolvimento dos LLMs sugere que eles vão reter uma parte significativa do conhecimento humano. Contudo, eles podem não superar rapidamente as habilidades de raciocínio e qualitativas dos humanos. Pra avaliar adequadamente sua inteligência e possíveis características “super-humanas”, precisamos usar medidas distintas tanto para inteligência quantitativa quanto qualitativa. Fazendo isso, podemos entender melhor o que esses modelos realmente podem fazer e como eles vão afetar nosso mundo.

Fonte original

Título: How to Measure the Intelligence of Large Language Models?

Resumo: With the release of ChatGPT and other large language models (LLMs) the discussion about the intelligence, possibilities, and risks, of current and future models have seen large attention. This discussion included much debated scenarios about the imminent rise of so-called "super-human" AI, i.e., AI systems that are orders of magnitude smarter than humans. In the spirit of Alan Turing, there is no doubt that current state-of-the-art language models already pass his famous test. Moreover, current models outperform humans in several benchmark tests, so that publicly available LLMs have already become versatile companions that connect everyday life, industry and science. Despite their impressive capabilities, LLMs sometimes fail completely at tasks that are thought to be trivial for humans. In other cases, the trustworthiness of LLMs becomes much more elusive and difficult to evaluate. Taking the example of academia, language models are capable of writing convincing research articles on a given topic with only little input. Yet, the lack of trustworthiness in terms of factual consistency or the existence of persistent hallucinations in AI-generated text bodies has led to a range of restrictions for AI-based content in many scientific journals. In view of these observations, the question arises as to whether the same metrics that apply to human intelligence can also be applied to computational methods and has been discussed extensively. In fact, the choice of metrics has already been shown to dramatically influence assessments on potential intelligence emergence. Here, we argue that the intelligence of LLMs should not only be assessed by task-specific statistical metrics, but separately in terms of qualitative and quantitative measures.

Autores: Nils Körber, Silvan Wehrli, Christopher Irrgang

Última atualização: 2024-07-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.20828

Fonte PDF: https://arxiv.org/pdf/2407.20828

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes