Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando as habilidades de resumo de texto do ChatGPT

Um estudo comparando os resumos do ChatGPT com textos gerados por humanos.

― 5 min ler


ChatGPT vs ResumosChatGPT vs ResumosHumanosigualar a precisão humana?Resumos gerados por IA conseguem
Índice

Modelos de Linguagem Grande (LLMs) como o ChatGPT chamaram bastante atenção porque fazem várias tarefas bem. O ChatGPT, criado pela OpenAI, é conhecido pela capacidade de gerar textos que parecem escritos por humanos. Embora muita gente tenha compartilhado suas experiências com o ChatGPT online, não rolou muita pesquisa científica sobre como ele se sai, especialmente na hora de criar Resumos de textos. Este artigo tem como objetivo olhar de perto como o ChatGPT produz resumos e como eles se comparam aos resumos feitos por pessoas.

Propósito do Estudo

O principal objetivo desse estudo é avaliar como o ChatGPT consegue gerar resumos de artigos. Queremos descobrir se as pessoas conseguem notar a diferença entre os resumos criados pelo ChatGPT e os escritos por humanos. Também queremos ver quão preciso o ChatGPT é ao usar métricas automáticas para medir seu desempenho.

Antecedentes

Desde que o ChatGPT foi lançado, rolaram muitas discussões sobre seus pontos fortes e fracos. Alguns estudos testaram o ChatGPT em várias tarefas e descobriram que ele se sai bem em áreas como tradução e provas sem precisar de treinamento extra. No entanto, ainda existem desafios. Por exemplo, ele às vezes comete erros em matemática básica.

Apesar desses desafios, muitas empresas já estão usando o ChatGPT para diversas tarefas online. Alguns usuários notaram que ele pode dar informações erradas com confiança, gerando preocupações sobre sua confiabilidade. Portanto, mais estudos sistemáticos sobre o ChatGPT são necessários para entender melhor seu desempenho.

O Processo de Resumir

Resumir é o ato de reduzir um texto longo em uma versão mais curta, mantendo as ideias principais. Existem dois tipos principais de resumo: o extrativo e o abstrativo. Resumos extrativos pegam frases diretas do texto original, enquanto os Abstrativos podem usar novas palavras e frases que não estão no texto original. Este estudo foca em resumos abstrativos, que são mais parecidos com a forma como os humanos resumem informações.

Preparando o Conjunto de Dados

Para este estudo, juntamos artigos de um conjunto de dados de notícias bem conhecido para treinar o ChatGPT e avaliar seu desempenho. Selecionamos uma variedade de artigos e pedimos ao ChatGPT para gerar resumos baseados nesses textos. Para isso, usamos uma solicitação específica para guiar o ChatGPT a produzir resumos que fossem o mais similares possível aos resumos escritos por humanos.

Métricas de Avaliação

Para começar a avaliar a habilidade de resumir do ChatGPT, comparamos os resumos que ele criou com os resumos originais. Usamos várias métricas para medir quão bem os resumos se encaixavam, incluindo a sobreposição de palavras e frases. Isso nos ajudou a quantificar a qualidade dos resumos do ChatGPT.

Avaliando Revisores Humanos

Em seguida, queríamos ver se as pessoas conseguiam notar a diferença entre os resumos feitos pelo ChatGPT e aqueles escritos por humanos. Pedimos aos revisores para ler ambos os tipos de resumos e adivinhar quais foram gerados pelo ChatGPT. Os resultados mostraram que os revisores humanos não conseguiram distinguir de forma confiável entre os dois tipos de resumos. Eles expressaram incerteza sobre seus palpites, sugerindo que os resumos eram muito similares.

Detecção Automática de Resumos

Nós também queríamos criar um modelo que pudesse automaticamente diferenciar os resumos feitos pelo ChatGPT dos escritos por humanos. Para isso, ajustamos um modelo de classificação popular no conjunto de dados que criamos. O modelo conseguiu identificar corretamente a origem dos resumos com um alto nível de precisão, demonstrando que métodos automatizados podem distinguir efetivamente entre resumos gerados e reais.

Limitações do Estudo

Tem algumas limitações neste estudo. Primeiro, o número de resumos comparados foi pequeno, o que pode afetar a confiabilidade das descobertas. Segundo, não testamos vários prompts para ver se poderiam gerar resumos melhores. Além disso, não comparamos o desempenho do ChatGPT com outros modelos de resumo. Nossos revisores eram todos falantes nativos de inglês, e seria interessante ver se falantes não nativos têm perspectivas diferentes. Por último, é possível que mais melhorias possam ser feitas nos métodos de detecção automática.

Discussão

Neste estudo, nosso objetivo foi comparar os resumos produzidos pelo ChatGPT com os escritos por pessoas reais. Descobrimos que, enquanto métodos automatizados podem identificar corretamente a origem dos resumos, as pessoas não conseguem. Os revisores estavam inseguros sobre quais resumos eram gerados pelo ChatGPT e quais foram criados por humanos. Isso indica que os resumos do ChatGPT são bem convincentes. A escolha cuidadosa dos prompts teve um papel fundamental em fazer os resumos gerados serem semelhantes aos originais.

Conclusão

Essa pesquisa destaca as crescentes capacidades do ChatGPT em gerar resumos parecidos com os de humanos. Enquanto modelos de classificação de texto podem identificar textos gerados com sucesso, os humanos acham difícil distinguir entre os dois. Isso levanta questões importantes sobre o quanto podemos confiar em informações geradas por IA. Estudos futuros poderiam expandir essas descobertas explorando Conjuntos de dados e métodos de resumo mais diversificados.

Esse trabalho foi realizado com o apoio financeiro de subsídios relevantes focados em avanços em modelos de linguagem e suas aplicações.

Fonte original

Título: Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries Through Blinded Reviewers and Text Classification Algorithms

Resumo: Large Language Models (LLMs) have gathered significant attention due to their impressive performance on a variety of tasks. ChatGPT, developed by OpenAI, is a recent addition to the family of language models and is being called a disruptive technology by a few, owing to its human-like text-generation capabilities. Although, many anecdotal examples across the internet have evaluated ChatGPT's strength and weakness, only a few systematic research studies exist. To contribute to the body of literature of systematic research on ChatGPT, we evaluate the performance of ChatGPT on Abstractive Summarization by the means of automated metrics and blinded human reviewers. We also build automatic text classifiers to detect ChatGPT generated summaries. We found that while text classification algorithms can distinguish between real and generated summaries, humans are unable to distinguish between real summaries and those produced by ChatGPT.

Autores: Mayank Soni, Vincent Wade

Última atualização: 2023-08-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.17650

Fonte PDF: https://arxiv.org/pdf/2303.17650

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes