Melhorando a Detecção de Conteúdo Patrocinado com Ajuda da IA
Explicações geradas por IA melhoram a precisão das etiquetas para posts patrocinados nas redes sociais.
― 13 min ler
Índice
- O Problema do Conteúdo Patrocinado
- Uma Nova Estrutura para Anotação
- Pesquisa Relacionada
- Coleta de Dados e Configuração Experimental
- Usando GPT para Explicações
- O Estudo do Usuário
- Medição de Concordância
- Pesquisa sobre Experiência do Usuário
- Resultados Experimentais
- Conclusão
- Fonte original
- Ligações de referência
Nos últimos anos, as redes sociais mudaram a forma como a publicidade funciona, especialmente com a ascensão dos influenciadores. Esses são os caras que ganham grana promovendo produtos em suas postagens sem sempre deixar claro que são anúncios. Isso levantou preocupações sobre se os usuários sabem quando estão sendo alvos de marketing. Para resolver isso, foram criadas regras para garantir que os anúncios sejam claramente identificados. No entanto, fazer cumprir essas regras é complicado porque tem muitos influenciadores e postagens para monitorar.
Uma solução possível é identificar automaticamente conteúdos patrocinados. Isso poderia ajudar as agências a acompanhar se as empresas estão divulgando corretamente seus anúncios. Os métodos atuais usam principalmente aprendizado de máquina para classificar se uma postagem é um anúncio. No entanto, a precisão desses modelos depende fortemente de Rótulos Humanos, que muitas vezes não concordam entre si. Essa inconsistência pode levar a modelos pouco confiáveis.
Para melhorar a rotulagem, sugerimos usar IA, especificamente o ChatGPT, para ajudar no processo de rotulação. A ideia é que, ao fornecer explicações curtas e identificar características importantes, podemos ajudar os Anotadores humanos a tomar decisões melhores. Nossos testes mostram que usar essa abordagem aumenta a concordância entre os anotadores e melhora a precisão de seus rótulos. Isso poderia, em última análise, ajudar a garantir que as regras de publicidade sejam seguidas mais de perto.
O Problema do Conteúdo Patrocinado
A ascensão dos influenciadores mudou não só a publicidade, mas também como os usuários interagem com o marketing. Os influenciadores costumam misturar promoção com seu conteúdo normal, dificultando para os usuários saberem o que é anúncio. Isso é um problema porque existem regras para proteger os consumidores de serem enganados. Historicamente, as regras de publicidade se aplicavam à mídia tradicional, que separava claramente os anúncios de outros conteúdos.
A principal razão por trás da exigência de rótulos para anúncios é evitar enganos. Mesmo que existam leis que exigem que postagens patrocinadas sejam marcadas, verificar se os influenciadores seguem essas regras é difícil. Por exemplo, no Reino Unido, há uma autoridade de concorrência que garante que os influenciadores cumpram essas regras. Eles usam alguns métodos automatizados, mas ainda há uma grande lacuna a ser preenchida.
O objetivo de detectar conteúdo patrocinado automaticamente simplificaria a supervisão da conformidade. No entanto, a maioria dos métodos hoje se concentra em criar modelos que possam classificar corretamente os anúncios com base em dados passados. Um grande problema com esses modelos é que eles dependem de anotações humanas para treiná-los. Infelizmente, essas anotações frequentemente não se encaixam, tornando difícil criar sistemas de detecção confiáveis.
Além disso, sistemas totalmente automatizados sozinhos não vão funcionar para conformidade legal. Humanos ainda precisam tomar decisões sobre como aplicar as regras e potencialmente penalizar empresas. Isso pede uma nova abordagem que combine inteligência humana com suporte de IA.
Uma Nova Estrutura para Anotação
Para melhorar a precisão da rotulagem de conteúdo patrocinado, propomos um novo jeito de anotar postagens. Esse método envolve usar explicações geradas por IA que destacam características-chave das postagens. Essas explicações visam ajudar os anotadores a tomarem decisões melhores. Nossa pesquisa mostra que essa nova abordagem leva a melhores pontuações de concordância entre os anotadores, o que significa que eles estão mais propensos a rotular postagens de forma consistente.
Usando explicações, podemos também melhorar a qualidade dos dados usados para treinar modelos. Dados de alta qualidade são essenciais porque melhoram a confiabilidade e precisão dos modelos usados para detectar conteúdo patrocinado. A capacidade de explicar as saídas da IA é especialmente importante para situações regulatórias. Os líderes na área jurídica precisam entender e confiar nos resultados produzidos por esses modelos, já que são responsáveis pela aplicação da conformidade.
Pesquisa Relacionada
A maioria das pesquisas sobre a detecção de conteúdo patrocinado trata isso como um problema de classificação de texto. Nesses estudos, os modelos são geralmente treinados usando postagens claramente marcadas como anúncios, muitas vezes usando hashtags para rotulagem. Infelizmente, não há muito foco em quão bem esses modelos se saem quando testados com dados rotulados. Muitos estudos criam seus conjuntos de dados sem diretrizes claras sobre como exatamente os dados foram anotados. Isso é um problema porque as plataformas de redes sociais não costumam permitir o compartilhamento de dados, dificultando a comparação de resultados.
Além disso, a ausência de dados rotulados afeta quão confiáveis são os resultados. Muitos modelos não são testados minuciosamente em anúncios não divulgados, o que é crucial para avaliar sua eficácia. No lado técnico, estudos anteriores usaram vários métodos, incluindo técnicas tradicionais de aprendizado de máquina, redes neurais e até arquiteturas de aprendizado profundo que combinam texto com imagens e outros tipos de dados.
No nosso estudo, usamos alguns desses modelos existentes, junto com o ChatGPT, para classificar postagens. Embora não haja muita pesquisa revisada por pares sobre o ChatGPT devido ao seu surgimento recente, relatórios iniciais sugerem que ele se sai bem em tarefas de classificação de texto.
Pesquisas combinando ciência da computação com campos como comunicação e direito analisaram as características dos influenciadores e a frequência de seus anúncios. No entanto, poucos estudos examinaram como explicações geradas por IA podem aprimorar processos de rotulagem. Nosso artigo tem como objetivo preencher essa lacuna, focando em como a IA pode apoiar melhor a detecção de conteúdo patrocinado.
Coleta de Dados e Configuração Experimental
Para nossa pesquisa, coletamos nosso próprio conjunto de dados de postagens do Instagram. Escolhemos 100 influenciadores baseados nos EUA, dividindo-os em dois grupos: micro-influenciadores (aqueles com menos seguidores) e mega-influenciadores (aqueles com muitos seguidores). Coletamos dados de suas postagens usando uma ferramenta de dados de redes sociais. Nosso conjunto de dados incluiu várias postagens, com grande parte vindo de mega-influenciadores.
O primeiro passo em nosso experimento foi escolher o melhor tipo de classificador para gerar explicações. Analisamos três modelos: um usando regressão logística tradicional, outro baseado em uma versão ajustada do BERT (um modelo de linguagem popular), e o terceiro usando o ChatGPT. Geramos previsões usando a API da OpenAI.
Para medir o quão bem esses modelos se saíram, dividimos nossos dados por ano, designando um ano para teste e os outros para treino. Esse método simula o uso do mundo real, onde um modelo classificaria novos dados. Dado que a maioria das postagens não é marcada como patrocinada, equilibramos o conjunto de dados para garantir que o modelo tivesse exemplos positivos e negativos suficientes.
Rotulamos uma pequena amostra dos dados de teste para avaliar quão bem os modelos identificaram anúncios não divulgados. Vários anotadores olharam para as postagens para determinar se eram patrocinadas ou não. Calculamos as pontuações de concordância com base na frequência com que os anotadores concordavam ao rotular as mesmas postagens.
Usando GPT para Explicações
Em nossos experimentos, testamos vários prompts com diferentes modelos da série GPT-3 e GPT-4. Descobrimos que até o menor modelo se saiu bem na detecção de conteúdo patrocinado, mas que modelos maiores mostraram resultados melhores, especialmente ao explicar seu raciocínio por trás das classificações.
Identificamos uma tendência de ambos os modelos maiores preverem rótulos não patrocinados com mais frequência do que os patrocinados. Para resolver isso, empregamos várias estratégias para obter melhores previsões e explicações. Ao guiar o modelo para destacar palavras-chave e gerar raciocínios antes de classificar as postagens, reduzimos o viés e melhoramos a compreensibilidade das previsões.
Além disso, usamos técnicas de aprendizado com poucos exemplos para aprimorar como o modelo produzia explicações e tentamos várias formas de expressar rótulos para melhorar as previsões do modelo. Desenvolvemos nossos prompts finais com base nessas práticas, mantendo os benefícios de rapidez e custo-efetivo de usar o GPT-3.5-turbo.
Uma vez que otimizamos o modelo, geramos explicações que detalhavam por que uma postagem poderia ser considerada patrocinada. Isso incluía especificar palavras importantes dentro da postagem para ajudar os anotadores em suas avaliações.
O Estudo do Usuário
Conduzimos um estudo com usuários para entender como explicações poderiam ajudar a identificar conteúdo patrocinado melhor. Os participantes passaram por uma tarefa de anotação, rotulando um conjunto de postagens do Instagram como Patrocinadas ou Não Patrocinadas. O objetivo era duplo: ver como as explicações poderiam melhorar a qualidade da rotulagem e simular o processo de regular conteúdo patrocinado.
A tarefa de rotulagem envolveu examinar as legendas das postagens para decidir se eram anúncios. Treinamos os anotadores sobre o que constituía conteúdo patrocinado, fornecendo exemplos de postagens patrocinadas e não patrocinadas. Onze voluntários participaram do nosso estudo; eles variavam de novatos sem experiência em anotação a especialistas legais, conhecedores das regras de publicidade, que já haviam trabalhado em tarefas similares.
Para criar nossos grupos de participantes, consideramos os níveis de especialização deles. Alguns não tinham experiência anterior com tarefas de anotação, enquanto outros tinham diferentes graus de familiaridade com o processo. Tivemos alguns participantes rotulando postagens tanto com quanto sem as explicações fornecidas pela IA.
Selecionamos cuidadosamente uma amostra de 200 postagens a partir de nossos rótulos anteriores. Isso incluiu trabalhos de vários influenciadores e garantiu que incorporássemos algumas postagens que divulgassem claramente patrocínios, para garantir que os anotadores notassem as divulgações.
Medição de Concordância
É fundamental medir o nível de concordância entre os anotadores em qualquer tarefa de anotação. Isso indica a qualidade dos dados criados e reflete quão confiável é o processo de tomada de decisão. Usamos várias métricas para avaliar o quão bem os anotadores concordavam entre si. Uma delas é chamada de Alpha de Krippendorff, que mede a concordância levando em conta o acaso.
A concordância absoluta é outra métrica que rastreia com que frequência todos os anotadores forneceram o mesmo rótulo. Também analisamos quão precisamente os anotadores identificaram postagens divulgadas. Isso foi essencial, pois verificou se os anotadores podiam rotular corretamente postagens que afirmassem claramente que eram anúncios.
Pesquisa sobre Experiência do Usuário
Após a tarefa de rotulagem, realizamos uma pesquisa para coletar feedback dos anotadores sobre sua experiência usando as explicações fornecidas pela IA. A pesquisa consistiu em várias perguntas visando entender quão úteis os participantes acharam as explicações, quão precisas consideraram e se se sentiram mais confiantes em suas decisões.
A maioria dos anotadores relatou que as explicações foram benéficas e precisas. Eles destacaram as palavras e frases específicas identificadas pela IA como particularmente úteis, enquanto poucos participantes focaram no raciocínio por trás das previsões. Isso indicou uma preferência por informações precisas e acionáveis ao invés de longas explicações.
O feedback também revelou que muitos anotadores achariam útil se a IA pudesse indicar a probabilidade de uma postagem ser patrocinada como parte das explicações.
Resultados Experimentais
Avalíamos os resultados tanto da tarefa de rotulagem quanto da pesquisa de experiência do usuário. Nossas descobertas mostraram que fornecer explicações levou a uma melhoria notável nas métricas de concordância entre os anotadores. Especificamente, a concordância entre anotadores aumentou, juntamente com a precisão na detecção de postagens divulgadas.
Além disso, o número de postagens rotuladas como patrocinadas aumentou quando as explicações foram usadas, indicando que os anotadores estavam mais inclinados a categorizar postagens como anúncios com o contexto adicional. Isso sugere que as explicações não apenas ajudam os anotadores a fazer escolhas mais informadas, mas também aumentam a confiabilidade geral dos dados gerados.
Impacto em Diferentes Níveis de Especialização
Analisamos como as anotações ampliadas afetaram grupos de acordo com sua especialização. Cada subgrupo mostrou melhorias na concordância e na qualidade da rotulagem. Especialistas legais se beneficiaram mais das explicações, indicando que puderam identificar postagens patrocinadas com mais precisão do que não especialistas.
No entanto, é importante notar que, embora uma alta concordância seja valiosa, isso não significa necessariamente que a identificação geral dos patrocínios esteja correta. As métricas de concordância medem quão consistentemente os anotadores aplicam definições, o que não garante que seus julgamentos estejam corretos.
Também verificamos se as explicações introduziram algum viés. A preocupação é que os anotadores possam confiar demais em pistas sugeridas pela IA, o que poderia distorcer a qualidade dos dados. Para investigar isso, analisamos se os anotadores mudaram suas decisões com base nas previsões da IA.
Conclusão
Nossa pesquisa demonstra que adicionar explicações geradas por IA ao processo de anotação melhora significativamente a concordância entre anotadores e a qualidade geral dos dados rotulados. Os anotadores foram mais capazes de identificar postagens patrocinadas, levando a modelos aprimorados para detectar esse tipo de conteúdo. Além disso, o feedback da pesquisa de experiência do usuário indica que a maioria dos participantes achou as explicações da IA valiosas e que essas explicações aumentaram sua confiança em tomar decisões.
Essa nova abordagem para anotação tem o potencial de melhorar a transparência e confiabilidade das práticas de marketing nas redes sociais. À medida que a supervisão regulatória aumenta, ter uma rotulagem clara e consistente se tornará ainda mais crítico.
Embora nosso estudo tenha limitações, incluindo potenciais viéses introduzidos pela IA e variação no tamanho da amostra, oferece insights valiosos sobre os quais futuras pesquisas podem se basear. Recomendamos mais exploração sobre o impacto de explicações assistidas por IA na qualidade da anotação e viés.
Em um mundo onde a fiscalização digital e o monitoramento do mercado continuarão a crescer, implementar técnicas transparentes e explicáveis é essencial. Nossas descobertas contribuem para os esforços em andamento para tornar o marketing de influenciadores mais responsável e confiável para os usuários, garantindo que eles saibam o que constitui um anúncio.
Título: Closing the Loop: Testing ChatGPT to Generate Model Explanations to Improve Human Labelling of Sponsored Content on Social Media
Resumo: Regulatory bodies worldwide are intensifying their efforts to ensure transparency in influencer marketing on social media through instruments like the Unfair Commercial Practices Directive (UCPD) in the European Union, or Section 5 of the Federal Trade Commission Act. Yet enforcing these obligations has proven to be highly problematic due to the sheer scale of the influencer market. The task of automatically detecting sponsored content aims to enable the monitoring and enforcement of such regulations at scale. Current research in this field primarily frames this problem as a machine learning task, focusing on developing models that achieve high classification performance in detecting ads. These machine learning tasks rely on human data annotation to provide ground truth information. However, agreement between annotators is often low, leading to inconsistent labels that hinder the reliability of models. To improve annotation accuracy and, thus, the detection of sponsored content, we propose using chatGPT to augment the annotation process with phrases identified as relevant features and brief explanations. Our experiments show that this approach consistently improves inter-annotator agreement and annotation accuracy. Additionally, our survey of user experience in the annotation task indicates that the explanations improve the annotators' confidence and streamline the process. Our proposed methods can ultimately lead to more transparency and alignment with regulatory requirements in sponsored content detection.
Autores: Thales Bertaglia, Stefan Huber, Catalina Goanta, Gerasimos Spanakis, Adriana Iamnitchi
Última atualização: 2023-06-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.05115
Fonte PDF: https://arxiv.org/pdf/2306.05115
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.springer.com/gp/computer-science/lncs
- https://www.federalreserve.gov/boarddocs/supmanual/cch/200806/ftca.pdf
- https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=celex%3A32005L0029
- https://influencermarketinghub.com/influencer-marketing-benchmark-report/
- https://www.gov.uk/cma-cases/social-media-endorsements
- https://heepsy.com
- https://www.crowdtangle.com/
- https://github.com/thalesbertaglia/chatgpt-explanations-sponsored-content/
- https://github.com/doccano/doccano
- https://tinyurl.com/sponsored-annotation-survey
- https://www.springer.com/lncs