Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Recuperação de informação

BERT4CTR: Uma Nova Abordagem para Previsão da Taxa de Clique

BERT4CTR junta características textuais e não textuais pra prever cliques em anúncios de uma maneira melhor.

― 7 min ler


BERT4CTR: Previsões deBERT4CTR: Previsões deCliques em Anúncios maisInteligentesinovador do BERT4CTR.Revolucione o CTR com o framework
Índice

No mundo da publicidade online, prever se um usuário vai clicar em um anúncio é super importante. Essa previsão é chamada de previsão de Taxa de Clique (CTR). Para fazer essas previsões, os modelos geralmente usam vários tipos de dados-textuais e não textuais. Dados textuais incluem palavras e frases de consultas e anúncios, enquanto dados não textuais consistem em informações numéricas e categóricas, como demografia do usuário ou comportamento passado.

O aprendizado profundo, especialmente o uso de modelos de linguagem pré-treinados, fez uma grande diferença nessa área. Modelos de linguagem como o BERT (Representações de Codificador Bidirecional de Transformadores) mostraram um ótimo potencial em entender o contexto e o significado por trás das palavras no texto. No entanto, integrar esses modelos com características não textuais é um desafio.

Esse artigo discute uma nova estrutura chamada BERT4CTR, que foi projetada para combinar de forma eficaz modelos de linguagem pré-treinados com características não textuais, melhorando a precisão das previsões de CTR enquanto mantém baixo o tempo e os custos computacionais.

O Desafio das Entradas Multi-Modais

Modelos de aprendizado de máquina costumam lidar com diferentes tipos de entradas. Na previsão de CTR, temos características textuais e não textuais. Por exemplo, ao prever se um usuário vai clicar em um anúncio, o modelo precisa avaliar não só o conteúdo da consulta, mas também atributos como a idade do usuário ou cliques anteriores. Essa combinação de características é chamada de entrada multi-modal.

Tradicionalmente, houve duas maneiras principais de combinar esses diferentes tipos de dados:

  1. Interação Superficial: Aqui, o modelo trata os dados textuais e não textuais separadamente e combina os resultados no final. Isso significa que o modelo aprende sobre cada tipo de dado de forma isolada, só unindo eles em uma etapa posterior. Embora esse método funcione, não aproveita totalmente as possíveis percepções de ambos os tipos de dados durante o treinamento.

  2. Integração Profunda: Nesse método, as características não textuais são divididas em pedaços menores e convertidas em tokens que podem ser analisados junto com os dados textuais. No entanto, essa abordagem pode levar a uma alta complexidade devido ao grande número de tokens, tornando o processo de aprendizado mais lento e menos eficiente.

Ambos os métodos têm suas desvantagens. A interação superficial não aproveita as conexões entre texto e dados não textuais durante o processo de aprendizado. Por outro lado, a integração profunda pode complicar o modelo com muitos tokens, levando a ineficiências.

Apresentando o BERT4CTR

Para resolver essas limitações, o BERT4CTR foi desenvolvido. Essa estrutura permite interações entre características textuais e não textuais desde o começo do processo de aprendizado. Ela busca melhorar a forma como essas características trabalham juntas enquanto minimiza o tempo e os recursos computacionais necessários para treinamento e inferência.

As principais ideias por trás do BERT4CTR incluem:

  1. Mecanismo de Uni-Atenção: Em vez de tratar as características textuais e não textuais como completamente separadas, o BERT4CTR apresenta um novo método de atenção onde o foco está nas características não textuais enquanto ainda considera as textuais para contexto. Isso é feito sem a incorporação posicional normalmente usada em modelos de linguagem, o que ajuda a simplificar o processo.

  2. Redução de Dimensionalidade: Considerando que as características não textuais podem ser numerosas, o BERT4CTR aplica redução de dimensionalidade para gerenciar o tamanho da entrada. Isso significa que, em vez de cada característica ser tratada como uma entidade separada, elas são representadas de forma mais compacta. Isso mantém o modelo eficiente e acelera o processo de aprendizado.

  3. Treinamento em Duas Etapas: O BERT4CTR usa uma abordagem de treinamento em duas etapas. A primeira etapa envolve o pré-treinamento do modelo apenas com características textuais. A segunda etapa ajusta o modelo para integrar dados textuais e não textuais. Esse método garante que o modelo aprenda a aproveitar ambos os tipos de dados de forma eficaz.

Desempenho e Avaliação

O BERT4CTR foi avaliado usando dados comerciais do Microsoft Bing Ads e dados públicos do KDD CUP 2012. O objetivo era comparar seu desempenho com outros frameworks que também buscavam combinar características textuais e não textuais para previsão de CTR.

Dados Comerciais: Microsoft Bing Ads

Para a avaliação comercial, o conjunto de dados incluiu um grande número de registros de cliques do Bing Ads, que consistiam em várias características relacionadas a usuários, anúncios e consultas. Os testes mostraram melhorias significativas na precisão das previsões ao usar o BERT4CTR em comparação com métodos anteriores.

Dados Públicos: KDD CUP 2012

O conjunto de dados público, que incluía dados de publicidade de um motor de busca, foi usado para testar ainda mais o BERT4CTR. Os resultados foram comparáveis, se não melhores, do que os obtidos com outros frameworks estabelecidos. Isso mostra que o BERT4CTR é versátil em diferentes tipos de dados.

Principais Descobertas

  1. Precisão Melhorada: O BERT4CTR superou modelos existentes ao alcançar consistentemente um AUC (Área Sob a Curva) mais alto, que é uma métrica chave para avaliar o desempenho de modelos de classificação.

  2. Custos de Tempo Reduzidos: Apesar de sua complexidade, o BERT4CTR manteve tempos de treinamento e inferência baixos, tornando-o prático para aplicações do mundo real que exigem atualizações rápidas.

  3. Uso Eficaz das Características: A estrutura mostrou que aprender com características textuais e não textuais juntas pode melhorar drasticamente as previsões, confirmando o valor de integrar entradas multi-modais.

Como o BERT4CTR Funciona

Os Mecanismos

  1. Uni-Atenção: O mecanismo de atenção do BERT4CTR permite que ele se concentre em características não textuais enquanto ainda considera o contexto fornecido pelos dados textuais. Essa abordagem dupla permite uma compreensão mais profunda de como esses dois tipos de dados se inter-relacionam.

  2. Redução de Dimensionalidade: Ao reduzir o número de dimensões que as características não textuais ocupam, o BERT4CTR otimiza os dados de entrada, permitindo um processamento mais rápido sem sacrificar a qualidade. Isso é crucial em cenários onde o tempo é essencial.

  3. Fases de Treinamento: O processo de treinamento em duas etapas permite um aprendizado fundamental com dados textuais antes de adicionar complexidade com as características não textuais. Isso leva a uma experiência de treinamento mais suave e melhores resultados gerais.

Ganhos de Implementação

O BERT4CTR é implementado de uma forma que permite fácil adaptação a vários conjuntos de dados e cenários além da previsão de CTR. As técnicas e métodos estabelecidos nessa estrutura podem ser aplicados a outras áreas onde dados textuais e não textuais precisam ser integrados.

Conclusão

O BERT4CTR apresenta um avanço significativo na área de previsão de CTR ao combinar modelos de linguagem pré-treinados com características não textuais de forma eficiente. Seu uso inovador de uni-atenção, redução de dimensionalidade e uma abordagem de treinamento em duas etapas mostra seu potencial para melhorar a precisão enquanto mantém baixos os custos computacionais. Essa estrutura não só aprimora as capacidades de previsão para a publicidade online, mas também abre portas para aplicações mais amplas onde a integração de dados multi-modais é crucial.

Conforme as demandas por previsões precisas e rápidas em ambientes digitais continuam a crescer, estruturas como o BERT4CTR desempenharão um papel essencial em moldar como decisões baseadas em dados são tomadas no futuro. Esse modelo estabelece um novo padrão para o uso eficaz de modelos de linguagem em conjunto com diversos tipos de dados, garantindo que os usuários recebam anúncios relevantes que se alinhem aos seus interesses e comportamentos.

Fonte original

Título: BERT4CTR: An Efficient Framework to Combine Pre-trained Language Model with Non-textual Features for CTR Prediction

Resumo: Although deep pre-trained language models have shown promising benefit in a large set of industrial scenarios, including Click-Through-Rate (CTR) prediction, how to integrate pre-trained language models that handle only textual signals into a prediction pipeline with non-textual features is challenging. Up to now two directions have been explored to integrate multi-modal inputs in fine-tuning of pre-trained language models. One consists of fusing the outcome of language models and non-textual features through an aggregation layer, resulting into ensemble framework, where the cross-information between textual and non-textual inputs are only learned in the aggregation layer. The second one consists of splitting non-textual features into fine-grained fragments and transforming the fragments to new tokens combined with textual ones, so that they can be fed directly to transformer layers in language models. However, this approach increases the complexity of the learning and inference because of the numerous additional tokens. To address these limitations, we propose in this work a novel framework BERT4CTR, with the Uni-Attention mechanism that can benefit from the interactions between non-textual and textual features while maintaining low time-costs in training and inference through a dimensionality reduction. Comprehensive experiments on both public and commercial data demonstrate that BERT4CTR can outperform significantly the state-of-the-art frameworks to handle multi-modal inputs and be applicable to CTR prediction.

Autores: Dong Wang, Kavé Salamatian, Yunqing Xia, Weiwei Deng, Qi Zhiang

Última atualização: 2023-08-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.11527

Fonte PDF: https://arxiv.org/pdf/2308.11527

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes