BERT4CTR: Uma Nova Abordagem para Previsão da Taxa de Clique

Índice

O Desafio das Entradas Multi-Modais
Apresentando o BERT4CTR
Desempenho e Avaliação
Como o BERT4CTR Funciona
Conclusão
Fonte original
Ligações de referência

No mundo da publicidade online, prever se um usuário vai clicar em um anúncio é super importante. Essa previsão é chamada de previsão de Taxa de Clique (CTR). Para fazer essas previsões, os modelos geralmente usam vários tipos de dados-textuais e não textuais. Dados textuais incluem palavras e frases de consultas e anúncios, enquanto dados não textuais consistem em informações numéricas e categóricas, como demografia do usuário ou comportamento passado.

O aprendizado profundo, especialmente o uso de modelos de linguagem pré-treinados, fez uma grande diferença nessa área. Modelos de linguagem como o BERT (Representações de Codificador Bidirecional de Transformadores) mostraram um ótimo potencial em entender o contexto e o significado por trás das palavras no texto. No entanto, integrar esses modelos com características não textuais é um desafio.

Esse artigo discute uma nova estrutura chamada BERT4CTR, que foi projetada para combinar de forma eficaz modelos de linguagem pré-treinados com características não textuais, melhorando a precisão das previsões de CTR enquanto mantém baixo o tempo e os custos computacionais.

O Desafio das Entradas Multi-Modais

Modelos de aprendizado de máquina costumam lidar com diferentes tipos de entradas. Na previsão de CTR, temos características textuais e não textuais. Por exemplo, ao prever se um usuário vai clicar em um anúncio, o modelo precisa avaliar não só o conteúdo da consulta, mas também atributos como a idade do usuário ou cliques anteriores. Essa combinação de características é chamada de entrada multi-modal.

Tradicionalmente, houve duas maneiras principais de combinar esses diferentes tipos de dados:

Interação Superficial: Aqui, o modelo trata os dados textuais e não textuais separadamente e combina os resultados no final. Isso significa que o modelo aprende sobre cada tipo de dado de forma isolada, só unindo eles em uma etapa posterior. Embora esse método funcione, não aproveita totalmente as possíveis percepções de ambos os tipos de dados durante o treinamento.
Integração Profunda: Nesse método, as características não textuais são divididas em pedaços menores e convertidas em tokens que podem ser analisados junto com os dados textuais. No entanto, essa abordagem pode levar a uma alta complexidade devido ao grande número de tokens, tornando o processo de aprendizado mais lento e menos eficiente.

Ambos os métodos têm suas desvantagens. A interação superficial não aproveita as conexões entre texto e dados não textuais durante o processo de aprendizado. Por outro lado, a integração profunda pode complicar o modelo com muitos tokens, levando a ineficiências.

Apresentando o BERT4CTR

Para resolver essas limitações, o BERT4CTR foi desenvolvido. Essa estrutura permite interações entre características textuais e não textuais desde o começo do processo de aprendizado. Ela busca melhorar a forma como essas características trabalham juntas enquanto minimiza o tempo e os recursos computacionais necessários para treinamento e inferência.

As principais ideias por trás do BERT4CTR incluem:

Mecanismo de Uni-Atenção: Em vez de tratar as características textuais e não textuais como completamente separadas, o BERT4CTR apresenta um novo método de atenção onde o foco está nas características não textuais enquanto ainda considera as textuais para contexto. Isso é feito sem a incorporação posicional normalmente usada em modelos de linguagem, o que ajuda a simplificar o processo.
Redução de Dimensionalidade: Considerando que as características não textuais podem ser numerosas, o BERT4CTR aplica redução de dimensionalidade para gerenciar o tamanho da entrada. Isso significa que, em vez de cada característica ser tratada como uma entidade separada, elas são representadas de forma mais compacta. Isso mantém o modelo eficiente e acelera o processo de aprendizado.
Treinamento em Duas Etapas: O BERT4CTR usa uma abordagem de treinamento em duas etapas. A primeira etapa envolve o pré-treinamento do modelo apenas com características textuais. A segunda etapa ajusta o modelo para integrar dados textuais e não textuais. Esse método garante que o modelo aprenda a aproveitar ambos os tipos de dados de forma eficaz.

Desempenho e Avaliação

O BERT4CTR foi avaliado usando dados comerciais do Microsoft Bing Ads e dados públicos do KDD CUP 2012. O objetivo era comparar seu desempenho com outros frameworks que também buscavam combinar características textuais e não textuais para previsão de CTR.

Dados Comerciais: Microsoft Bing Ads

Para a avaliação comercial, o conjunto de dados incluiu um grande número de registros de cliques do Bing Ads, que consistiam em várias características relacionadas a usuários, anúncios e consultas. Os testes mostraram melhorias significativas na precisão das previsões ao usar o BERT4CTR em comparação com métodos anteriores.

Dados Públicos: KDD CUP 2012

O conjunto de dados público, que incluía dados de publicidade de um motor de busca, foi usado para testar ainda mais o BERT4CTR. Os resultados foram comparáveis, se não melhores, do que os obtidos com outros frameworks estabelecidos. Isso mostra que o BERT4CTR é versátil em diferentes tipos de dados.

Principais Descobertas

Precisão Melhorada: O BERT4CTR superou modelos existentes ao alcançar consistentemente um AUC (Área Sob a Curva) mais alto, que é uma métrica chave para avaliar o desempenho de modelos de classificação.
Custos de Tempo Reduzidos: Apesar de sua complexidade, o BERT4CTR manteve tempos de treinamento e inferência baixos, tornando-o prático para aplicações do mundo real que exigem atualizações rápidas.
Uso Eficaz das Características: A estrutura mostrou que aprender com características textuais e não textuais juntas pode melhorar drasticamente as previsões, confirmando o valor de integrar entradas multi-modais.

Como o BERT4CTR Funciona

Os Mecanismos

Uni-Atenção: O mecanismo de atenção do BERT4CTR permite que ele se concentre em características não textuais enquanto ainda considera o contexto fornecido pelos dados textuais. Essa abordagem dupla permite uma compreensão mais profunda de como esses dois tipos de dados se inter-relacionam.
Redução de Dimensionalidade: Ao reduzir o número de dimensões que as características não textuais ocupam, o BERT4CTR otimiza os dados de entrada, permitindo um processamento mais rápido sem sacrificar a qualidade. Isso é crucial em cenários onde o tempo é essencial.
Fases de Treinamento: O processo de treinamento em duas etapas permite um aprendizado fundamental com dados textuais antes de adicionar complexidade com as características não textuais. Isso leva a uma experiência de treinamento mais suave e melhores resultados gerais.

Ganhos de Implementação

O BERT4CTR é implementado de uma forma que permite fácil adaptação a vários conjuntos de dados e cenários além da previsão de CTR. As técnicas e métodos estabelecidos nessa estrutura podem ser aplicados a outras áreas onde dados textuais e não textuais precisam ser integrados.

Conclusão

O BERT4CTR apresenta um avanço significativo na área de previsão de CTR ao combinar modelos de linguagem pré-treinados com características não textuais de forma eficiente. Seu uso inovador de uni-atenção, redução de dimensionalidade e uma abordagem de treinamento em duas etapas mostra seu potencial para melhorar a precisão enquanto mantém baixos os custos computacionais. Essa estrutura não só aprimora as capacidades de previsão para a publicidade online, mas também abre portas para aplicações mais amplas onde a integração de dados multi-modais é crucial.

Conforme as demandas por previsões precisas e rápidas em ambientes digitais continuam a crescer, estruturas como o BERT4CTR desempenharão um papel essencial em moldar como decisões baseadas em dados são tomadas no futuro. Esse modelo estabelece um novo padrão para o uso eficaz de modelos de linguagem em conjunto com diversos tipos de dados, garantindo que os usuários recebam anúncios relevantes que se alinhem aos seus interesses e comportamentos.

BERT4CTR: Uma Nova Abordagem para Previsão da Taxa de Clique

BERT4CTR junta características textuais e não textuais pra prever cliques em anúncios de uma maneira melhor.

O Desafio das Entradas Multi-Modais

Apresentando o BERT4CTR

Desempenho e Avaliação

Dados Comerciais: Microsoft Bing Ads

Dados Públicos: KDD CUP 2012

Principais Descobertas

Como o BERT4CTR Funciona

Os Mecanismos

Ganhos de Implementação

Conclusão

Ligações de referência

Tópicos referenciados

BERT4CTR: Uma Nova Abordagem para Previsão da Taxa de Clique

BERT4CTR junta características textuais e não textuais pra prever cliques em anúncios de uma maneira melhor.

#O Desafio das Entradas Multi-Modais

#Apresentando o BERT4CTR

#Desempenho e Avaliação

#Dados Comerciais: Microsoft Bing Ads

#Dados Públicos: KDD CUP 2012

#Principais Descobertas

#Como o BERT4CTR Funciona

#Os Mecanismos

#Ganhos de Implementação

#Conclusão

Ligações de referência

Tópicos referenciados

O Desafio das Entradas Multi-Modais

Apresentando o BERT4CTR

Desempenho e Avaliação

Dados Comerciais: Microsoft Bing Ads

Dados Públicos: KDD CUP 2012

Principais Descobertas

Como o BERT4CTR Funciona

Os Mecanismos

Ganhos de Implementação

Conclusão