O que significa "WSC+"?
Índice
WSC+ é um novo conjunto de dados criado pra melhorar a forma como as máquinas entendem e geram perguntas. Ele se baseia em um teste existente chamado Winograd Schema Challenge, que checa o quão bem as máquinas conseguem responder perguntas complicadas que envolvem entender a linguagem.
Como Funciona o WSC+?
Pra deixar o WSC+ melhor, foi usada uma nova técnica chamada Tree-of-Experts. Essa técnica ajuda a criar um número maior de perguntas válidas. Na verdade, o WSC+ tem muitas mais perguntas válidas do que tentativas anteriores. Ele inclui mais de 3.000 sentenças feitas por uma máquina.
O Que Faz o WSC+ Diferente?
O WSC+ se destaca porque acrescenta novos tipos de perguntas complicadas que as máquinas podem enfrentar, incluindo algumas que são ambíguas ou ofensivas. Isso ajuda os pesquisadores a verem quão confiantes as máquinas estão em suas respostas e onde elas podem errar ou mostrar preconceitos.
Resultados e Insights
Quando a máquina mais top, o GPT-4, foi testada no conjunto de dados do WSC+, ela acertou 68,7% das perguntas. Isso é bem mais baixo que a referência humana de 95,1%, mostrando que, embora as máquinas estejam melhorando, ainda têm um longo caminho pela frente.