Cosa significa "WSC+"?
Indice
WSC+ è un nuovo dataset creato per migliorare come le macchine capiscono e generano domande. Si basa su un test esistente chiamato Winograd Schema Challenge, che verifica quanto bene le macchine possono rispondere a domande complicate che richiedono di capire il linguaggio.
Come Funziona WSC+?
Per rendere WSC+ migliore, è stato usato un nuovo metodo chiamato Tree-of-Experts. Questo metodo aiuta a creare un numero maggiore di domande valide. Infatti, WSC+ ha molte più domande valide rispetto ai tentativi precedenti. Include oltre 3.000 frasi generate da una macchina.
Cosa Rende WSC+ Diverso?
WSC+ si distingue perché aggiunge nuovi tipi di domande complicate che le macchine possono affrontare, comprese alcune che sono ambigue o offensive. Questo aiuta i ricercatori a capire quanto siano sicure le macchine nelle loro risposte e dove potrebbero commettere errori o mostrare pregiudizi.
Risultati e Intuizioni
Quando la miglior macchina, GPT-4, è stata testata sul dataset WSC+, ha ottenuto il 68,7% delle domande corrette. Questo è abbastanza inferiore rispetto al benchmark umano del 95,1%, dimostrando che, anche se le macchine stanno migliorando, c'è ancora molta strada da fare.