Hwaran Lee

APRICOT aumenta a confiança em modelos de linguagem medindo a certeza das respostas de forma precisa.

2025-08-31T00:04:06+00:00 ― 8 min ler

O AdvisorQA avalia a capacidade dos modelos de linguagem de dar conselhos pessoais de forma eficaz.

2025-08-18T23:27:18+00:00 ― 7 min ler

Um novo benchmark pra avaliar o conhecimento cultural em modelos de linguagem de diferentes culturas.

2025-07-28T18:25:54+00:00 ― 7 min ler

Um jeito novo de testar a segurança de modelos de linguagem e as habilidades multilíngues.

2025-07-28T02:37:54+00:00 ― 9 min ler

A pesquisa foca em melhorar a confiabilidade em modelos de linguagem grandes usando quantificação de incerteza.

2025-06-28T11:22:06+00:00 ― 8 min ler