Shanghaoran Quan

Un método para generar datos de entrenamiento de calidad para el ajuste fino de modelos de lenguaje.

2025-08-06T19:33:00+00:00 ― 8 minilectura

Explorando cómo el aprendizaje de preferencias mejora la alineación de los modelos de lenguaje con las expectativas humanas.

2025-06-17T05:58:42+00:00 ― 9 minilectura