Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial# Aprendizaje automático

API Pack: Un Nuevo Conjunto de Datos para Desarrolladores

API Pack simplifica la generación de llamadas API para modelos de lenguaje, ayudando mucho a los desarrolladores.

― 4 minilectura


El paquete de API mejoraEl paquete de API mejoralos esfuerzos decodificación.desarrolladores.generación de llamadas API paraNuevo conjunto de datos mejora la
Tabla de contenidos

API Pack es un conjunto de datos diseñado para ayudar a los grandes modelos de lenguaje (LLMs) a generar llamadas API en varios Lenguajes de programación. Contiene más de un millón de pares de Instrucciones y llamadas API. Nuestro objetivo es mejorar la forma en que estos modelos pueden generar código que interactúe con APIs, facilitando a los desarrolladores conseguir el código correcto que necesitan.

¿Por qué API Pack?

Los desarrolladores pasan mucho tiempo buscando ejemplos de API en la documentación o en varios sitios web. Encontrar información relevante puede ser lento y frustrante. API Pack busca simplificar esto permitiendo que los modelos generen rápidamente llamadas API basadas en indicaciones en lenguaje natural.

Características Clave de API Pack

  1. Gran Conjunto de Datos: Con más de un millón de instancias, API Pack es el conjunto de datos de código abierto más grande para este propósito.
  2. Multilingüe: Incluye ejemplos en diez lenguajes de programación, permitiendo a los desarrolladores trabajar con APIs en diferentes entornos.
  3. Enfoque en Llamadas API: El conjunto de datos está diseñado específicamente para enseñar a los modelos cómo identificar y generar las llamadas API correctas según las instrucciones del usuario.

Cómo Funciona API Pack

El conjunto de datos consiste en pares de instrucciones de usuario y llamadas API correspondientes. Las instrucciones están escritas en un formato de lenguaje natural, mientras que las llamadas API son fragmentos de código en varios lenguajes de programación. Por ejemplo, un usuario podría preguntar cómo usar una API específica, y el modelo respondería con el código apropiado.

Etapas de Creación

  1. Recolección de datos: Recolectamos información de API de múltiples fuentes que proporcionan archivos de especificación OpenAPI.
  2. Filtrado: Filtramos datos de baja calidad para asegurar que el conjunto de datos esté compuesto solo por llamadas API válidas.
  3. Generación de Instrucciones: Usando varias plantillas, creamos instrucciones que explican cómo usar cada llamada API.
  4. Validación: Cada par de instrucciones y llamadas API fue revisado por calidad para asegurarnos de que fueran precisos y útiles.

Experimentación y Resultados

Realizamos varios experimentos para probar la efectividad de API Pack. Aquí van algunos hallazgos clave:

  1. Ajuste Fino con Datos Limitados: Ajustamos un modelo llamado CodeLlama-13B usando solo 20,000 ejemplos y descubrimos que superó a otros modelos como GPT-3.5 y GPT-4 en la generación de llamadas API para nuevas APIs.
  2. Efecto del Tamaño del Conjunto de Datos: Aumentar el tamaño del conjunto de datos a 100,000 instancias mejoró la capacidad del modelo para manejar nuevas APIs que no había visto durante el entrenamiento.
  3. Rendimiento Multilingüe: El modelo pudo generar llamadas API en múltiples lenguajes sin necesitar grandes cantidades de datos de cada uno. Una menor cantidad de datos de varios idiomas funcionó bien.

Aspectos Destacados de los Experimentos

  • CodeLlama-13B mostró más del 10% de precisión mejor que GPT-3.5 y más del 5% mejor que GPT-4 al generar llamadas API no vistas.
  • Usar 100,000 ejemplos mejoró significativamente el rendimiento del modelo en nuevas APIs.
  • La generación cruzada de idiomas fue exitosa, requiriendo principalmente un idioma principal y un poco de datos de otros.

Trabajando con Conjuntos de datos Existentes

También probamos qué tan bien funciona API Pack cuando se combina con otros conjuntos de datos de instrucciones. Los resultados mostraron que integrar API Pack mejoró la generación de llamadas API sin afectar negativamente las tareas de codificación generales.

Conclusión

API Pack es un recurso valioso para aumentar la capacidad de los modelos de lenguaje en la generación de llamadas API. Al usar este conjunto de datos, los modelos pueden responder mejor a las necesidades de los desarrolladores, acelerando el proceso de recuperación y uso de APIs.

Trabajo Futuro

Planeamos explorar más mejoras, como:

  1. Clasificación de API Más Amplia: Hacer más fácil para los modelos interpretar consultas incompletas sin necesidad del nombre exacto de la API.
  2. Inclusión de Argumentos: Añadir APIs que incluyan argumentos para ejemplos de código más realistas.
  3. Escenarios de Múltiples Pasos: Incluir secuencias complejas de múltiples llamadas API para mejorar la comprensión del modelo sobre aplicaciones del mundo real.

API Pack tiene potencial para mejorar la productividad en el desarrollo de software, pero necesitamos abordar los desafíos que enfrenta para maximizar su potencial.

Más de autores

Artículos similares