Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Aprendizaje automático# Computación y lenguaje

Mejorando la Clasificación de Licitaciones Públicas con un Nuevo Método

Un nuevo enfoque mejora la clasificación de las licitaciones públicas para un mejor acceso y eficiencia.

― 7 minilectura


Reformando laReformando laClasificación deLicitacionespúblicas.clasificación para las licitacionesUn nuevo método mejora la precisión de
Tabla de contenidos

Clasificar las licitaciones públicas es importante para las empresas y las autoridades. Ayuda a las empresas a decidir qué contratos perseguir y permite que las agencias monitoreen el fraude. En la Unión Europea, hay un sistema de Clasificación estándar llamado Vocabulario Común de Compras (CPV). Sin embargo, este sistema solo se usa para algunos contratos, y muchas licitaciones públicas no tienen etiquetas CPV precisas o claras.

El proceso de clasificación puede ser complicado porque algunas Categorías se ven raramente, mientras que otras son muy comunes. Para enfrentar este problema, proponemos un nuevo método que usa un modelo de lenguaje para clasificar estas licitaciones basándose solo en sus descripciones y etiquetas de categoría sin necesitar ejemplos previos.

Para desarrollar nuestro enfoque, usamos Datos de un servicio que recopila contratos públicos en Italia durante los últimos 25 años. Nuestros resultados muestran que nuestro modelo tiene un mejor desempeño para categorías menos comunes en comparación con otros métodos estándar, e incluso puede predecir categorías que no se vieron durante el entrenamiento.

La Importancia de las Licitaciones Públicas

Las licitaciones públicas son una parte significativa de la economía. Representan un gran volumen de gasto dentro de la Unión Europea, contribuyendo al crecimiento económico y a la creación de empleos. Como las licitaciones públicas se publican en varios sitios web, muchas empresas están buscando formas de mejorar el acceso a esta información a través de la tecnología.

Estas tecnologías generalmente se basan en recopilar y procesar datos para mejorar su calidad y facilitar el acceso. Esto implica acciones como limpiar los datos, vincularlos con otras fuentes y agregar contexto adicional. Un paso central para facilitar el acceso a estos datos es la clasificación precisa.

El Vocabulario Común de Compras fue creado para estandarizar cómo se clasifican las licitaciones públicas. Cubre una variedad de áreas y actividades para ayudar con el procesamiento de invitaciones a licitar, facilitando que las empresas y las autoridades públicas entiendan y participen en el proceso de licitación.

Desafíos en la Clasificación

La taxonomía CPV es compleja e incluye numerosas clases, lo que hace que la clasificación sea un desafío. Cada clase está representada por un código y una descripción únicos. Sin embargo, muchas licitaciones públicas no incluyen etiquetas CPV, o las etiquetas que usan son inexactas o demasiado vagas.

Mejorar la clasificación basada en CPV puede ayudar a proporcionar un mejor acceso a los datos de las licitaciones, beneficiando tanto a las instituciones públicas como a las empresas. Sin embargo, la tarea es complicada por varias razones:

  1. Disponibilidad de Datos: A menudo hay datos limitados disponibles para ciertas categorías, lo que dificulta aprender a clasificarlas con precisión.

  2. Desequilibrio en Clases: Algunas categorías tienen muchos ejemplos disponibles, mientras que otras pueden tener muy pocos, lo que dificulta que un modelo aprenda de los datos.

  3. Estructura Jerárquica: La taxonomía CPV no es plana; tiene una estructura donde algunas categorías son más generales y otras más específicas. Esto dificulta la clasificación ya que hay más opciones para elegir.

  4. Información Engañosa: Muchas licitaciones proporcionan descripciones vagas o confusas, lo que puede hacer que la clasificación precisa sea complicada.

Para abordar estos desafíos, proponemos un nuevo modelo que utiliza un modelo de lenguaje para tareas de clasificación, permitiendo un mejor manejo de categorías menos comunes.

Nuestro Enfoque

Nuestro enfoque se centra en usar un modelo de lenguaje preentrenado. Este modelo analiza la descripción textual de la licitación y la compara con las etiquetas de categoría en la taxonomía CPV. El objetivo es establecer una similitud entre las licitaciones y las etiquetas CPV, lo que puede ayudar con la clasificación.

Los aspectos clave de nuestro método incluyen:

  1. Aprendizaje Zero-Shot: Nuestro modelo puede clasificar licitaciones sin necesidad de ver ejemplos de ciertas categorías de antemano. Aprende de las descripciones de las categorías en su lugar.

  2. Clasificación Jerárquica: Tenemo en cuenta la estructura de la taxonomía CPV durante la clasificación, permitiendo que el modelo entienda las relaciones entre categorías.

  3. Uso de Datos Industriales: Entrenamos nuestro modelo con datos del mundo real recolectados de contratos públicos en Italia, lo que proporciona un conjunto de datos robusto para las pruebas.

  4. Refinamiento Iterativo: Nuestro proceso de clasificación implica verificar múltiples niveles dentro de la taxonomía. Si una categoría no parece apropiada, el modelo puede evaluar categorías más amplias en su lugar.

Usando este enfoque, potencialmente podemos mejorar significativamente la clasificación de las licitaciones públicas.

Hallazgos Clave

Después de entrenar y probar nuestro modelo, encontramos que tuvo un mejor desempeño al clasificar categorías menos frecuentes en comparación con métodos tradicionales. Aquí están algunos de los hallazgos clave:

  1. Mejora en el Rendimiento: Nuestro modelo logró mejores resultados para clasificaciones de categorías que se vieron con menos frecuencia en los datos de entrenamiento.

  2. Capacidad para Categorías No Vistas: El modelo pudo predecir categorías que nunca había encontrado antes, lo cual es una ventaja significativa para aplicaciones prácticas.

  3. Manejo del Desequilibrio: A través de nuestro método, gestionamos efectivamente el desequilibrio en el conjunto de datos, donde algunas categorías estaban representadas mucho más que otras.

  4. Eficiencia: Aunque nuestro modelo fue efectivo, también es más lento que algunos Modelos de referencia. Esto significa que, aunque sobresale en precisión de clasificación, podría haber margen para mejorar la velocidad de procesamiento.

Desafíos que Enfrentamos

Incluso con nuestros resultados prometedores, enfrentamos varios desafíos a lo largo de nuestro trabajo:

  1. Calidad de los Datos: La calidad de los datos en el conjunto de entrenamiento impactó significativamente el rendimiento. Datos de mejor calidad mejorarían los resultados.

  2. Recursos Computacionales: El modelo requiere un poder computacional significativo, lo que lo hace menos accesible para organizaciones más pequeñas sin recursos adecuados.

  3. Integración con Sistemas Existentes: Aunque nuestro modelo tuvo un buen desempeño, integrarlo con sistemas de clasificación existentes planteó preguntas sobre compatibilidad y eficiencia.

  4. Calibración de Resultados: Las salidas del modelo pueden variar a veces, lo que significa que necesitamos una calibración cuidadosa para asegurarnos de que las predicciones sean confiables.

Direcciones Futuras

Mientras que nuestro enfoque muestra promesas, hay varias áreas para futuros trabajos:

  1. Mejorar la Velocidad de Procesamiento: Podemos explorar métodos para acelerar la clasificación sin comprometer la precisión.

  2. Pruebas Más Amplias: Probar en otros idiomas y con diferentes conjuntos de datos proporcionará información sobre la generalizabilidad del modelo.

  3. Integrar Características Adicionales: Agregar más características al modelo, como datos de comportamiento del usuario, podría mejorar la precisión.

  4. Colaboración con Interesados: Trabajar en estrecha colaboración con partes interesadas de la industria y del sector público ayudará a refinar el modelo de acuerdo con las necesidades del mundo real.

  5. Técnicas de Entrenamiento Mejoradas: Desarrollar más métodos de entrenamiento, como el uso de estrategias de muestreo más sofisticadas, puede dar mejores resultados.

A través de estos esfuerzos futuros, buscamos mejorar la efectividad del modelo y asegurarnos de que satisfaga las necesidades de diversos usuarios en el espacio de adquisiciones públicas.

Conclusión

Clasificar las licitaciones públicas es una tarea esencial que apoya la transparencia y la eficiencia en el gasto del sector público. Nuestro modelo ofrece un nuevo enfoque a este desafío mediante el aprovechamiento de un modelo de lenguaje para clasificación jerárquica zero-shot, diseñado específicamente para la taxonomía CPV.

A pesar de algunos desafíos, nuestros hallazgos muestran un potencial significativo para mejorar la clasificación de categorías comunes y raras. A medida que miramos hacia el futuro, el desarrollo y refinamiento continuo ayudarán a hacer esta herramienta aún más efectiva para quienes están involucrados en las adquisiciones públicas. En última instancia, nuestro trabajo contribuye a un mejor acceso a las licitaciones públicas, beneficiando tanto a empresas como a agencias públicas.

Fuente original

Título: Zero-Shot Hierarchical Classification on the Common Procurement Vocabulary Taxonomy

Resumen: Classifying public tenders is a useful task for both companies that are invited to participate and for inspecting fraudulent activities. To facilitate the task for both participants and public administrations, the European Union presented a common taxonomy (Common Procurement Vocabulary, CPV) which is mandatory for tenders of certain importance; however, the contracts in which a CPV label is mandatory are the minority compared to all the Public Administrations activities. Classifying over a real-world taxonomy introduces some difficulties that can not be ignored. First of all, some fine-grained classes have an insufficient (if any) number of observations in the training set, while other classes are far more frequent (even thousands of times) than the average. To overcome those difficulties, we present a zero-shot approach, based on a pre-trained language model that relies only on label description and respects the label taxonomy. To train our proposed model, we used industrial data, which comes from contrattipubblici.org, a service by SpazioDati s.r.l. that collects public contracts stipulated in Italy in the last 25 years. Results show that the proposed model achieves better performance in classifying low-frequent classes compared to three different baselines, and is also able to predict never-seen classes.

Autores: Federico Moiraghi, Matteo Palmonari, Davide Allavena, Federico Morando

Última actualización: 2024-05-30 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2405.09983

Fuente PDF: https://arxiv.org/pdf/2405.09983

Licencia: https://creativecommons.org/licenses/by-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares