Presentando la Prueba de Calidad para AI Generativa Descentralizada
Un nuevo método mejora la confiabilidad de los resultados de IA en entornos de blockchain.
― 11 minilectura
Tabla de contenidos
- El Auge del Aprendizaje Profundo
- Cómo Trabajan Juntos la IA y Blockchain
- Mecanismos de Consenso y IA Generativa
- Presentando Prueba de Calidad (PoQ)
- Cómo Funciona PoQ
- Ventajas de PoQ
- Métodos de Evaluación de Calidad
- Construyendo Confianza con el Mecanismo de Consenso
- La Importancia de los Incentivos
- Respondiendo a Adversarios
- Mejoras en el Rendimiento
- Pruebas en el Mundo Real
- Conclusión
- Fuente original
- Enlaces de referencia
Los modelos de IA generativa han demostrado habilidades impresionantes en tareas como la comprensión del lenguaje y la creación de imágenes. Sin embargo, usar estos modelos en sistemas descentralizados, como Blockchains, no es fácil. Los métodos tradicionales para garantizar la fiabilidad de los servicios de IA no funcionan bien en estos entornos, especialmente porque los usuarios no pueden verificar si el servicio es de confianza.
En este artículo, presentamos un nuevo método llamado Prueba de Calidad (PoQ) que permite utilizar Modelos Generativos grandes de manera efectiva en blockchains. A diferencia de los métodos antiguos que se centran en comprobar cómo funcionan los modelos, PoQ se fija en la calidad de los resultados que producen estos modelos. Por ejemplo, usamos un modelo simplificado para evaluar la calidad de los resultados de modelos de alta gama como Llama 3 y Mixtral. Nuestro enfoque ha demostrado ser fuerte contra usuarios que podrían intentar manipular el sistema y requiere poca potencia computacional adicional. Las pruebas iniciales sugieren que PoQ es mucho más rápido que otros métodos existentes.
El Auge del Aprendizaje Profundo
El aprendizaje profundo ha cambiado lo que es posible en inteligencia artificial. Ha llevado a grandes mejoras en muchos campos, incluyendo el procesamiento del lenguaje natural (NLP), el reconocimiento de imágenes y el procesamiento de audio. En NLP, modelos como BERT y GPT-3 han establecido nuevos récords para tareas como traducir idiomas, analizar sentimientos y responder preguntas. Muestran habilidades increíbles para entender y producir texto similar al humano.
En el reconocimiento de imágenes, las redes neuronales convolucionales (CNNs) han mejorado significativamente la precisión de varias aplicaciones, desde coches autónomos hasta diagnósticos médicos. En el procesamiento de audio, los modelos de aprendizaje profundo también han sobresalido, como WaveNet para el reconocimiento y producción de voz. Los avances continuos en estas áreas prometen desarrollos aún más emocionantes.
Cómo Trabajan Juntos la IA y Blockchain
La combinación de IA y blockchain se está volviendo cada vez más importante. La IA es excelente para gestionar y evaluar grandes cantidades de datos, hacer predicciones y automatizar tareas complejas. Mientras tanto, blockchain ofrece una forma segura y transparente de gestionar la información.
Cuando se combina la IA con blockchain, se puede mejorar la seguridad y la fiabilidad de los datos. Esto asegura que los datos utilizados por los sistemas de IA estén protegidos contra manipulaciones. También puede ayudar en sectores como finanzas, atención médica y cadenas de suministro al reducir riesgos relacionados con brechas de datos y fraudes. Además, usar blockchain puede proporcionar registros claros de las decisiones de IA, lo que hace que estos sistemas sean más fiables.
Esta integración también puede abrir la tecnología de IA para que más personas puedan acceder a ella. Evita que unas pocas empresas monopolien la IA, permitiendo beneficios más amplios para la sociedad. Asegurarse de que el despliegue de la IA esté alineado con la seguridad, la transparencia y la equidad es crucial para la innovación.
Mecanismos de Consenso y IA Generativa
En blockchains, se utilizan mecanismos de consenso para asegurar que todos los nodos estén de acuerdo con los resultados de las transacciones. Esto se hace ejecutando los mismos cálculos en múltiples nodos y aceptando la opinión mayoritaria. Sin embargo, esto no es práctico para IA generativa, que requiere mucha potencia computacional. Ejecutar el mismo modelo en muchos nodos puede ser demasiado costoso y lento.
Para lograr un uso rápido y fiable de modelos de IA generativa en blockchains, los investigadores han explorado métodos criptográficos avanzados como las pruebas de conocimiento cero. Pero estos métodos a menudo tienen problemas con la escalabilidad y el manejo de tipos de datos complejos, lo que los hace inadecuados para tareas del mundo real.
Presentando Prueba de Calidad (PoQ)
Para abordar estos problemas, proponemos una nueva forma llamada Prueba de Calidad (PoQ). Este método cambia el enfoque de validar el proceso de inferencia del modelo de IA a verificar la calidad de los resultados.
La idea básica es simple. En IA generativa, a los usuarios les importa más la calidad de las respuestas que obtienen que el proceso exacto por el cual se generaron esas respuestas. Muchos usuarios solo pagarán por servicios que proporcionen respuestas satisfactorias. Además, la calidad de la salida de un modelo de IA no siempre coincide con la complejidad de los cálculos involucrados. Por lo tanto, recompensar a los proveedores de servicios según la calidad de sus salidas, en lugar de los recursos que utilizan, tiene más sentido.
PoQ puede verificar las salidas del modelo de manera efectiva sin necesidad de recursos computacionales pesados. Lo hace al tener evaluadores de calidad -que pueden usar modelos más simples- para evaluar las respuestas de modelos más grandes.
Cómo Funciona PoQ
En PoQ, cuando un usuario envía una pregunta, el modelo generativo crea una respuesta. Este proceso se divide en tres pasos principales:
Fase de Inferencia: Un participante de computación potente genera una respuesta usando un modelo generativo.
Fase de Evaluación: Esta respuesta se envía a evaluadores independientes dentro de la red, quienes evalúan su calidad. Esta evaluación se basa únicamente en la pregunta de entrada y la respuesta generada.
Fase de Consenso: La red acuerda una puntuación de calidad para la respuesta y se distribuyen recompensas según esta puntuación.
Este sistema está diseñado para minimizar la carga de trabajo, ya que la evaluación de calidad requiere mucha menos potencia computacional que generar la respuesta misma.
Ventajas de PoQ
PoQ ofrece una solución sencilla a los desafíos de la IA sin confianza en entornos descentralizados. La computación adicional necesaria para las evaluaciones de calidad es mucho menor que la necesaria para producir salidas del modelo, haciendo que PoQ sea adecuado para sistemas de blockchain cotidianos.
Aquí hay algunas de las contribuciones clave de PoQ:
- Proporciona una definición clara de lo que significa Prueba de Calidad.
- Introduce un protocolo específico llamado PQML dirigido a modelos de IA generativa basados en NLP.
- Analiza cómo los adversarios podrían actuar con base en ciertas suposiciones para confirmar que el protocolo es seguro.
- Discute formas de mejorar el rendimiento y la fiabilidad del sistema.
- Demuestra afirmaciones a través de experimentación.
Métodos de Evaluación de Calidad
El proceso de evaluación de calidad es crucial. Basamos nuestra evaluación de calidad en técnicas de cross-encoder bien conocidas. La idea es combinar la pregunta del usuario con la respuesta generada, y luego alimentar esto a un modelo más simple, como BERT, para producir una puntuación de calidad.
Nuestras pruebas muestran que al usar una GPU, podemos procesar cientos de pares de pregunta-respuesta en un tiempo muy corto. Incluso al usar computadoras menos potentes, todavía logramos un buen rendimiento.
El método de evaluación debe cumplir con tres criterios importantes:
- Ejecución Rápida: Debe completarse en un tiempo muy corto usando recursos mínimos.
- Fiable: El método debe distinguir efectivamente entre respuestas de alta y baja calidad, incluso cuando se enfrenta a intentos de explotar el sistema.
- Fácil de Implementar: El método tiene que ser simple de aplicar en configuraciones descentralizadas.
Construyendo Confianza con el Mecanismo de Consenso
El aspecto de consenso de PoQ asegura que la evaluación de calidad sea justa y precisa. Se introduce un mecanismo de dos fases para garantizar que los evaluadores calculen sus puntuaciones de calidad de manera independiente:
- Los evaluadores calculan la puntuación de calidad y la encriptan usando sus claves únicas.
- Cuando se recopilan suficientes puntuaciones, los evaluadores comparten sus claves, permitiendo a cualquiera acceder y calcular la puntuación de calidad promedio.
Este método permite que el sistema mantenga su integridad mientras mantiene bajos los costos operacionales. Asegura que incluso si algunos evaluadores intentan hacer trampa, es menos probable que se beneficien de sus acciones.
La Importancia de los Incentivos
Es esencial crear un sistema de recompensas que fomente el comportamiento honesto entre los participantes. El sistema debe garantizar que quienes sigan las reglas sean recompensados justamente, mientras que aquellos que recorten esquinas reciban menos.
Para los nodos de inferencia, la recompensa se basa en las puntuaciones de calidad de los evaluadores. Las recompensas están escaladas de modo que las respuestas de mayor calidad generen más beneficios.
Los evaluadores de calidad también reciben incentivos basados en la precisión de sus puntuaciones. Si su evaluación se alinea de cerca con la media, obtienen más recompensas. Esto asegura que los evaluadores tengan un fuerte motivo para evaluar correctamente.
Respondiendo a Adversarios
En esta sección, analizamos las posibles acciones de los participantes que podrían intentar explotar el sistema. Suponemos que todos los jugadores quieren maximizar sus beneficios. Esto significa que es poco probable que actúen en contra de sus propios intereses si reduce sus ganancias.
Examinamos dos tipos de participantes:
Nodos de Inferencia: Son responsables de generar las salidas. Siempre seleccionarán el modelo más rentable que ofrezca la mejor respuesta de calidad.
Evaluadores de Calidad: Evalúan qué tan buenas son las salidas. Si un evaluador intenta adivinar puntuaciones sin usar los métodos de evaluación adecuados, es probable que reciba recompensas más bajas.
Al ajustar cuidadosamente las estructuras de recompensa y analizar cómo se comportan los participantes, podemos asegurarnos de que nuestro sistema se mantenga robusto contra acciones deshonestas.
Mejoras en el Rendimiento
Aunque hemos construido una base sólida con PoQ, aún podemos mejorar su eficiencia a través de algunas estrategias clave.
Acelerando el Consenso
El tiempo requerido para el consenso puede ralentizarse por evaluadores menos receptivos. Para evitar esto, podemos asignar verificaciones de calidad a más evaluadores de los necesarios, permitiendo una finalización más rápida incluso si algunos no responden.
Usando este método, una vez que se recopilan suficientes puntuaciones de calidad, el consenso puede proceder sin esperar a que cada evaluador responda. Aquellos que no respondan a tiempo no recibirán recompensas.
Selección Eficiente de Nodos
Otro aspecto crítico del sistema es la selección de nodos. Es vital asegurar equidad y eficiencia al asignar tareas. En lugar de usar una selección aleatoria, podemos utilizar un método determinista basado en la "energía" que los nodos han acumulado mientras esperan tareas.
Esta energía aumenta con el tiempo, permitiendo que los nodos que han estado esperando más tiempo sean elegidos primero. Este método asegura que todos los nodos tengan oportunidades justas y los motiva a mantenerse activos y comprometidos en la red.
Pruebas en el Mundo Real
Para validar qué tan bien funciona PoQ, realizamos una serie de pruebas. El objetivo era evaluar tanto su efectividad como su eficiencia en aplicaciones del mundo real.
Carga de Trabajo y Métricas
Usamos varios servicios y modelos de IA para generar salidas y respuestas de calidad. Al analizar un conjunto de preguntas de un conjunto de datos popular, determinamos qué tan bien funcionó nuestro método de puntuación en comparación con un criterio establecido.
Resultados y Análisis
Los resultados muestran que las puntuaciones del cross-encoder coinciden de cerca con los resultados esperados, validando que nuestras evaluaciones de calidad son creíbles. También indican que nuestro enfoque es efectivamente eficiente, con tiempos de respuesta rápidos para el consenso incluso cuando hay múltiples evaluadores involucrados.
Conclusión
En resumen, PoQ sirve como una alternativa viable a los métodos de verificación tradicionales en la descentralización de aplicaciones de IA. Demuestra tanto efectividad como rapidez en la confirmación de la calidad de las salidas, haciéndolo adecuado para el uso en el mundo real en configuraciones de blockchain.
De cara al futuro, hay varias direcciones emocionantes que esperan ser exploradas. Podemos ampliar el modelo actual involucrando múltiples nodos de inferencia o desarrollando métodos de evaluación de calidad para otros tipos de salidas, como imágenes. Cada una de estas avenidas futuras promete mejorar aún más las capacidades de la IA generativa en plataformas blockchain.
Título: Proof of Quality: A Costless Paradigm for Trustless Generative AI Model Inference on Blockchains
Resumen: Generative AI models, such as GPT-4 and Stable Diffusion, have demonstrated powerful and disruptive capabilities in natural language and image tasks. However, deploying these models in decentralized environments remains challenging. Unlike traditional centralized deployment, systematically guaranteeing the integrity of AI model services in fully decentralized environments, particularly on trustless blockchains, is both crucial and difficult. In this paper, we present a new inference paradigm called \emph{proof of quality} (PoQ) to enable the deployment of arbitrarily large generative models on blockchain architecture. Unlike traditional approaches based on validating inference procedures, such as ZKML or OPML, our PoQ paradigm focuses on the outcome quality of model inference. Using lightweight BERT-based cross-encoders as our underlying quality evaluation model, we design and implement PQML, the first practical protocol for real-world NLP generative model inference on blockchains, tailored for popular open-source models such as Llama 3 and Mixtral. Our analysis demonstrates that our protocol is robust against adversarial but rational participants in ecosystems, where lazy or dishonest behavior results in fewer benefits compared to well-behaving participants. The computational overhead of validating the quality evaluation is minimal, allowing quality validators to complete the quality check within a second, even using only a CPU. Preliminary simulation results show that PoQ consensus is generated in milliseconds, 1,000 times faster than any existing scheme.
Autores: Zhenjie Zhang, Yuyang Rao, Hao Xiao, Xiaokui Xiao, Yin Yang
Última actualización: 2024-05-30 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2405.17934
Fuente PDF: https://arxiv.org/pdf/2405.17934
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://openhumanitiesdata.metajnl.com
- https://credit.niso.org/
- https://huggingface.co/cross-encoder
- https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4
- https://huggingface.co/mistralai/Mistral-7B-v0.1
- https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
- https://huggingface.co/meta-llama/Meta-Llama-3-70B
- https://huggingface.co/sentence-transformers/stsb-distilroberta-base-v2
- https://github.com/zkonduit/ezkl