Condor: O Novo Código Árbitro na Engenharia de Software

O Condor melhora a qualidade do código gerado por meio de uma análise inteligente das submissões do modelo de linguagem.

Qingyuan Liang, Zhao Zhang, Chen Liu, Zeyu Sun, Wenjie Zhang, Yizhou Chen, Zixiao Zhao, Qi Luo, Wentao Wang, Yanjie Jiang, Yingfei Xiong, Lu Zhang

2025-01-30T01:44:24+00:00 ― 8 min ler

Índice

O Problema
O que é o Condor?
Aprendizado Contrastivo
Mineração de Dados em Nível
Criando o Conjunto de Dados CodeNanoFix
Coleta de Dados
Limpando os Dados
Como o Condor Funciona?
O Básico da Discriminação de Código
Avaliando Amostras de Código
Testando as Habilidades do Condor
Métricas de Desempenho
Resultados
Desempenho de Classificação
Desempenho de Discriminação
Capacidades de Generalização
Desempenho no Conjunto de Dados APPS
Desempenho no Conjunto de Dados MBPP
A Importância dos Detalhes do Código
Aplicações Futuras
Conclusão
Fonte original
Ligações de referência

No mundo da engenharia de software, um dos desafios mais complicados é fazer o código funcionar certo na primeira tentativa, especialmente quando as exigências ficam complexas. Mesmo com modelos de linguagem sofisticados que conseguem gerar código, erros geralmente aparecem. Aí que entra o Condor, uma ferramenta esperta que filtra diferentes saídas de código produzidas por esses modelos, ajudando a escolher a melhor. Pense no Condor como um árbitro de código, garantindo que o time certo faça o gol.

O Problema

Modelos de linguagem grandes têm mostrado grande potencial em tarefas como gerar e corrigir código. Mas, às vezes, eles têm dificuldade em acertar na primeira vez, principalmente com tarefas intricadas como algoritmos. Quando um modelo produz várias peças de código, nem todas podem estar corretas. É aí que um discriminador de código, como o Condor, entra em cena.

Existem dois tipos principais de discriminadores: baseados em execução e não baseados em execução. Métodos baseados em execução rodam o código para ver se ele funciona, mas essa abordagem pode ser complicada. Imagine tentar fazer um bolo sem saber se você tem os ingredientes certos - e se você não tiver ovos? Da mesma forma, às vezes o código não pode ser executado por falta de casos de teste ou problemas de segurança. Métodos não baseados em execução, por outro lado, não rodam o código. Em vez disso, eles analisam o próprio código, o que é mais flexível, mas pode perder diferenças sutis.

O que é o Condor?

O Condor é um discriminador não baseado em execução que funciona analisando o código sem precisar executá-lo. É como um olhar atento que examina cada submissão e escolhe qual delas provavelmente funcionará melhor. O Condor utiliza duas estratégias inovadoras: aprendizado contrastivo no nível de embedding e mineração de dados intermediários no nível de dados.

Aprendizado Contrastivo

Em termos simples, aprendizado contrastivo envolve ensinar o Condor a reconhecer a diferença entre pedaços similares de código. É como mostrar para alguém duas maçãs idênticas e pedir para encontrar a estragada. Ao levantar a tampa (ou neste caso, o código), o Condor aprende quais trechos são similares, mas se comportam de maneira diferente.

Mineração de Dados em Nível

A segunda estratégia foca em analisar versões parciais de código que podem não ser perfeitas, mas estão mais próximas da resposta certa. Os usuários frequentemente passam por um processo de tentativa e erro ao corrigir o código, e capturar esses estados “quase lá” pode ajudar o Condor a se tornar ainda mais preciso na identificação da versão correta.

Criando o Conjunto de Dados CodeNanoFix

Para testar realmente as habilidades do Condor, foi criado um conjunto de dados especial chamado CodeNanoFix. O objetivo? Recolher várias instâncias de submissões de código que são quase idênticas em forma, mas diferem em funcionalidade. É como reunir uma coleção de brinquedos piratas que parecem os mesmos, mas não funcionam como deveriam.

Coleta de Dados

Os dados foram reunidos a partir de uma vasta coleção de desafios de programação. Esses desafios são como quebra-cabeças que exigem uma solução específica, mas geralmente levam a diferentes tentativas, algumas corretas e outras erradas. Focando no Python, a equipe construiu um conjunto de dados repleto de exemplos onde apenas alguns caracteres mudaram, mas que fizeram toda a diferença na forma como o código funcionava.

Limpando os Dados

Garantir que o conjunto de dados estivesse organizado foi essencial. Muitos trechos de código estavam rotulados incorretamente, levando à confusão. O processo de limpeza envolveu verificar os rótulos reexecutando testes no código, garantindo que apenas os samples mais precisos fossem mantidos. Esse processo meticuloso torna o conjunto de dados um recurso confiável para testar como o Condor pode realizar seu trabalho.

Como o Condor Funciona?

Agora que temos uma noção do que é o Condor e do conjunto de dados que usa, vamos ver como essa ferramenta notável opera.

O Básico da Discriminação de Código

O Condor analisa um conjunto de submissões de código e decide qual é a vencedora. Ele não precisa executar o código para descobrir isso, o que é uma grande vantagem. Em vez disso, ele se baseia nas representações de código refinadas obtidas através de suas estratégias de aprendizado.

Avaliando Amostras de Código

Quando apresentado com múltiplos trechos de código, o Condor os avalia com base em alguns fatores chave. Ele considera se o código atende aos requisitos do problema e verifica a correção olhando as diferenças entre códigos que parecem similares.

Em termos mais simples, se o Condor fosse um professor, ele avaliaria os alunos não apenas pela resposta certa, mas também pela forma como chegaram lá.

Testando as Habilidades do Condor

Para medir quão eficaz o Condor realmente é, vários experimentos foram conduzidos usando o conjunto de dados CodeNanoFix junto com outros conjuntos de dados de referência. Pense nisso como um campeonato de gladiadores, colocando o Condor contra outros modelos para ver quem se destaca na arena da discriminação de código.

Métricas de Desempenho

O desempenho do modelo foi medido usando métricas como precisão, recall e a pontuação F1. A precisão reflete quantos dos códigos selecionados estavam realmente corretos, enquanto o recall mostra quantos dos códigos corretos foram identificados. A pontuação F1 é uma combinação amigável de precisão e recall, garantindo uma avaliação equilibrada do desempenho.

Resultados

Desempenho de Classificação

Quando testado no conjunto de dados CodeNanoFix, o Condor mostrou habilidades notáveis. Ele superou claramente outros modelos mais simples, demonstrando uma forte compreensão de qual código funcionaria melhor em situações reais.

Desempenho de Discriminação

Quando se tratou de tarefas de discriminação, o Condor brilhou. A pontuação Pass@1, que reflete a precisão na seleção do melhor código de um conjunto de códigos gerados, foi significativamente maior que a de outros modelos. Os resultados mostraram que, seja um modelo grande ou pequeno, o Condor consistentemente superou os outros na escolha do melhor código.

Capacidades de Generalização

O Condor não é apenas um sucesso isolado. Sua capacidade de generalizar em diferentes tarefas e conjuntos de dados provou sua força. Nos conjuntos de dados APPS e MBPP, o Condor conseguiu melhorar significativamente as saídas de código, aumentando as chances de gerar um código funcional. É como aquele amigo que não só manda bem em matemática, mas também arremessa uma bola curva impressionante no jogo de baseball.

Desempenho no Conjunto de Dados APPS

Embora o conjunto de dados APPS seja conhecido por sua natureza desafiadora, mesmo aqui, o Condor se destacou, melhorando o desempenho em todos os aspectos.

Desempenho no Conjunto de Dados MBPP

Nas tarefas mais simples do conjunto de dados MBPP, o Condor continuou a mostrar melhorias, reforçando sua reputação como um discriminador de código confiável.

A Importância dos Detalhes do Código

Os experimentos ressaltaram o valor de focar nos detalhes do código. Ao integrar tanto o aprendizado contrastivo quanto as estratégias em nível de dados, o Condor alcançou um equilíbrio que permitiu que ele se destacasse tanto em precisão quanto em recall.

Aplicações Futuras

À medida que os desenvolvedores continuam a enfrentar desafios em gerar código preciso, ferramentas como o Condor podem fazer uma diferença substancial. Suas metodologias podem ser aplicadas para melhorar processos de revisão de código, ajudar na depuração e aumentar a qualidade geral do software.

Conclusão

Em resumo, o Condor estabeleceu um alto padrão para discriminação de código no campo da engenharia de software. Ao escolher efetivamente as melhores submissões de código em meio a um mar de opções, ele se afirma como uma ferramenta que pode melhorar significativamente o processo de geração e reparo de código. Esse avanço não só aumenta a confiabilidade do software produzido, mas também economiza tempo e esforço valiosos para os desenvolvedores.

Então, enquanto as máquinas podem não ser perfeitas, com ferramentas como o Condor ao seu lado, elas estão bem no caminho de aperfeiçoar a arte de programar!

Fonte original

Título: Condor: A Code Discriminator Integrating General Semantics with Code Details

Resumo: LLMs demonstrate significant potential across various software engineering tasks. However, they still face challenges in generating correct code on the first attempt when addressing complex requirements. Introducing a discriminator to select reliable outputs from multiple generated results is an effective way to enhance their reliability and stability. Currently, these discriminators fall into two categories: execution-based discriminators and non-execution-based discriminators. Execution-based discriminators face flexibility challenges due to difficulties in obtaining test cases and security concerns, while non-execution-based discriminators, although more flexible, struggle to capture subtle differences in code details. To maintain flexibility while improving the model's ability to capture fine-grained code details, this paper proposes Condor. We first design contrastive learning to optimize the code representations of the base model, enabling it to reflect differences in code details. Then, we leverage intermediate data from the code modification process to further enrich the discriminator's training data, enhancing its ability to discern code details. Experimental results indicate that on the subtle code difference dataset (i.e., CodeNanoFix), Condor significantly outperforms other discriminators in discriminative performance: Condor (1.3B) improves the discriminative F1 score of DeepSeek-Coder (1.3B) from 67% to 73%. In discriminating LLM-generated outputs, Condor (1.3B) and Condor (110M) raise the Pass@1 score of Meta-Llama-3.1-Instruct (70B) on the CodeNanoFix dataset from 52.64% to 62.63% and 59.64%, respectively. Moreover, Condor demonstrates strong generalization capabilities on the MBPP and APPS datasets. For example, Condor (1.3B) improves the Pass@1 of Meta-Llama-3.1-Instruct (70B) on the APPS dataset by 147.05%.

Autores: Qingyuan Liang, Zhao Zhang, Chen Liu, Zeyu Sun, Wenjie Zhang, Yizhou Chen, Zixiao Zhao, Qi Luo, Wentao Wang, Yanjie Jiang, Yingfei Xiong, Lu Zhang

Última atualização: 2024-12-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.17429

Fonte PDF: https://arxiv.org/pdf/2412.17429

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Tópicos referenciados

Mais de autores

Dinâmica dos Fluidos Comportamento de Nano-Fios Líquidos Sob Forças Externas

Este estudo analisa como nano-fios líquidos reagem a distúrbios e movimentos térmicos.

Zhao Zhang, Chengxi Zhao, Ting Si

2025-06-23T06:37:18+00:00 ― 7 min ler

Gráficos Avanços na Animação Facial com o FreeAvatar

Um novo método melhora a transferência de animação facial para personagens digitais.

Feng Qiu, Wei Zhang, Chen Liu

2025-06-09T16:48:18+00:00 ― 9 min ler

Visão computacional e reconhecimento de padrões Avanços nas Técnicas de Reconstrução de Cena em 3D

Um novo método melhora a renderização de cenas 3D para várias aplicações.

Hanyue Zhang, Zhiliu Yang, Xinhe Zuo

2025-06-09T09:33:48+00:00 ― 6 min ler

Aprendizagem automática Hipergrafos: Uma Nova Perspectiva sobre a Complexidade dos Dados

Hipergráficos e wavelets de difusão oferecem uma visão mais profunda sobre interações complexas de dados.

Xingzhi Sun, Charles Xu, João F. Rocha

2025-06-04T16:08:00+00:00 ― 6 min ler

Engenharia de software O Papel em Evolução da Engenharia de Prompt com Modelos Avançados

Avaliando a relevância da engenharia de prompts com novos modelos de raciocínio.

Guoqing Wang, Zeyu Sun, Zhihao Gong

2025-05-31T08:07:48+00:00 ― 8 min ler

Economia Geral Balanços de Recursos Naturais: Um Caminho para uma Gestão Sustentável

Explorando NRBS pra uma gestão de recursos melhor na economia em crescimento de Shaanxi.

Wentao Wang, Guoping Li, Andreas Kontoleon

2025-05-20T22:12:36+00:00 ― 7 min ler

Trapianti Avanços na Doação de Órgãos de Donos com Morte Circulatória

Nova tecnologia melhora as taxas de sucesso na doação de órgãos após morte circulatória.

Xingzhi Sun, Edward De Brouwer, Chen Liu

2025-05-14T21:34:16+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Revolucionando a Conversão de Vídeo 3D

Um novo método acelera a criação de vídeos 3D com qualidade incrível.

Shanding Diao, Yang Zhao, Yuan Chen

2025-04-14T12:54:27+00:00 ― 7 min ler

Artigos semelhantes

Computação e linguagem Melhorando a Tradução com Colaboração entre Modelos

Uma nova abordagem melhora a qualidade da tradução ao combinar modelos de processamento de texto e imagem.

Sai Koneru, Matthias Huck, Miriam Exel

2025-06-24T01:38:24+00:00 ― 11 min ler

Computação distribuída, paralela e em cluster Comunicação Eficiente de Processos Através de Sandboxes

Este artigo fala sobre um sistema que gerencia a comunicação entre processos usando sandboxes.

Suyash Mahar, Ehsan Hajyjasini, Seungjin Lee

2025-06-24T01:30:30+00:00 ― 8 min ler

Populações e Evolução Estratégias de Teste e Relato de Casos de COVID-19

Uma análise dos métodos de teste e seu impacto nos casos de COVID-19 reportados.

Rasmus Kristoffer Pedersen, Christian Berrig, Tamás Tekeli

2025-06-24T01:17:48+00:00 ― 8 min ler

Visão computacional e reconhecimento de padrões Avanços na Detecção de Adesivos para Reformar Laptops

A pesquisa melhora a detecção automática de adesivos para a gestão sustentável de resíduos eletrônicos.

Chengjie Lu, Jiahui Wu, Shaukat Ali

2025-06-24T01:14:42+00:00 ― 5 min ler

Matéria condensada mole Robôs pequenos imitam os movimentos de microrganismos

Novo estudo revela que robôs minúsculos imitando microrganismos podem aprender e navegar de forma eficaz.

Tongzhao Xiong, Zhaorong Liu, Chong Jin Ong

2025-06-24T01:04:09+00:00 ― 7 min ler

Visão computacional e reconhecimento de padrões Novo Método Detecta Imagens Falsas com Alta Precisão

Um método que junta modelos visuais e de linguagem identifica imagens falsas de forma eficaz.

Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene

2025-06-24T00:58:54+00:00 ― 7 min ler

Recuperação de informação Melhorando a Tomada de Decisão Com Testes A/B

Um novo método para analisar testes A/B melhora a tomada de decisões em sistemas de recomendação.

Olivier Jeunen, Shubham Baweja, Neeti Pokharna

2025-06-24T00:55:08+00:00 ― 6 min ler

Computadores e sociedade A IA Revoluciona a Coleta de Dados de Viagem Urbana

Novo método de IA melhora a coleta de dados de viagem para um planejamento urbano mais eficiente.

Prabin Bhandari, Antonios Anastasopoulos, Dieter Pfoser

2025-06-24T00:51:00+00:00 ― 7 min ler

Condor: O Novo Código Árbitro na Engenharia de Software

#O Problema

#O que é o Condor?

#Aprendizado Contrastivo

#Mineração de Dados em Nível

#Criando o Conjunto de Dados CodeNanoFix

#Coleta de Dados

#Limpando os Dados

#Como o Condor Funciona?

#O Básico da Discriminação de Código

#Avaliando Amostras de Código

#Testando as Habilidades do Condor

#Métricas de Desempenho

#Resultados

#Desempenho de Classificação

#Desempenho de Discriminação

#Capacidades de Generalização

#Desempenho no Conjunto de Dados APPS

#Desempenho no Conjunto de Dados MBPP

#A Importância dos Detalhes do Código

#Aplicações Futuras

#Conclusão