Modelli AI piccoli e aperti vs. modelli grandi e chiusi
Esaminando l'efficacia e il costo di modelli AI più piccoli rispetto a quelli più grandi.
― 6 leggere min
Indice
L'ascesa dell'AI generativa ha portato a una discussione sull'efficacia dei modelli più piccoli e a peso aperto rispetto ai modelli più grandi e chiusi. Questo è particolarmente importante in settori come il governo, la sanità e la ricerca, dove la trasparenza e l'adattabilità sono fondamentali. Il dibattito si concentra su come questi modelli più piccoli possano performare rispetto a quelli più grandi come ChatGPT, soprattutto in contesti con risorse limitate.
Domande Chiave
- Confronto delle prestazioni: I modelli più piccoli e a peso aperto possono performare altrettanto bene dei modelli più grandi e chiusi in compiti specifici?
- Efficienza dei costi: Come si confrontano i costi di utilizzo di questi modelli?
- Risposta al Fine-Tuning: Quanto bene si adattano questi modelli più piccoli a nuovi dati specifici per i loro compiti?
- Capacità di Uso Generale: Possono questi modelli comunque eseguire altri compiti in modo efficace dopo essere stati addestrati per uno specifico?
- Uso Responsabile: Questi modelli possono essere usati eticamente, specialmente in aree sensibili?
Confronto delle Prestazioni
Abbiamo analizzato le prestazioni di tre modelli aperti piccoli rispetto a due modelli chiusi ben noti, GPT-3.5-Turbo e GPT-4-Turbo, su compiti specifici. I compiti su cui ci siamo concentrati erano:
- Risoluzione di Entità: Determinare se due record si riferiscono alla stessa persona.
- Verifica dei Fatti: Valutare l'accuratezza delle affermazioni riguardo ai problemi climatici.
- Riassunto di Dialogo Clinico: Riassumere conversazioni tra medici e pazienti.
I risultati hanno indicato che mentre GPT-4-Turbo spesso superava gli altri modelli nelle situazioni di risposta rapida, i modelli aperti ottimizzati si avvicinavano o superavano le sue prestazioni dopo essere stati addestrati su set di dati specifici.
Ad esempio, un modello aperto ha raggiunto un tasso di accuratezza del 75% in un compito di verifica dei fatti, migliore del 72% di GPT-4-Turbo in un setup simile.
Efficienza dei Costi
Quando si tratta di spese, i risultati sono stati significativi. Eseguire il modello chiuso più grande GPT-4-Turbo costava circa dieci volte di più rispetto all'utilizzo di modelli aperti ottimizzati per compiti simili. Questo dimostra che i modelli più piccoli potrebbero fornire risultati simili o migliori a costi molto più bassi, rendendoli opzioni attraenti per le organizzazioni con budget limitati.
Il costo di ottimizzazione di un modello aperto per compiti specifici era inferiore rispetto alla spesa per eseguire un singolo incarico utilizzando GPT-4-Turbo. Per compiti che richiedono un uso frequente dell'AI, questa efficienza dei costi diventa particolarmente importante.
Risposta al Fine-Tuning
Il fine-tuning è il processo di regolazione di un modello basato su nuovi dati per migliorare la sua accuratezza per compiti specifici. Nella nostra ricerca, abbiamo esaminato quanto bene i modelli aperti si sono adattati dopo essere stati ottimizzati con quantità variabili di dati.
I risultati hanno mostrato che anche una piccola quantità di dati di addestramento poteva portare a miglioramenti significativi nelle prestazioni. Ad esempio, un modello aperto ha raggiunto quasi la sua migliore accuratezza dopo aver utilizzato solo il 20% dei dati di addestramento disponibili. Questo suggerisce che questi modelli possono essere modificati in modo efficiente per soddisfare varie esigenze senza richiedere enormi quantità di informazioni.
Capacità di Uso Generale
Una preoccupazione con il fine-tuning è che potrebbe ridurre la capacità di un modello di svolgere altri compiti. Tuttavia, la nostra valutazione dei modelli aperti ottimizzati ha rivelato che la maggior parte ha mantenuto, o addirittura migliorato, le loro prestazioni in compiti per cui non erano stati specificamente addestrati.
Ad esempio, un modello aperto ottimizzato per il riassunto di dialogo clinico ha performato bene in compiti non correlati come la risoluzione di entità. Questo indica che il fine-tuning non compromette significativamente l'utilità generale del modello, che è una caratteristica cruciale per l'uso diffuso.
Uso Responsabile
L'uso responsabile dei modelli AI implica assicurarsi che operino in modi etici e sicuri, soprattutto in aree sensibili come la sanità e le informazioni pubbliche. Abbiamo esplorato questo valutando quanto bene i modelli aperti e chiusi hanno gestito tre aree:
- Privacy: Come proteggono i modelli le informazioni sensibili?
- Pregiudizio: Sono equi nelle loro risposte tra diverse demografie?
- Astensione: Come gestiscono i modelli le domande quando non hanno informazioni sufficienti per fornire una risposta affidabile?
In termini di privacy, i modelli che sono stati ottimizzati privatamente hanno mostrato livelli di prestazione vicini a quelli delle impostazioni non private, indicando un miglioramento nella protezione delle informazioni degli utenti.
Tuttavia, per quanto riguarda il pregiudizio, mentre sono stati notati alcuni miglioramenti nei modelli aperti dopo il fine-tuning, generalmente non hanno raggiunto lo stesso livello di equità dei loro omologhi chiusi. Questo mette in evidenza un'area in cui i modelli aperti devono ancora prestare attenzione.
L'astensione, o la capacità di astenersi dal rispondere quando non sicuri, ha visto alcuni modelli performare bene nei loro setup originali ma faticare dopo il fine-tuning. Questo suggerisce la necessità di un attento equilibrio tra il miglioramento delle prestazioni in compiti specifici e il mantenimento della capacità del modello di astenersi dal fornire informazioni false.
Limitazioni
Nonostante i risultati promettenti, ci sono limitazioni nell'uso di modelli piccoli e aperti. Una sfida è la necessità di un pre-addestramento significativo, che richiede risorse che potrebbero non essere prontamente disponibili per tutti. Anche se esistono tecniche per rendere questo processo più efficiente, non elimina la necessità di un addestramento fondamentale su set di dati ampi.
Inoltre, possono sorgere problemi nell'accesso alle risorse cloud, poiché la disponibilità di GPU a basso costo potrebbe non essere costante. Questo può influenzare l'affidabilità e la velocità degli esperimenti condotti con modelli aperti.
Direzioni Future
Guardando al futuro, la ricerca in corso può esplorare modi innovativi per migliorare l'addestramento e le prestazioni di questi modelli più piccoli. È essenziale trovare metodi che migliorino la loro capacità di gestire responsabilmente informazioni sensibili superando i pregiudizi esistenti.
Future indagini potrebbero anche concentrarsi su come creare modelli efficaci senza fare eccessivo affidamento su set di dati ampi. Questo potrebbe aprire la strada per un utilizzo più ampio delle tecnologie AI, specialmente tra ricercatori e professionisti che attualmente potrebbero sentirsi emarginati dalla dominanza di modelli aziendali più grandi.
Conclusione
In sintesi, i modelli AI più piccoli e a peso aperto mostrano molte promesse nel fornire alternative accessibili, adattabili e responsabili rispetto ai modelli più grandi e chiusi. Hanno il potenziale di mantenere forti prestazioni su più compiti pur essendo più accessibili agli utenti con risorse limitate. Man mano che il campo avanza, è fondamentale continuare ad affrontare le sfide relative a pregiudizio, privacy e uso etico per assicurarsi che questi modelli siano adatti all'uso generale e possano contribuire positivamente a vari ambiti. Ricercatori e professionisti possono trarre vantaggio da questi progressi, aprendo la strada a un paesaggio AI più trasparente e inclusivo.
Titolo: Laboratory-Scale AI: Open-Weight Models are Competitive with ChatGPT Even in Low-Resource Settings
Estratto: The rapid proliferation of generative AI has raised questions about the competitiveness of lower-parameter, locally tunable, open-weight models relative to high-parameter, API-guarded, closed-weight models in terms of performance, domain adaptation, cost, and generalization. Centering under-resourced yet risk-intolerant settings in government, research, and healthcare, we see for-profit closed-weight models as incompatible with requirements for transparency, privacy, adaptability, and standards of evidence. Yet the performance penalty in using open-weight models, especially in low-data and low-resource settings, is unclear. We assess the feasibility of using smaller, open-weight models to replace GPT-4-Turbo in zero-shot, few-shot, and fine-tuned regimes, assuming access to only a single, low-cost GPU. We assess value-sensitive issues around bias, privacy, and abstention on three additional tasks relevant to those topics. We find that with relatively low effort, very low absolute monetary cost, and relatively little data for fine-tuning, small open-weight models can achieve competitive performance in domain-adapted tasks without sacrificing generality. We then run experiments considering practical issues in bias, privacy, and hallucination risk, finding that open models offer several benefits over closed models. We intend this work as a case study in understanding the opportunity cost of reproducibility and transparency over for-profit state-of-the-art zero shot performance, finding this cost to be marginal under realistic settings.
Autori: Robert Wolfe, Isaac Slaughter, Bin Han, Bingbing Wen, Yiwei Yang, Lucas Rosenblatt, Bernease Herman, Eva Brown, Zening Qu, Nic Weber, Bill Howe
Ultimo aggiornamento: 2024-05-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.16820
Fonte PDF: https://arxiv.org/pdf/2405.16820
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://dl.acm.org/ccs.cfm
- https://huggingface.co/models?sort=trending
- https://crfm.stanford.edu/helm/lite/latest/
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://huggingface.co/docs/transformers/chat_templating
- https://platform.openai.com/docs/guides/prompt-engineering/strategy-write-clear-instructions
- https://huggingface.co/tiiuae/falcon-7b-instruct/discussions/1
- https://platform.openai.com/docs/guides/fine-tuning
- https://huggingface.co/datasets/amandakonet/climate_fever_adopted
- https://huggingface.co/amandakonet/climatebert-fact-checking
- https://github.com/openai/tiktoken
- https://openai.com/pricing
- https://huggingface.co/