Analizzando prodotti di machine learning open-source

Indice

Sfide nello Studio dei Prodotti ML
Analizzando il Dataset
Riepilogo dei Risultati
Opportunità Educative e di Ricerca
Conclusione
Fonte originale
Link di riferimento

Il machine learning (ML) sta diventando una parte comune di molti prodotti software. Questo include funzionalità come il riconoscimento facciale nelle app o raccomandazioni sui social media. Tuttavia, rendere il ML parte di un prodotto non significa solo costruire il modello; ci sono molti altri aspetti da considerare, come la progettazione del sistema, l'esperienza utente, la sicurezza e i test. Questo rende difficile per gli sviluppatori trasformare i progetti di ML in prodotti finiti. Hanno bisogno di supporto per affrontare queste sfide.

Sfortunatamente, i ricercatori spesso trovano difficile studiare prodotti ML nel mondo reale poiché di solito non hanno accesso al codice reale dell'industria. Invece, si affidano a interviste o sondaggi con persone che lavorano nel settore. Alcuni ricercatori possono lavorare all'interno di un'azienda e avere un accesso migliore, ma sono per lo più limitati a quella specifica azienda e alle sue pratiche. Questa mancanza di accesso ai veri prodotti ML rallenta la ricerca e porta a molti studi che identificano problemi senza offrire soluzioni concrete.

Il campo dell'ingegneria del software ha guadagnato molto dai software open-source. I progetti open-source permettono ai ricercatori di analizzare e imparare da esempi reali, il che può portare a nuove innovazioni che potrebbero essere adottate nel settore. Proprio come nel settore dell'ingegneria software, avere prodotti ML open-source disponibili potrebbe creare nuove opportunità per la ricerca e l'educazione.

In questo studio, puntiamo a identificare una raccolta di prodotti ML open-source per aiutare a far progredire la comprensione e lo Sviluppo di software che integra il ML.

Sfide nello Studio dei Prodotti ML

Alcuni tentativi passati di studiare progetti ML open-source spesso si concentrano solo su uno o due esempi specifici o usano dati che non sono rappresentativi dei prodotti ML reali. Molti studi menzionano FaceSwap come prodotto ML open-source, ma è spesso l'unico analizzato. C'è anche un dataset con migliaia di progetti etichettati come "ML applicato", ma la maggior parte di questi non sono veri prodotti; includono librerie, tutorial e altri esempi di minor valore.

Il nostro studio ha due obiettivi principali: prima di tutto, definire e trovare prodotti ML che vadano oltre FaceSwap e, in secondo luogo, analizzare la nostra raccolta di prodotti per ottenere informazioni utili. Il primo obiettivo si è rivelato più difficile del previsto a causa del numero di progetti non correlati esistenti, rendendo difficile identificare i veri prodotti ML.

Per raccogliere prodotti ML open-source di qualità, abbiamo adottato un approccio più strategico rispetto agli studi precedenti. Abbiamo compilato una raccolta di 262 repository da GitHub. Anche se questo numero è inferiore rispetto ai dataset precedenti, include un numero significativo di prodotti ML con vere storie di sviluppo che possono fornire informazioni non raggiungibili tramite interviste o sondaggi.

Analizzando il Dataset

Una volta avuto il nostro dataset, abbiamo puntato a rispondere a diverse domande di ricerca chiave riguardanti lo sviluppo di prodotti ML. Invece di condurre un'analisi superficiale, ci siamo concentrati su un esame dettagliato di un campione di 30 prodotti dal nostro dataset. Le nostre domande di ricerca esploravano vari aspetti come Collaborazione, Architettura, ordine di sviluppo, test, operazioni e pratiche di IA responsabile.

Collaborazione nei Prodotti ML

Per capire come i team collaborano sui prodotti ML open-source, abbiamo esaminato aspetti come i background dei collaboratori e come sono suddivisi i compiti. Abbiamo scoperto che molti prodotti sono sviluppati da un numero ridotto di collaboratori, spesso con un solo collaboratore principale. La maggior parte dei collaboratori proviene da un background di ingegneria del software, con meno partecipanti provenienti dalla scienza dei dati.

Interessantemente, non c'era una chiara separazione dei compiti; molti collaboratori lavoravano sia su codice ML che non ML, indipendentemente dalla loro esperienza. Questa mancanza di confini può portare a problemi comunemente visti in contesti industriali, come il disallineamento delle competenze e delle responsabilità.

Architettura dei Prodotti ML

Per quanto riguarda come vengono costruiti i prodotti ML, abbiamo scoperto che circa la metà dei prodotti campionati dipende da modelli preesistenti di fonti terze. Tuttavia, l'importanza del componente ML varia notevolmente tra i prodotti. Per alcuni, il modello ML è essenziale, mentre per altri aggiunge solo funzionalità opzionali.

Inoltre, abbiamo scoperto che l'automazione delle attività utilizzando le previsioni del modello non è comune. Molti prodotti richiedono intervento umano per prendere decisioni basate sui risultati del modello. I risultati dei modelli vengono spesso forniti direttamente agli utenti senza molta elaborazione o verifica di accuratezza.

Traiettoria di Sviluppo dei Prodotti ML

Il percorso di sviluppo di questi prodotti rivela un'altra tendenza interessante. La maggior parte dei prodotti segue un approccio "product-first", il che significa che vengono creati senza un componente ML ben definito in mente e poi successivamente adattati per includere funzionalità ML. Abbiamo notato che quando il ML è fondamentale per lo scopo del prodotto, il modello viene tipicamente sviluppato per primo.

Test e Valutazione dei Modelli

I nostri risultati hanno anche evidenziato un significativo divario nelle pratiche di test. Anche se molti prodotti hanno test per la funzionalità generale del software, il test dei modelli è molto meno comune. Solo pochi prodotti implementano meccanismi per valutare e addestrare nuovamente i modelli basati su nuovi dati o feedback degli utenti.

Pratiche di IA Responsabile

Abbiamo esaminato l'adozione di pratiche di IA responsabile, come garantire equità e documentare i modelli ML. Sfortunatamente, le prove di queste pratiche erano minime. Pochi prodotti hanno incorporato alcuna forma di documentazione riguardo ai modelli o ai dati utilizzati.

Riepilogo dei Risultati

In sintesi, la nostra ricerca ha trovato una varietà di pratiche nello sviluppo di prodotti ML open-source. Le osservazioni chiave includono:

Molti prodotti hanno un solo collaboratore principale, principalmente con background di ingegneria del software.
C'è poca separazione delle responsabilità in termini di lavoro ML e non ML.
Circa la metà dei prodotti si basa su modelli ML di terze parti, con gradi variabili di importanza.
L'automazione delle attività basate sulle previsioni del modello è rara, e molti prodotti presentano risultati grezzi delle previsioni agli utenti.
L'approccio di sviluppo "product-first" è più comune, specialmente quando il ML non è centrale per lo scopo del prodotto.
Il test dei modelli non è ampiamente praticato, e la documentazione riguardante i modelli è per lo più assente.
Le pratiche di IA responsabile non sono evidenti nei prodotti analizzati.

Opportunità Educative e di Ricerca

Questo dataset di prodotti ML open-source ha un grande potenziale per servire come strumento educativo per studenti e professionisti. Sia i grandi che i piccoli prodotti nel dataset possono illustrare le migliori pratiche nello sviluppo di ML, con esempi che possono aiutare nell'apprendimento.

Inoltre, i nostri risultati aprono numerose strade per future ricerche. Comprendere le dinamiche di team e le sfide all'interno della collaborazione può portare a pratiche migliorate. Indagare su tattiche architettoniche efficaci per integrare modelli ML può aiutare a identificare modi migliori per gestire e sviluppare questi prodotti.

In aggiunta, valutare nuovi strumenti in ambienti reali può guidare miglioramenti nella documentazione e nelle pratiche di test dei modelli. Le intuizioni ottenute da questo dataset possono aiutare a colmare il divario tra ricerca accademica e applicazione pratica nello sviluppo software.

Conclusione

La raccolta di prodotti ML open-source fornisce una risorsa preziosa sia per i ricercatori che per i professionisti. I risultati della nostra analisi fanno luce sulla situazione attuale dello sviluppo di prodotti ML e evidenziano aree in cui sono necessari miglioramenti. Condividendo questo dataset e le intuizioni ottenute, speriamo di contribuire alla conversazione in corso sulle pratiche efficaci di ML e sul futuro dell'ingegneria del software in questo campo in rapida evoluzione.

Analizzando prodotti di machine learning open-source

Uno studio sulla situazione attuale dello sviluppo di prodotti di ML open-source.

Sfide nello Studio dei Prodotti ML

Analizzando il Dataset

Collaborazione nei Prodotti ML

Architettura dei Prodotti ML

Traiettoria di Sviluppo dei Prodotti ML

Test e Valutazione dei Modelli

Pratiche di IA Responsabile

Riepilogo dei Risultati

Opportunità Educative e di Ricerca

Conclusione

Link di riferimento

Argomenti citati

Analizzando prodotti di machine learning open-source

Uno studio sulla situazione attuale dello sviluppo di prodotti di ML open-source.

#Sfide nello Studio dei Prodotti ML

#Analizzando il Dataset

#Collaborazione nei Prodotti ML

#Architettura dei Prodotti ML

#Traiettoria di Sviluppo dei Prodotti ML

#Test e Valutazione dei Modelli

#Pratiche di IA Responsabile

#Riepilogo dei Risultati

#Opportunità Educative e di Ricerca

#Conclusione

Link di riferimento

Argomenti citati

Sfide nello Studio dei Prodotti ML

Analizzando il Dataset

Collaborazione nei Prodotti ML

Architettura dei Prodotti ML

Traiettoria di Sviluppo dei Prodotti ML

Test e Valutazione dei Modelli

Pratiche di IA Responsabile

Riepilogo dei Risultati

Opportunità Educative e di Ricerca

Conclusione