Capire i messaggi nascosti nella lingua
Uno sguardo al linguaggio in codice e alle sue implicazioni nella società.
― 7 leggere min
Indice
- Contesto Storico dei Fischi per Cani
- Il Ruolo dei Grandi Modelli Linguistici (LLM)
- Importanza della Disambiguazione del significato delle parole
- Il Dataset dei Segnali Silenziosi
- Sfide nella Rilevazione dei Fischi per Cani
- Applicazioni nella Ricerca Sociale e Politica
- Costruzione del Dataset dei Segnali Silenziosi
- Sperimentazione con i LLM
- Comprendere l'Evoluzione dei Fischi per Cani
- Il Ruolo dell'Intenzione nei Fischi per Cani
- Utilizzo del Dataset
- Importanza della Ricerca
- Il Futuro della Ricerca sui Fischi per Cani
- Conclusione
- Fonte originale
- Link di riferimento
I fischi per cani sono un modo di comunicare che ha significati nascosti, spesso usati per inviare messaggi a gruppi specifici senza allertare il pubblico generale. Anche se a molti possono sembrare innocui, i fischi per cani possono portare messaggi dannosi, specialmente su questioni di razza, classe e politica. Storicamente, questi termini erano comuni nella politica degli Stati Uniti ma recentemente si sono diffusi sui social media. Questo permette agli utenti di esprimere opinioni che potrebbero sfuggire ai sistemi di flagging progettati per catturare discorsi d'odio.
Contesto Storico dei Fischi per Cani
Il termine "fischio per cani" è nato nel campo del discorso politico, in particolare nei periodi in cui il razzismo palese era malvisto, soprattutto dopo il Movimento per i Diritti Civili. I politici hanno cominciato a usare un linguaggio codificato per esprimere pregiudizi razziali senza affrontare reazioni negative. Questo ha permesso loro di comunicare idee discriminatorie mantenendo l'apparenza di non essere razzisti. Col tempo, l'uso dei fischi per cani è evoluto e spesso si adatta ai climi sociali e alle piattaforme attuali, specialmente online.
Il Ruolo dei Grandi Modelli Linguistici (LLM)
I Grandi Modelli Linguistici (LLM) sono sistemi di intelligenza artificiale capaci di comprendere e generare linguaggio umano. In questo contesto, i LLM possono aiutare a identificare e spiegare i fischi per cani analizzando i modelli linguistici. Sono particolarmente utili perché possono elaborare enormi quantità di testo e possono essere addestrati su compiti specifici come il rilevamento del linguaggio codificato.
Importanza della Disambiguazione del significato delle parole
La disambiguazione del significato delle parole è un compito che aiuta a distinguere tra i diversi significati delle parole in base al contesto. Ad esempio, una parola come "soy" potrebbe riferirsi a un prodotto alimentare in una situazione ma potrebbe essere usata in modo offensivo in un'altra. Molti fischi per cani funzionano in questo modo: possono sembrare innocenti a prima vista ma hanno un significato dannoso in contesti specifici. Insegnare ai LLM a disambiguare questi significati è cruciale per identificare efficacemente i fischi per cani.
Il Dataset dei Segnali Silenziosi
Per comprendere meglio e analizzare l'uso dei fischi per cani, è stato creato un dataset noto come Segnali Silenziosi. Questo dataset contiene numerosi esempi di fischi per cani, sia da contesti formali come i documenti del Congresso degli Stati Uniti che da contesti informali come i commenti su Reddit. L'obiettivo del dataset è fornire una risorsa completa per studiare come i fischi per cani siano usati in diversi contesti nel tempo.
Sfide nella Rilevazione dei Fischi per Cani
Una delle principali difficoltà nell'identificare i fischi per cani è la loro sottigliezza e il fatto che molti termini hanno significati comunemente accettati. Ad esempio, la parola "soy" di per sé non segnala nulla di dannoso, ma in determinati contesti può essere usata per insultare un gruppo specifico. I sistemi tradizionali di rilevamento dei discorsi d'odio spesso faticano con queste sfumature, poiché sono progettati per catturare linguaggio palesemente offensivo piuttosto che frasi più sottili e codificate.
Applicazioni nella Ricerca Sociale e Politica
Comprendere i fischi per cani è essenziale per vari campi, inclusi le scienze sociali e gli studi politici. Analizzando come vengono usati i fischi per cani, i ricercatori possono comprendere meglio le dinamiche della discriminazione e come certi gruppi possano usare il linguaggio per manipolare l'opinione pubblica. Questa conoscenza può anche aiutare a creare sistemi di moderazione dei contenuti migliori, garantendo che il linguaggio dannoso venga identificato e trattato in modo appropriato.
Costruzione del Dataset dei Segnali Silenziosi
Il dataset dei Segnali Silenziosi è costruito da fonti di dati pubbliche, principalmente Reddit e documenti del Congresso degli Stati Uniti. Raccogliendo una vasta gamma di esempi, il dataset fornisce una ricca risorsa per studiare l'evoluzione e la prevalenza dei fischi per cani. Questa raccolta include anche informazioni contestuali chiave per ogni voce, permettendo un'analisi più approfondita di come queste frasi operano nel discorso.
Processo di Raccolta Dati
Per creare il dataset, sono stati raccolti migliaia di commenti e trascrizioni dai social media e dagli archivi governativi. Il team di ricerca ha cercato termini specifici noti per essere usati come fischi per cani. Ogni istanza è stata annotata con dettagli aggiuntivi, come il contesto in cui il termine è stato usato, per garantire che i ricercatori potessero interpretare accuratamente i significati.
Sperimentazione con i LLM
Una volta compilato il dataset, vari LLM sono stati messi alla prova per misurare la loro efficacia nel rilevare e spiegare i fischi per cani. Questo ha comportato chiedere ai modelli di analizzare frasi e identificare se contenevano fischi per cani. I modelli sono stati giudicati in base alla loro capacità di identificare e definire correttamente le frasi che incontravano.
Performance dei Modelli
I risultati dei test su diversi modelli hanno mostrato gradi variabili di successo. Alcuni modelli, come GPT-4, hanno funzionato bene nell'identificare i fischi per cani, mentre altri hanno faticato. La ricerca ha evidenziato che, sebbene i LLM possano essere utili per alcuni compiti, non sono ancora completamente affidabili e richiedono ulteriori sviluppi per migliorare la loro precisione nel rilevare il linguaggio codificato più sottile.
Comprendere l'Evoluzione dei Fischi per Cani
Poiché il linguaggio evolve continuamente, i significati dei fischi per cani possono cambiare. Nuove frasi possono emergere che servono agli stessi scopi discriminatori, mentre termini più vecchi possono perdere la loro potenza o essere ridefiniti. Questa adattabilità rende lo studio dei fischi per cani un processo dinamico, poiché i ricercatori devono rimanere aggiornati sulle tendenze attuali nell'uso del linguaggio per identificare e analizzare efficacemente nuove forme di linguaggio codificato.
Il Ruolo dell'Intenzione nei Fischi per Cani
Un altro aspetto essenziale di questa ricerca è la nozione di intenzione. Quando un termine viene usato, può portare un significato dannoso, ma l'intenzione del parlante può variare. Alcune persone possono usare certe frasi senza essere consapevoli dei loro significati più profondi, mentre altre possono scegliere deliberatamente i fischi per cani per trasmettere discriminazione. Differenziare tra uso intenzionale e non intenzionale è importante per analizzare accuratamente l'impatto e le implicazioni di queste frasi.
Utilizzo del Dataset
Il dataset dei Segnali Silenziosi serve come uno strumento prezioso per studi futuri sui fischi per cani e le loro implicazioni. I ricercatori possono usarlo per tracciare cambiamenti nel linguaggio, analizzare l'impatto di eventi politici e sociali sul discorso e studiare l'efficacia dei sistemi attuali di rilevamento del discorso d'odio.
Importanza della Ricerca
Gli sforzi per categorizzare e comprendere i fischi per cani rappresentano un passo significativo avanti nell'affrontare il discorso d'odio e la discriminazione. Utilizzando tecnologie avanzate come i LLM e costruendo dataset completi, i ricercatori possono discernere meglio il linguaggio sottile ma dannoso che spesso rimane incontrollato. Questa ricerca promette di migliorare i sistemi di moderazione del linguaggio e informare il discorso pubblico.
Il Futuro della Ricerca sui Fischi per Cani
Man mano che la società continua a confrontarsi con questioni di odio, discriminazione e manipolazione politica, lo studio dei fischi per cani rimarrà cruciale. Le ricerche future possono espandere i metodi per rilevare il linguaggio codificato, affinare i dataset per includere frasi emergenti e esplorare le implicazioni socio-culturali dell'uso del linguaggio nel tempo.
Conclusione
L'indagine sui fischi per cani evidenzia l'importanza della chiarezza e dell'intenzione nel linguaggio. Sebbene il dataset dei Segnali Silenziosi offra una solida base per studiare questi messaggi sottili, saranno necessarie ulteriori iniziative per tenere il passo con l'evoluzione della comunicazione. Sfruttando la tecnologia moderna e metodi analitici rigorosi, possiamo lavorare verso una comprensione più profonda dei significati nascosti nel nostro linguaggio e del loro impatto sulla società.
Titolo: Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles
Estratto: A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.
Autori: Julia Kruk, Michela Marchini, Rijul Magu, Caleb Ziems, David Muchlinski, Diyi Yang
Ultimo aggiornamento: 2024-06-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.06840
Fonte PDF: https://arxiv.org/pdf/2406.06840
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.