Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Apprendimento automatico

Capire i messaggi nascosti nella lingua

Uno sguardo al linguaggio in codice e alle sue implicazioni nella società.

― 7 leggere min


Decodifica del linguaggioDecodifica del linguaggiocodificatodiscorso politico e sociale.Esaminando significati nascosti nel
Indice

I fischi per cani sono un modo di comunicare che ha significati nascosti, spesso usati per inviare messaggi a gruppi specifici senza allertare il pubblico generale. Anche se a molti possono sembrare innocui, i fischi per cani possono portare messaggi dannosi, specialmente su questioni di razza, classe e politica. Storicamente, questi termini erano comuni nella politica degli Stati Uniti ma recentemente si sono diffusi sui social media. Questo permette agli utenti di esprimere opinioni che potrebbero sfuggire ai sistemi di flagging progettati per catturare discorsi d'odio.

Contesto Storico dei Fischi per Cani

Il termine "fischio per cani" è nato nel campo del discorso politico, in particolare nei periodi in cui il razzismo palese era malvisto, soprattutto dopo il Movimento per i Diritti Civili. I politici hanno cominciato a usare un linguaggio codificato per esprimere pregiudizi razziali senza affrontare reazioni negative. Questo ha permesso loro di comunicare idee discriminatorie mantenendo l'apparenza di non essere razzisti. Col tempo, l'uso dei fischi per cani è evoluto e spesso si adatta ai climi sociali e alle piattaforme attuali, specialmente online.

Il Ruolo dei Grandi Modelli Linguistici (LLM)

I Grandi Modelli Linguistici (LLM) sono sistemi di intelligenza artificiale capaci di comprendere e generare linguaggio umano. In questo contesto, i LLM possono aiutare a identificare e spiegare i fischi per cani analizzando i modelli linguistici. Sono particolarmente utili perché possono elaborare enormi quantità di testo e possono essere addestrati su compiti specifici come il rilevamento del linguaggio codificato.

Importanza della Disambiguazione del significato delle parole

La disambiguazione del significato delle parole è un compito che aiuta a distinguere tra i diversi significati delle parole in base al contesto. Ad esempio, una parola come "soy" potrebbe riferirsi a un prodotto alimentare in una situazione ma potrebbe essere usata in modo offensivo in un'altra. Molti fischi per cani funzionano in questo modo: possono sembrare innocenti a prima vista ma hanno un significato dannoso in contesti specifici. Insegnare ai LLM a disambiguare questi significati è cruciale per identificare efficacemente i fischi per cani.

Il Dataset dei Segnali Silenziosi

Per comprendere meglio e analizzare l'uso dei fischi per cani, è stato creato un dataset noto come Segnali Silenziosi. Questo dataset contiene numerosi esempi di fischi per cani, sia da contesti formali come i documenti del Congresso degli Stati Uniti che da contesti informali come i commenti su Reddit. L'obiettivo del dataset è fornire una risorsa completa per studiare come i fischi per cani siano usati in diversi contesti nel tempo.

Sfide nella Rilevazione dei Fischi per Cani

Una delle principali difficoltà nell'identificare i fischi per cani è la loro sottigliezza e il fatto che molti termini hanno significati comunemente accettati. Ad esempio, la parola "soy" di per sé non segnala nulla di dannoso, ma in determinati contesti può essere usata per insultare un gruppo specifico. I sistemi tradizionali di rilevamento dei discorsi d'odio spesso faticano con queste sfumature, poiché sono progettati per catturare linguaggio palesemente offensivo piuttosto che frasi più sottili e codificate.

Applicazioni nella Ricerca Sociale e Politica

Comprendere i fischi per cani è essenziale per vari campi, inclusi le scienze sociali e gli studi politici. Analizzando come vengono usati i fischi per cani, i ricercatori possono comprendere meglio le dinamiche della discriminazione e come certi gruppi possano usare il linguaggio per manipolare l'opinione pubblica. Questa conoscenza può anche aiutare a creare sistemi di moderazione dei contenuti migliori, garantendo che il linguaggio dannoso venga identificato e trattato in modo appropriato.

Costruzione del Dataset dei Segnali Silenziosi

Il dataset dei Segnali Silenziosi è costruito da fonti di dati pubbliche, principalmente Reddit e documenti del Congresso degli Stati Uniti. Raccogliendo una vasta gamma di esempi, il dataset fornisce una ricca risorsa per studiare l'evoluzione e la prevalenza dei fischi per cani. Questa raccolta include anche informazioni contestuali chiave per ogni voce, permettendo un'analisi più approfondita di come queste frasi operano nel discorso.

Processo di Raccolta Dati

Per creare il dataset, sono stati raccolti migliaia di commenti e trascrizioni dai social media e dagli archivi governativi. Il team di ricerca ha cercato termini specifici noti per essere usati come fischi per cani. Ogni istanza è stata annotata con dettagli aggiuntivi, come il contesto in cui il termine è stato usato, per garantire che i ricercatori potessero interpretare accuratamente i significati.

Sperimentazione con i LLM

Una volta compilato il dataset, vari LLM sono stati messi alla prova per misurare la loro efficacia nel rilevare e spiegare i fischi per cani. Questo ha comportato chiedere ai modelli di analizzare frasi e identificare se contenevano fischi per cani. I modelli sono stati giudicati in base alla loro capacità di identificare e definire correttamente le frasi che incontravano.

Performance dei Modelli

I risultati dei test su diversi modelli hanno mostrato gradi variabili di successo. Alcuni modelli, come GPT-4, hanno funzionato bene nell'identificare i fischi per cani, mentre altri hanno faticato. La ricerca ha evidenziato che, sebbene i LLM possano essere utili per alcuni compiti, non sono ancora completamente affidabili e richiedono ulteriori sviluppi per migliorare la loro precisione nel rilevare il linguaggio codificato più sottile.

Comprendere l'Evoluzione dei Fischi per Cani

Poiché il linguaggio evolve continuamente, i significati dei fischi per cani possono cambiare. Nuove frasi possono emergere che servono agli stessi scopi discriminatori, mentre termini più vecchi possono perdere la loro potenza o essere ridefiniti. Questa adattabilità rende lo studio dei fischi per cani un processo dinamico, poiché i ricercatori devono rimanere aggiornati sulle tendenze attuali nell'uso del linguaggio per identificare e analizzare efficacemente nuove forme di linguaggio codificato.

Il Ruolo dell'Intenzione nei Fischi per Cani

Un altro aspetto essenziale di questa ricerca è la nozione di intenzione. Quando un termine viene usato, può portare un significato dannoso, ma l'intenzione del parlante può variare. Alcune persone possono usare certe frasi senza essere consapevoli dei loro significati più profondi, mentre altre possono scegliere deliberatamente i fischi per cani per trasmettere discriminazione. Differenziare tra uso intenzionale e non intenzionale è importante per analizzare accuratamente l'impatto e le implicazioni di queste frasi.

Utilizzo del Dataset

Il dataset dei Segnali Silenziosi serve come uno strumento prezioso per studi futuri sui fischi per cani e le loro implicazioni. I ricercatori possono usarlo per tracciare cambiamenti nel linguaggio, analizzare l'impatto di eventi politici e sociali sul discorso e studiare l'efficacia dei sistemi attuali di rilevamento del discorso d'odio.

Importanza della Ricerca

Gli sforzi per categorizzare e comprendere i fischi per cani rappresentano un passo significativo avanti nell'affrontare il discorso d'odio e la discriminazione. Utilizzando tecnologie avanzate come i LLM e costruendo dataset completi, i ricercatori possono discernere meglio il linguaggio sottile ma dannoso che spesso rimane incontrollato. Questa ricerca promette di migliorare i sistemi di moderazione del linguaggio e informare il discorso pubblico.

Il Futuro della Ricerca sui Fischi per Cani

Man mano che la società continua a confrontarsi con questioni di odio, discriminazione e manipolazione politica, lo studio dei fischi per cani rimarrà cruciale. Le ricerche future possono espandere i metodi per rilevare il linguaggio codificato, affinare i dataset per includere frasi emergenti e esplorare le implicazioni socio-culturali dell'uso del linguaggio nel tempo.

Conclusione

L'indagine sui fischi per cani evidenzia l'importanza della chiarezza e dell'intenzione nel linguaggio. Sebbene il dataset dei Segnali Silenziosi offra una solida base per studiare questi messaggi sottili, saranno necessarie ulteriori iniziative per tenere il passo con l'evoluzione della comunicazione. Sfruttando la tecnologia moderna e metodi analitici rigorosi, possiamo lavorare verso una comprensione più profonda dei significati nascosti nel nostro linguaggio e del loro impatto sulla società.

Fonte originale

Titolo: Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles

Estratto: A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.

Autori: Julia Kruk, Michela Marchini, Rijul Magu, Caleb Ziems, David Muchlinski, Diyi Yang

Ultimo aggiornamento: 2024-06-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.06840

Fonte PDF: https://arxiv.org/pdf/2406.06840

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili