Estraendo Idee Chiave dai Post di MeToo
Un metodo per identificare elementi cruciali nelle storie dei sopravvissuti per un supporto migliore.
― 9 leggere min
Indice
I Sopravvissuti a molestie sessuali spesso discutono delle loro esperienze sui social media. Condividono le loro emozioni e cercano Consigli. I post su piattaforme come Reddit possono essere lunghi e complicati. Questi post di solito includono tre parti principali: (i) una descrizione di un episodio di molestie sessuali, (ii) i suoi Effetti sulla persona che lo ha vissuto, e (iii) il consiglio che stanno cercando.
Ci riferiamo a questi post dettagliati come post MeToo. Tuttavia, non tutti sono etichettati come tali o si trovano in gruppi specifici su Reddit. Per qualcuno che cerca di aiutare, come un consulente o un amico, comprendere le esigenze di un sopravvissuto da questi post lunghi può essere difficile e richiedere tempo.
Per affrontare questo problema, abbiamo sviluppato un metodo per estrarre informazioni chiave da questi lunghi post. Il nostro obiettivo è identificare Frasi che spiegano cosa è successo, come ha influenzato il sopravvissuto, e che tipo di consiglio stanno chiedendo.
Nel testare il nostro metodo con una specifica raccolta di post MeToo, il nostro modello ha raggiunto un tasso di successo di circa l'82%. Inoltre, abbiamo raccolto un dataset composto da quasi 9000 frasi provenienti da Reddit. Utilizzando uno strumento progettato per analizzare il linguaggio scritto, abbiamo potuto studiare come diversi tipi di frasi esprimono varie emozioni e toni.
Negli Stati Uniti, molte persone hanno riferito di aver subito qualche forma di molestie sessuali o aggressione nella loro vita. Il movimento noto come MeToo è iniziato quando un attivista coniò il termine per incoraggiare i sopravvissuti a condividere le loro esperienze. Questo movimento mira a promuovere la trasparenza riguardo alle molestie sessuali e a ricordare ai sopravvissuti che non sono soli. Reddit, in particolare, ospita numerosi sottogruppi dove i sopravvissuti possono condividere le loro storie.
La ricerca esistente si concentra principalmente sulla classificazione di questi post in categorie, come identificare storie personali o riconoscere il tipo di molestie descritte. Sebbene sia essenziale identificare post rilevanti per aiutare i sopravvissuti, sapere semplicemente che un certo post è importante non è sufficiente. Gli aiutanti devono comprendere la situazione, capire come l'episodio ha influenzato il sopravvissuto e riconoscere il consiglio richiesto.
Dato che Reddit consente post lunghi, leggere ogni singolo post in dettaglio può essere difficile per chi cerca di aiutare. Il nostro approccio mira a alleggerire questo carico estraendo automaticamente frasi pertinenti da questi lunghi scritti.
Categorie di Frasi
Categoriamo le frasi che estraiamo in tre tipi:
- Frasi che spiegano l'episodio di molestie sessuali.
- Frasi che descrivono gli effetti dell'episodio sul sopravvissuto.
- Frasi che esprimono il consiglio cercato.
Ecco un semplice esempio per illustrare le categorie. Un sopravvissuto potrebbe dire qualcosa del tipo: "Al lavoro, un collega continuava a toccarmi la spalla, e mi faceva sentire a disagio." Questa frase descrive la molestia. Un'altra potrebbe essere: "Mi sento ansioso e insicuro su come gestire questa situazione," mostrando gli effetti emotivi. Infine, una frase come: "Cosa dovrei fare?" chiede consiglio.
Quando abbiamo testato il nostro modello di estrazione, abbiamo scoperto che identificava e separava efficacemente le frasi in queste categorie da post campione.
Domande di Ricerca
Ci siamo concentrati su due domande di ricerca principali nel nostro studio.
- Come possiamo estrarre automaticamente le tre categorie di frasi dai post MeToo? Farlo permetterà a chiunque voglia aiutare di capire la situazione del sopravvissuto senza leggere l'intero post.
- Quali schemi linguistici sono presenti in queste frasi e quali intuizioni psicologiche possono fornire sulle emozioni dei sopravvissuti?
Rispondendo a queste domande, puntiamo a sviluppare uno strumento pratico per chiunque voglia offrire supporto ai sopravvissuti.
Contributi e Novità
Questa ricerca offre diversi contributi importanti.
Creazione di Dataset: Abbiamo costruito un dataset di quasi 9000 frasi etichettate secondo le tre categorie che abbiamo identificato. Questo non è stato un compito facile poiché ha richiesto considerazione attenta e un approccio riflessivo all'etichettatura.
Modello di Linguaggio Naturale: Abbiamo anche creato un modello in grado di estrarre frasi dai lunghi post MeToo. Questo modello utilizza tecniche avanzate di elaborazione del linguaggio per raggiungere risultati impressionanti.
Analisi Linguistica: Applicando un toolkit specifico per l'analisi linguistica, abbiamo esplorato come le frasi variano nel tono e nell'espressione emotiva attraverso le tre categorie. Questo aiuta a rivelare intuizioni psicologiche più profonde relative alle esperienze descritte nei post MeToo.
In generale, crediamo che il nostro lavoro sia uno dei primi in quest'area che si concentra sull'estrazione di frasi dai lunghi post, aggiungendo alle discussioni esistenti e alla ricerca sul tema.
Risultati Chiave
Il nostro metodo di estrazione delle frasi ha ottenuto un punteggio dell'82% nelle prove. Questo indica che possiamo identificare con successo frasi rilevanti per gli aiutanti che cercano di comprendere gli incidenti, gli impatti emotivi e le richieste di consiglio.
Quando abbiamo analizzato il linguaggio usato nel dataset raccolto, abbiamo fatto alcune osservazioni interessanti:
- Le frasi che descrivono gli effetti emotivi del sopravvissuto erano più negative rispetto a quelle che descrivevano gli incidenti o chiedevano consigli.
- Le frasi richieste per il consiglio tendevano ad avere un tono più positivo in generale.
- All'interno della categoria degli effetti emotivi, i sentimenti di ansia erano prominenti, seguiti dalla tristezza e da emozioni positive.
Per convalidare ulteriormente i nostri risultati, abbiamo condotto un piccolo studio qualitativo. Per 17 post su 20 esaminati, le frasi estratte hanno fornito approfondimenti chiari sugli incidenti, effetti emotivi e consigli richiesti. Nella maggior parte dei casi, siamo stati in grado di formulare risposte utili basate sulle informazioni estratte.
Sviluppo del Dataset e del Modello
Nel sviluppare il nostro modello di estrazione delle frasi, abbiamo trattato il compito come una sorta di classificazione. Questo significa che puntavamo a etichettare ogni frase come appartenente a una o più categorie.
Per cominciare, abbiamo raccolto oltre 9000 post MeToo da Reddit e filtrato contenuti rilevanti. Abbiamo selezionato solo i post che includevano esperienze personali dei sopravvissuti, piuttosto che opinioni generiche o articoli di notizie.
Da questi post filtrati, abbiamo generato un gran numero di frasi candidate per ciascuna delle nostre tre categorie. Questo ha comportato la ricerca di alcune parole chiave che compaiono frequentemente nelle discussioni MeToo. Il nostro obiettivo era creare un dataset ricco da cui il modello potesse apprendere.
Approccio di Apprendimento Attivo
Abbiamo usato una strategia di apprendimento attivo per rifinire il nostro dataset e migliorare il nostro modello. Questo metodo prevede diversi passaggi:
- Dataset Iniziale: Abbiamo creato un dataset iniziale etichettato composto da frasi candidate.
- Addestramento del Modello: Abbiamo addestrato il nostro modello sul dataset iniziale e fatto previsioni su nuove frasi non etichettate.
- Etichettatura Manuale: Abbiamo esaminato manualmente e etichettato frasi selezionate che il modello aveva previsto per minimizzare il bias.
- Miglioramento Iterativo: Questo processo è stato ripetuto più volte per migliorare continuamente il dataset e rifinire il modello.
Alla fine di questo processo, avevamo un dataset completo che permetteva al nostro modello di estrarre con successo frasi chiave dai lunghi post MeToo.
Analisi Qualitativa
Dopo aver costruito il nostro modello finale, lo abbiamo applicato a una selezione casuale di 20 post lunghi. Abbiamo suddiviso i post in frasi, utilizzato il nostro modello per estrarre frasi pertinenti e verificato se il testo estratto aiutasse a comprendere chiaramente gli incidenti, gli effetti e i consigli.
Per 17 casi su 20, le frasi estratte erano coerenti e fornivano approfondimenti preziosi. Questo significa che individui o organizzazioni che vogliono fornire supporto possono farlo più facilmente utilizzando il nostro metodo.
Intuizioni Psicologiche
Utilizzando lo strumento di analisi del linguaggio, abbiamo esaminato attentamente le frasi del nostro dataset. Abbiamo guardato a vari toni emotivi, come se esprimessero sentimenti negativi o positivi, e quanto fossero emotive le frasi.
Analisi Riassuntiva
Nella nostra analisi, abbiamo visto tendenze simili attraverso tutte e tre le categorie di frasi. Tendevano a mostrare punteggi bassi per il pensiero logico e la fiducia. Questo suggerisce che i sopravvissuti potrebbero non sentirsi potenziati o sicuri quando condividono le loro esperienze.
Tuttavia, il punteggio di autenticità era alto, indicando che i sopravvissuti condividevano apertamente le loro esperienze senza trattenersi.
Analisi Affettiva
Abbiamo anche analizzato gli aspetti emotivi delle frasi estratte. Le frasi incentrate sugli effetti avevano spesso un tono più negativo rispetto a quelle che descrivevano incidenti o richieste di consigli.
Interessantemente, le frasi che cercavano consigli a volte esprimevano auto-colpevolezza, mostrando che i sopravvissuti potrebbero mettere in discussione le proprie azioni. Nonostante ciò, erano anche presenti toni positivi nelle frasi che richiedevano consigli.
Lavori Correlati
Sebbene numerosi studi abbiano esaminato i post MeToo, pochi si sono concentrati sull'estrazione di informazioni a livello di frase. La maggior parte della ricerca si è concentrata sulla classificazione dei post in categorie ampie o sull'analisi di messaggi brevi su piattaforme come Twitter.
Il nostro lavoro si distingue perché mira a interpretare narrazioni più lunghe condivise su piattaforme come Reddit, affrontando una lacuna specifica nella letteratura esistente. Estraendo dettagli significativi, possiamo comprendere meglio le sfumature dell'esperienza di ogni sopravvissuto.
Conclusione
In sintesi, la nostra ricerca evidenzia l'importanza di estrarre informazioni in modo efficiente dai lunghi post MeToo. Utilizzando un approccio mirato, abbiamo creato un modello in grado di identificare frasi cruciali che possono aiutare gli altri a comprendere le esigenze di un sopravvissuto senza dover leggere l'intero post.
Questo metodo può potenzialmente accelerare il processo di supporto, rendendo più facile per gli aiutanti rispondere in modo efficace. I risultati della nostra analisi psicologica forniscono anche preziose intuizioni sulle esperienze emotive dei sopravvissuti, che possono essere utili per chiunque voglia offrire supporto in modo compassionevole.
Limitazioni e Futuri Sviluppi
Sebbene il nostro studio offra importanti intuizioni, presenta diverse limitazioni che indicano direzioni future per la ricerca:
Problemi di Coerenza: Alcune frasi estratte potrebbero mancare di coerenza. I futuri miglioramenti potrebbero concentrarsi sull'aumento del processo di estrazione per includere un contesto aggiuntivo.
Portata del Dataset: Il nostro modello è stato addestrato solo su frasi provenienti da sottogruppi specifici. Speriamo di espandere la sua applicazione per includere una gamma più ampia di discussioni correlate al MeToo.
Risposte Automatizzate: Iterazioni future potrebbero esplorare anche la capacità di generare risposte automatizzate basate sulle categorie di frasi estratte. Questo potrebbe facilitare un supporto immediato per i sopravvissuti.
Applicazioni più Ampie: Infine, speriamo che i nostri risultati possano informare nuovi approcci per identificare e rispondere a casi di molestie sessuali in vari contesti.
Considerazioni Etiche
La natura della nostra ricerca solleva importanti questioni etiche. Abbiamo raccolto dati da post pubblici, ma non abbiamo ottenuto consenso diretto dai sopravvissuti coinvolti. Alcuni potrebbero sentirsi a disagio se contattati per il consenso dopo aver condiviso storie così personali.
Oltre a garantire l'anonimato e rimuovere qualsiasi informazione identificativa dai nostri esempi, abbiamo anche considerato la sensibilità del materiale durante l'etichettatura delle frasi. Tutto il lavoro è stato svolto dagli autori per evitare di angosciare volontari o lavoratori che potrebbero aver avuto esperienze simili.
Riconoscendo il potenziale di fraintendimento in narrazioni così sensibili, rimaniamo cauti nell'affermare l'assoluta accuratezza del nostro processo di etichettatura. Il nostro obiettivo è utilizzare questa ricerca in modo responsabile per supportare i sopravvissuti mantenendo standard etici nella raccolta e interpretazione dei dati.
Titolo: Extracting Incidents, Effects, and Requested Advice from MeToo Posts
Estratto: Survivors of sexual harassment frequently share their experiences on social media, revealing their feelings and emotions and seeking advice. We observed that on Reddit, survivors regularly share long posts that describe a combination of (i) a sexual harassment incident, (ii) its effect on the survivor, including their feelings and emotions, and (iii) the advice being sought. We term such posts MeToo posts, even though they may not be so tagged and may appear in diverse subreddits. A prospective helper (such as a counselor or even a casual reader) must understand a survivor's needs from such posts. But long posts can be time-consuming to read and respond to. Accordingly, we address the problem of extracting key information from a long MeToo post. We develop a natural language-based model to identify sentences from a post that describe any of the above three categories. On ten-fold cross-validation of a dataset, our model achieves a macro F1 score of 0.82. In addition, we contribute MeThree, a dataset comprising 8,947 labeled sentences extracted from Reddit posts. We apply the LIWC-22 toolkit on MeThree to understand how different language patterns in sentences of the three categories can reveal differences in emotional tone, authenticity, and other aspects.
Autori: Vaibhav Garg, Jiaqing Yuan, Rujie Xi, Munindar P. Singh
Ultimo aggiornamento: 2023-03-19 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.10573
Fonte PDF: https://arxiv.org/pdf/2303.10573
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.nsvrc.org/statistics
- https://www.reddit.com/r/meToo/
- https://www.reddit.com/r/SexualHarassment/
- https://www.reddit.com/r/sexualassault/
- https://www.eeoc.gov/sexual-harassment
- https://psaw.readthedocs.io/en/latest/
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html
- https://www.nltk.org/api/nltk.tokenize.html
- https://pypi.org/project/PyDictionary/
- https://pytorch.org/
- https://nlp.stanford.edu/projects/glove/
- https://www.safecity.in/