Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Transformation der Verarbeitung von Finanznachrichten mit LLMs

Neues System nutzt LLMs für genaue Analyse von Finanznachrichten und Stimmungsabgleich.

― 7 min Lesedauer


LLMs verbessern dieLLMs verbessern dieVerarbeitung vonFinanznachrichten.von Finanznachrichten.Ein neuer Ansatz zur genauen Analyse
Inhaltsverzeichnis

Finanznachrichten sind wichtig, um Entscheidungen in der Finanzwelt zu treffen. Aber es ist oft schwer, diese Nachrichten in ein klares Format zu bringen. Dieser Artikel stellt einen neuen Weg vor, mit Finanznachrichten umzugehen, indem grosse Sprachmodelle (LLMs) genutzt werden, um nützliche Informationen aus chaotischen Nachrichtenartikeln zu extrahieren. Wir haben ein System entwickelt, das Unternehmenskennzeichen in Nachrichtenartikeln findet, analysiert, wie positiv oder negativ die Nachrichten für diese Unternehmen sind, und Zusammenfassungen erstellt – alles ohne vorgefertigte Datenfeeds.

Die Herausforderung der Verarbeitung von Finanznachrichten

Finanznachrichten beeinflussen, wie Leute über den Markt denken, und haben Auswirkungen auf Investitionsentscheidungen. Schnelle und präzise Einblicke aus diesen Nachrichten können Investoren und Forschern helfen. Leider ist es schwer, nützliche Informationen aus all diesen unstrukturierten Nachrichtendaten zu ziehen. Einige Gründe dafür sind:

  • Unternehmensnamen zu finden und mit spezifischen Identifikatoren zu verknüpfen, kann knifflig sein.
  • Die rechtlichen Regeln zur Weitergabe von Nachrichteninhalten können einschränken, wie diese Informationen genutzt werden.

Traditionell beziehen Datenanbieter Nachrichten aus Live-Feeds, aber das hat Nachteile. Die Formate dieser Feeds variieren oft, was es schwierig macht, strukturierte Informationen herauszuziehen. Änderungen am Feed können den gesamten Prozess stören und erfordern ständige Updates für mehrere Systeme. Zudem basieren viele Feeds auf vorab getaggten Identifikatoren, was bedeutet, dass nicht alle Quellen effektiv verarbeitet werden können.

Eine neue Lösung mit LLMs

Neuere Verbesserungen in der Verarbeitung natürlicher Sprache (NLP), besonders bei LLMs, geben uns die Möglichkeit, diese Herausforderungen anzugehen. LLMs können Text wie ein Mensch verstehen und generieren, was sie grossartig macht, um strukturierte Informationen aus unstrukturierten Artikeln herauszuziehen.

Die Methode, die wir vorstellen, nutzt LLMs, um Unternehmenskennzeichen in Rohnachrichteninhalten zu finden, die Stimmung zu bewerten und Zusammenfassungen zu erstellen. Das bedeutet, wir können mit mehr Nachrichtenquellen arbeiten und die Menge an nützlichen Informationen, die wir herausbekommen, verbessern.

Häufige Herausforderungen angehen

Es gibt jedoch Herausforderungen, wenn man LLMs mit Finanznachrichten verwendet. Unternehmensnamen, Tickersymbole und andere Referenzdaten können häufig wechseln. Sich nur auf das, was die LLMs aus ihrem Training wissen, zu verlassen, kann zu veralteten oder falschen Informationen führen. Ausserdem kann es kompliziert werden herauszufinden, welches Tickersymbol zu welchem Unternehmen gehört, vor allem bei kleineren oder weniger bekannten Firmen.

Um diese Probleme anzugehen, haben wir eine hybride Methode entwickelt, die das Beste aus dem, was LLMs können, mit einem starken Validierungssystem kombiniert. Dieses System nutzt eine aktualisierte Liste von Ticker-Unternehmen-Verknüpfungen und eine spezielle Methode, um potenzielle Fehler in den LLM-Ausgaben zu überprüfen und zu korrigieren. So stellen wir sicher, dass die Informationen, die wir extrahieren, genau sind und gleichzeitig flexibel bleiben.

Wichtige Beiträge

Unsere Arbeit bietet neue Möglichkeiten zur Verarbeitung von Finanznachrichten mit LLMs. Einige wichtige Aspekte unseres Ansatzes sind:

  1. Eine hybride Methode, die LLMs zur Verarbeitung von Nachrichten einsetzt und ein solides Validierungssystem zur Zuordnung von Unternehmen zu Tickersymbolen hat.
  2. Hohe Genauigkeit bei der Identifikation relevanter Tickersymbole, wobei die meisten Artikel keine fehlenden Tickersymbole aufweisen und einige zusätzliche nützliche Tickersymbole enthalten.
  3. Detaillierte Sentimentanalyse für jedes im Nachrichtenartikel erwähnte Unternehmen, wodurch wir der erste Anbieter sind, der Sentimentdaten auf so spezifischem Niveau für Nachrichtenartikel anbietet.

Das System aufbauen

Datensammlung

Der erste Schritt ist, Finanznachrichten aus einer Vielzahl von Quellen zu sammeln. Wir bekommen einen Live-Nachrichtenfeed, der Artikel von verschiedenen Anbietern enthält. Jeder Artikel hat einen Titel, einen Link, ein Veröffentlichungsdatum und weitere Details.

Erste Verarbeitung mit LLMs

Sobald wir den Artikel haben, machen wir einen ersten Aufruf an das LLM, um wichtige Informationen herauszuziehen. Das LLM wird gebeten, eine strukturierte Ausgabe bereitzustellen, die den Titel, die Zusammenfassung, Schlüsselwörter und relevante Unternehmen mit Sentimentdetails enthält.

Um die Leistung der LLMs zu verbessern, nutzen wir verschiedene Techniken. Zum Beispiel trennen wir den Text des Artikels und die Anweisungen so, dass das LLM besser versteht, was wir wollen. Wir ermutigen das LLM auch, durchzudenken, wie es die Stimmung zuweist, bevor es eine endgültige Klassifikation abgibt.

Validierung von Tickersymbolen

Nachdem wir die ersten Ausgaben erhalten haben, müssen wir die von den LLMs generierten Tickersymbole überprüfen, um sicherzustellen, dass sie korrekt sind. Die generierten Symbole stimmen möglicherweise nicht mit den Namen überein, wenn das LLM ein Tickersymbol "halluziniert". Zur Validierung verwenden wir einen Datensatz, der Unternehmensnamen mit Tickersymbolen verbindet. Wir bitten das LLM zu überprüfen, ob der Unternehmensname, den wir extrahiert haben, mit dem tatsächlichen Unternehmen des Tickers übereinstimmt.

Finde die richtigen Tickersymbole

Für Namen, die nicht übereinstimmen, suchen wir das richtige Tickersymbol aus einer umfassenden Datenbank. Wir wenden einen Algorithmus an, der mehrere Methoden nutzt, um Unternehmensnamen mit Tickersymbolen abzugleichen. Dazu gehört die Vorverarbeitung, um Unternehmensnamen zu bereinigen, indem gängige Wörter entfernt werden, und die Anwendung von Ähnlichkeitsmetriken, um die besten Übereinstimmungen zu finden.

Wenn der Algorithmus ein mögliches Tickersymbol findet, überprüfen wir es erneut mit dem LLM, um sicherzustellen, dass wir die richtige Zuordnung haben. Wenn es bestätigt wird, wird das Tickersymbol verwendet; wenn nicht, wird der Unternehmensname verworfen.

Daten anreichern und endgültige Ausgabe

Nachdem die Tickersymbole validiert sind, bereichern wir die Artikeldaten mit weiteren Details. Wenn wir ein Tickersymbol identifizieren, fügen wir alle damit verbundenen Tickersymbole hinzu, die mit demselben Kernidentifikator assoziiert sind. Das bedeutet, wenn wir eine Aktienklasse identifizieren, können wir auch verwandte Klassen einbeziehen.

Die angereicherten Daten werden dann in einer Datenbank gespeichert und über eine API für weitere Nutzung und Forschung bereitgestellt.

Ergebnisse

Um zu sehen, wie gut unser System funktioniert, haben wir es an 5.530 Nachrichtenartikeln von verschiedenen Verlegern getestet. Wir haben geschaut, wie viele Tickersymbole unser System im Vergleich zu dem, was die Verleger hatten, gefunden hat.

Leistungsbewertung

Bei der Bewertung unseres Systems haben wir festgestellt, dass 90 % der Artikel keine fehlenden Tickersymbole aufwiesen, was darauf hinweist, dass unser System fast alle relevanten Tickersymbole erfolgreich identifiziert hat. Wir haben auch festgestellt, dass während einige Artikel zusätzliche Tickersymbole im Vergleich zu den Verlegern aufwiesen, dies typischerweise von der Gründlichkeit unseres Systems beim Identifizieren verwandter Tickersymbole abhing.

Manuelle Überprüfung

Bei der Überprüfung der wenigen Artikel mit fehlenden Tickersymbolen haben wir festgestellt, dass viele dieser Fälle nicht auf Fehler unseres Systems zurückzuführen waren, sondern auf Unterschiede in der Art und Weise, wie Tickersymbole getaggt wurden. Beispielsweise war es oft besser, ein Tickersymbol, das nur beiläufig erwähnt wurde oder weniger relevant war, nicht zu taggen.

Diskussion und Fazit

Dieser Artikel präsentiert eine neue Methode zur Handhabung von Finanznachrichten, die bedeutende Probleme adressiert, die zuvor die Datenqualität eingeschränkt haben. Durch die Verwendung von LLMs haben wir die Abhängigkeit von vorgefertigten Informationen beseitigt, was die Anzahl der Nachrichtenquellen, mit denen wir arbeiten können, erheblich erhöht.

Unser einzigartiger Beitrag ist die Bereitstellung von Sentimentanalysen auf Ticker-Ebene, was detaillierte Sentiment-Daten für die Nutzer leicht zugänglich macht. Durch die Erstellung prägnanter Zusammenfassungen überwinden wir auch rechtliche Herausforderungen, die die Verbreitung vollständiger Nachrichtenartikel verhindern.

Wir glauben, dass die Erkenntnisse aus diesem neuen Pipeline sowohl Forschern als auch Branchenprofis zugutekommen können. Dieses System öffnet die Tür zu weiteren Entwicklungen in der Anwendung von KI in der Finanzwelt mit dem Potenzial, in Zukunft mehr alternative Datenquellen zu integrieren.

Abschliessend stellt unser LLM-basierter Ansatz einen bedeutenden Schritt nach vorn dar, um Nutzern eine reichhaltige, strukturierte Datenquelle bereitzustellen, die sowohl Marktteilnehmer als auch Forscher gleichermassen unterstützen kann.

Originalquelle

Titel: Extracting Structured Insights from Financial News: An Augmented LLM Driven Approach

Zusammenfassung: Financial news plays a crucial role in decision-making processes across the financial sector, yet the efficient processing of this information into a structured format remains challenging. This paper presents a novel approach to financial news processing that leverages Large Language Models (LLMs) to overcome limitations that previously prevented the extraction of structured data from unstructured financial news. We introduce a system that extracts relevant company tickers from raw news article content, performs sentiment analysis at the company level, and generates summaries, all without relying on pre-structured data feeds. Our methodology combines the generative capabilities of LLMs, and recent prompting techniques, with a robust validation framework that uses a tailored string similarity approach. Evaluation on a dataset of 5530 financial news articles demonstrates the effectiveness of our approach, with 90% of articles not missing any tickers compared with current data providers, and 22% of articles having additional relevant tickers. In addition to this paper, the methodology has been implemented at scale with the resulting processed data made available through a live API endpoint, which is updated in real-time with the latest news. To the best of our knowledge, we are the first data provider to offer granular, per-company sentiment analysis from news articles, enhancing the depth of information available to market participants. We also release the evaluation dataset of 5530 processed articles as a static file, which we hope will facilitate further research leveraging financial news.

Autoren: Rian Dolphin, Joe Dursun, Jonathan Chow, Jarrett Blankenship, Katie Adams, Quinton Pike

Letzte Aktualisierung: 2024-07-22 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.15788

Quell-PDF: https://arxiv.org/pdf/2407.15788

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel