Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Analyser les rapports d'entreprise : les mots comptent plus

Cette étude relie l'analyse des mots dans les rapports à la performance ESG.

― 10 min lire


Mots vs. Chiffres dansMots vs. Chiffres dansles rapportsESG.texte des rapports pour des insightsDe nouvelles méthodes analysent le
Table des matières

Quand on regarde comment les entreprises se débrouillent, les experts commencent à prêter plus attention aux mots qu'elles utilisent dans leurs rapports, pas seulement aux chiffres. Ces mots peuvent donner des indices qui aident à comprendre comment une entreprise se porte et comment elle pourrait évoluer à l'avenir. Ce changement de perspective permet aux investisseurs et aux analystes de récolter plus d'infos au-delà des simples données financières.

Dans ce contexte, ce travail se concentre sur l’utilisation de méthodes d'apprentissage multi-tâches pour analyser le texte des rapports annuels. On examine divers aspects du contenu, comme les émotions exprimées dans le texte, son Objectivité, si ça regarde vers l'avenir, et comment ça se rapporte aux critères Environnementaux, Sociaux et de Gouvernance (ESG).

La meilleure approche qu'on a trouvée combine les résultats de plusieurs tâches pour améliorer l'analyse globale. En utilisant ces classifieurs, on a analysé les rapports annuels des entreprises de l'indice FTSE350. On a aussi cherché des liens entre les caractéristiques qualitatives dérivées du texte et les scores ESG numériques fournis par les analystes financiers.

Changement d'Analyse des Chiffres aux Mots

On commence à réaliser que les mots utilisés dans les rapports peuvent être tout aussi importants, voire plus critiques, que les chiffres financiers. Traditionnellement, les analystes travaillaient avec ces informations manuellement, mais l'énorme volume de données textuelles ces dernières années a rendu cette approche impraticable.

Les données textuelles sur les entreprises viennent de trois principales sources : les divulgations obligatoires au public, les articles de presse et les réseaux sociaux. Cependant, les rapports d'entreprise reçoivent une attention particulière car ils sont publiés périodiquement et sont régulés pour s'assurer que les entreprises fournissent des infos détaillées sur leur situation financière.

Ces rapports contiennent non seulement des chiffres mais aussi des données textuelles riches qui peuvent donner des aperçus sur l'entreprise et son avenir. Par exemple, le choix des mots et le ton peuvent révéler beaucoup sur la situation d'une entreprise que les chiffres à eux seuls ne peuvent pas montrer.

Défis dans l'Analyse des Informations Textuelles

Extraire et traiter des informations qualitatives des rapports financiers est plus compliqué que pour les données numériques. Les chercheurs se penchent maintenant non seulement sur le contenu des rapports mais aussi sur leurs caractéristiques stylistiques. Par exemple, comprendre le sentiment ou l'objectivité dans ces rapports peut donner des indices sur comment les investisseurs pourraient réagir à l’action d’une entreprise.

Dans cette étude, on se concentre sur trois principaux indicateurs stylistiques : le sentiment (Sentiments positifs ou négatifs), l'objectivité (fait contre opinion) et les déclarations prospectives (prédictions sur l'avenir). De plus, on explore comment ces caractéristiques se rapportent aux thèmes ESG. L'ESG concerne la manière dont les entreprises se comportent vis-à-vis de la société et de l'environnement tout en essayant de faire des profits.

Les investisseurs et les régulateurs s'intéressent de plus en plus à l'ESG car cela reflète la responsabilité sociale d'une entreprise. En conséquence, les entreprises ont commencé à être plus conscientes de leur impact sur l'environnement et ont commencé à faire rapport sur ces aspects régulièrement.

L'Importance Croissante de la Responsabilité Sociale des Entreprises

La Responsabilité Sociale des Entreprises (RSE) a gagné en attention ces dernières années. Ce concept inclut les activités que les entreprises entreprennent pour répondre à des préoccupations sociales et environnementales, au-delà de la simple recherche de profit. Des exemples incluent la réduction de la pollution et les dons caritatifs.

Les organismes de régulation, comme ceux de l'UE, ont commencé à exiger que les entreprises divulguent des informations relatives à leurs pratiques de RSE. Les critères pour l'évaluation ESG couvrent divers aspects, y compris l'impact environnemental, les relations commerciales avec les parties prenantes et des questions de gouvernance comme la responsabilité des dirigeants et la transparence.

Cependant, les indicateurs numériques qui mesurent efficacement la performance ESG d'une entreprise font encore défaut. Pour cette raison, une grande partie de l'analyse est encore réalisée manuellement par des experts dans le domaine.

Utiliser l'Apprentissage Multi-Tâches pour Connecter Texte et ESG

Dans cette étude, on vise à connecter les indicateurs stylistiques des rapports avec les thèmes liés à l'ESG en utilisant l'apprentissage multi-tâches. On améliore les modèles de langage pré-entraînés en les formant à classer le texte en fonction du sentiment, de l'objectivité, de la nature prospective et du contenu ESG.

On met en avant les défis à saisir le sentiment, l'objectivité et les aspects prospectifs concernant les rapports financiers. En analysant et classifiant le contenu des rapports annuels selon ces facteurs, on peut mieux comprendre comment ils se connectent aux thèmes ESG.

Notre approche montre qu'une méthode efficace est d'utiliser explicitement les prédictions des tâches auxiliaires comme caractéristiques pour la tâche principale. Cette méthode s'avère utile même pour des tâches sujettes à une forte subjectivité.

La méthodologie qu'on a développée peut être appliquée à divers sujets au-delà de l'ESG, élargissant sa pertinence à d'autres domaines où des aperçus qualitatifs peuvent être tirés des données textuelles.

Le Paysage des Rapports Annuels

L'analyse des rapports annuels est un sujet bien recherché en finance, mais moins dans le domaine du traitement du langage naturel (NLP). Un accent particulier a été mis sur les dépôts 10-K, qui sont des rapports standardisés exigés aux États-Unis. Cependant, en dehors des États-Unis, les rapports peuvent varier considérablement dans leur structure et leur façon de communiquer les informations.

Au Royaume-Uni, par exemple, il y a eu une augmentation notable de la taille et de la complexité des récits dans les rapports annuels. Cette croissance reflète un défi plus grand pour l'analyse automatisée. Bien que la quantité de données ait augmenté, le manque de standardisation rend l'analyse plus complexe et nécessite des méthodes plus avancées.

De plus, des concepts comme l'ESG sont relativement nouveaux et n'ont pas encore trouvé leur place dans les pratiques de reporting standardisées, entraînant des incohérences entre différentes entreprises.

Le Rôle de l'Apprentissage Multi-Tâches

L'apprentissage multi-tâches (MTL) est une approche où plusieurs tâches connexes sont résolues simultanément, permettant un apprentissage partagé qui peut améliorer la performance. En utilisant efficacement le MTL, on peut améliorer les résultats dans des tâches où les données peuvent être limitées.

Dans cette étude, on a examiné comment utiliser diverses caractéristiques stylistiques pour extraire des informations des rapports annuels. Cela a impliqué d'utiliser des modèles de langage pré-entraînés dans un cadre MTL supervisé.

L'idée est de peaufiner un modèle de langage sur les tâches pertinentes pour notre analyse tout en tirant parti des relations entre ces tâches. L'efficacité de l'approche dépend des similitudes entre les tâches. Les tâches étroitement liées peuvent aider à améliorer la performance grâce à l'apprentissage partagé.

Ensemble de Données et Annotation

Notre analyse se concentre sur une collection de rapports annuels d'entreprises du FTSE350 couvrant les années 2012 à 2019. Cet ensemble de données comprend 1 532 rapports annuels convertis du format PDF en texte brut.

Pour notre étude, on a généré un ensemble de données annotées, où des phrases des rapports ont été étiquetées pour cinq tâches spécifiques. Ces tâches comprenaient la pertinence, le sentiment financier, l'objectivité, les déclarations prospectives, et le contenu ESG.

Pour assurer la fiabilité, on a calculé les niveaux d'accord parmi les annotateurs. Cette évaluation a montré que, tandis que les tâches de sentiment et d'ESG avaient un niveau d'accord plus élevé, les tâches liées à l'objectivité et à la pertinence avaient des niveaux d'accord beaucoup plus bas.

Méthodes de Classification Utilisées

Dans notre travail de classification, on a utilisé un système encodeur-décodeur. L'encodeur capture l'essence de chaque phrase, tandis que des décodeurs séparés gèrent les tâches de classification basées sur la représentation partagée de la phrase.

On a utilisé un modèle de langage pré-entraîné, RoBERTa, qui est connu pour son efficacité dans les tâches NLP. L'encodeur traite les phrases d'entrée, tandis que différents décodeurs existent pour chaque tâche de classification.

On a exploré diverses architectures MTL et méthodes pour les tâches de classification, y compris des approches d'entraînement conjoint et séquentiel. Le but était d'optimiser la performance en tirant parti de l'apprentissage partagé entre les tâches.

Résultats des Expérimentations d'Apprentissage Multi-Tâches

Dans nos évaluations expérimentales, on a utilisé le score macro-F1 comme métrique clé pour la performance. Cette métrique est idéale pour les tâches de classification avec déséquilibre de classe.

On a divisé notre ensemble de données en ensembles d'entraînement, de développement et de test, assurant des évaluations robustes. Chaque méthode a été exécutée plusieurs fois pour garantir des résultats cohérents.

Parmi toutes les approches testées, la méthode ExGF-MTL s'est démarquée comme la plus efficace. Ce système a permis au modèle d'apprendre de chaque tâche tout en améliorant la performance de la tâche de classification ESG en particulier.

En enquêtant sur diverses combinaisons de tâches, on a observé qu'exclure des tâches moins fiables comme l'objectivité et la pertinence tendait à améliorer la performance du modèle.

Aperçus sur les Évaluations ESG et les Caractéristiques Textuelles

Avec ExGF-MTL identifié comme la méthode principale, on l'a utilisée pour extraire des caractéristiques des rapports annuels et analyser leur relation avec les évaluations ESG fournies par les agences financières.

Pour préparer les données, on a soigneusement filtré les phrases selon des critères spécifiques pour assurer la qualité. Les caractéristiques extraites comprenaient la proportion de phrases liées à l'ESG et leur sentiment.

Dans notre analyse de corrélation, on a utilisé la corrélation de Spearman pour examiner les relations entre les caractéristiques textuelles et les scores ESG. Notablement, les secteurs ont eu un impact sur la corrélation observée, avec certaines caractéristiques alignées de près avec leurs secteurs respectifs.

Par exemple, l'ampleur du contenu lié à l'ESG était corrélée positivement avec de meilleures évaluations ESG. Ce résultat souligne l'importance de discuter des questions ESG dans les rapports annuels.

Conclusion

En résumé, ce travail souligne l'importance de l'analyse qualitative dans les rapports financiers. En appliquant des techniques d'apprentissage multi-tâches, on peut mieux extraire des informations significatives du texte, les reliant à des métriques ESG importantes.

Les constatations montrent comment le sentiment, l'objectivité et les déclarations prospectives peuvent offrir des aperçus précieux sur les efforts de RSE d'une entreprise. De plus, les méthodes développées peuvent s'étendre à d'autres domaines nécessitant une analyse de données textuelles en conjonction avec des métriques numériques.

Les recherches futures pourraient explorer les relations causales entre les caractéristiques des rapports et la performance financière, enrichissant ainsi la base de connaissances sur les comportements des entreprises et leurs implications.

Source originale

Titre: Multi-Task Learning for Features Extraction in Financial Annual Reports

Résumé: For assessing various performance indicators of companies, the focus is shifting from strictly financial (quantitative) publicly disclosed information to qualitative (textual) information. This textual data can provide valuable weak signals, for example through stylistic features, which can complement the quantitative data on financial performance or on Environmental, Social and Governance (ESG) criteria. In this work, we use various multi-task learning methods for financial text classification with the focus on financial sentiment, objectivity, forward-looking sentence prediction and ESG-content detection. We propose different methods to combine the information extracted from training jointly on different tasks; our best-performing method highlights the positive effect of explicitly adding auxiliary task predictions as features for the final target task during the multi-task training. Next, we use these classifiers to extract textual features from annual reports of FTSE350 companies and investigate the link between ESG quantitative scores and these features.

Auteurs: Syrielle Montariol, Matej Martinc, Andraž Pelicon, Senja Pollak, Boshko Koloski, Igor Lončarski, Aljoša Valentinčič

Dernière mise à jour: 2024-04-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.05281

Source PDF: https://arxiv.org/pdf/2404.05281

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires