Comprendre les prédictions de foot en Angleterre
Un aperçu sur la prédiction des résultats des matchs de foot dans différentes ligues.
Josh Brown, Yutong Bu, Zachary Cheesman, Benjamin Orman, Iris Horng, Samuel Thomas, Amanda Harsy, Adam Schultze
― 10 min lire
Table des matières
- Le Système de Ligues en Échelons
- La Difficulté de Prédire les Résultats
- Recherche Précédente et Limitations des Données
- Le Rôle des Évaluations des Joueurs
- La Structure de Notre Étude
- Les Méthodes de Classement Colley et Massey
- Collecte de Données et Métriques
- Approches de Modélisation
- Analyse de Nos Prédictions
- L'Impact des Équipes Dominantes
- Insights des Autres Ligues
- Évaluations du Marché et la Sagesse des Foules
- Conclusion et Directions Futures
- Source originale
- Liens de référence
Le soccer, ou comme certains l’appellent, le football, a une longue histoire en Angleterre. Les règles officielles du sport ont été établies en 1863, ce qui en fait l'un des sports organisés les plus anciens. Au fil des ans, le jeu a évolué pour devenir un système de ligues bien structuré connu sous le nom de pyramide du football anglais. Au sommet de cette pyramide se trouve la Premier League anglaise (EPL), le nec plus ultra des ligues de football, pas seulement en Angleterre mais dans le monde entier ! L'EPL, c’est là où sont les gros sous ; durant la saison 2022-2023, elle a rapporté un incroyable 6,9 milliards de dollars. C’est comme avoir une place premium pour le plus grand spectacle en ville, pendant que d'autres ligues, comme le Championship anglais, la League One et la League Two, ramassent les miettes.
Le Système de Ligues en Échelons
Cette pyramide du football est unique parce qu'elle offre un système de promotion et de relégation, un peu comme un jeu de chaises musicales. Si tu performes bien dans ta ligue, tu es promu à un niveau supérieur, et si tu joues mal, tu pourrais te retrouver à descendre d'un échelon. Par exemple, une équipe qui réussit à passer de la League Two à la Premier League peut voir ses revenus exploser-d'au moins 160 millions de dollars sur trois ans ! C’est un joli pactole pour une équipe qui aurait pu vivre de nouilles instantanées avant.
Cependant, toutes les ligues ne se valent pas. Les différences financières entre elles sont énormes. Le Championship a généré environ 890 millions de dollars la même année, tandis que la League One et la League Two ont rapporté respectivement 280 millions et 156 millions. Ces différences créent une compétition très intense dans tous les échelons du soccer de club anglais. Tout le monde veut être au sommet !
La Difficulté de Prédire les Résultats
Malgré l’excitation et la concurrence, prédire les résultats de ces matchs n’est pas aussi simple que de lancer une pièce. En fait, il s’avère que prévoir les matchs dans les ligues inférieures est généralement plus difficile que dans la Premier League. C’est parce que les Équipes moins connues peuvent être un peu imprévisibles. Cependant, quand on retire les équipes qui dominent constamment leurs ligues, on découvre que prédire la Premier League peut être tout aussi compliqué que les ligues inférieures.
Recherche Précédente et Limitations des Données
Malgré la richesse des données disponibles sur les ligues de football anglaises, peu de recherches ont été effectuées sur les ligues de niveau inférieur. La plupart des études se concentrent sur les ligues de haut niveau, laissant les échelons inférieurs dans l'ombre. Un exemple de quelqu'un qui a tenté d’y jeter un œil est Artzen et Hvattum, qui ont utilisé le système de notation Elo pour prédire les résultats de matchs dans les ligues inférieures. Cependant, les modèles mathématiques traditionnels comme ceux créés par Massey et Colley n'ont pas été pleinement explorés dans ces ligues.
Le Rôle des Évaluations des Joueurs
Pour nous aider avec nos prévisions, nous nous sommes tournés vers les évaluations des joueurs sur Transfermarkt, un site où les fans discutent de la valeur des joueurs. C’est comme un bazar en ligne où les passionnés de soccer marchandent sur qui vaut quoi. Cette approche collective pour déterminer les valeurs des joueurs est assez populaire parmi les recruteurs et les dirigeants de clubs, ce qui lui donne un peu de crédibilité.
On a décidé de voir si ces évaluations pouvaient nous aider à prédire les résultats des matchs dans les ligues inférieures. L'idée, c'est que si les fans parlent des valeurs des joueurs, ils pourraient avoir un bon feeling sur la façon dont les équipes vont performer. Après tout, si un joueur a une haute valeur, il pourrait apporter un peu plus de talent sur le terrain.
La Structure de Notre Étude
Dans notre recherche, on s’est proposé de comparer différents modèles mathématiques pour voir comment ils peuvent prédire des résultats à divers niveaux du système de soccer anglais. On va diviser nos résultats en sections :
-
Introduction aux Méthodes de Classement Colley et Massey : On va donner un peu de contexte sur ces méthodes de classement mathématiques et pourquoi elles sont utiles.
-
Données et Métriques : On va couvrir comment on a rassemblé nos données et quelles métriques on a utilisées pour évaluer nos modèles.
-
Approches de Modélisation : On va plonger dans nos différentes méthodes de modélisation, y compris les évaluations de Transfermarkt.
-
Analyse des Prédictions : On va partager comment nos modèles se sont comportés par rapport aux résultats réels des matchs à travers les ligues anglaise, allemande et écossaise.
-
Conclusions et Directions Futures : Enfin, on conclura avec ce que nos résultats signifient et les domaines potentiels pour de futures recherches.
Les Méthodes de Classement Colley et Massey
Les méthodes Colley et Massey sont deux systèmes de classement classiques utilisés pour évaluer la performance des équipes sportives. Les deux méthodes utilisent des statistiques des matchs passés, mais elles abordent les données différemment.
La méthode Colley se concentre sur le pourcentage de victoires et la force des équipes jouées. C’est comme essayer de déterminer à quel point une équipe est bonne en considérant non seulement combien de matchs elle a gagnés, mais aussi contre qui elle a joué. Si une équipe a un haut pourcentage de victoires mais a affronté des adversaires faibles, son classement peut ne pas être très élevé.
D'un autre côté, la méthode Massey utilise le différentiel de points dans les matchs. Cette méthode suppose que la force des équipes affecte le score final d’un match. Par exemple, si l'Équipe A bat l'Équipe B avec une grande marge, on peut en déduire que l'Équipe A est plus forte.
Collecte de Données et Métriques
Notre étude a impliqué la collecte d'une tonne de données provenant de diverses ligues sur plusieurs années. On a récupéré les résultats des matchs, les effectifs des équipes, et les évaluations des joueurs sur Transfermarkt, qui est comme un trésor de statistiques de soccer.
On s'est concentré sur les quatre premiers échelons du système de ligue de football anglais, ainsi que sur des données provenant de certaines ligues allemandes et écossaises. L’objectif était de compiler un ensemble de données solide qu'on pourrait utiliser pour tester nos modèles prédictifs.
Approches de Modélisation
On a testé quelques modèles différents. D'abord, on a utilisé les classements classiques de Colley et Massey tout seuls. Ensuite, on a ajouté des éléments, comme l’avantage du terrain et les évaluations des joueurs de Transfermarkt, pour voir si ces facteurs pouvaient améliorer nos prédictions.
Pour notre modèle de cotes de paris, on a compté sur la sagesse du monde des paris. Les bookmakers s’y connaissent et ont un bon œil pour prédire les résultats, donc on s’est dit que ce serait intelligent de comparer nos modèles à leurs cotes.
Analyse de Nos Prédictions
Une fois nos modèles en place, on a évalué leurs performances en comparant leurs prédictions aux résultats réels des matchs. On s'est concentré sur des métriques comme la précision des classements et les prévisions des résultats des matchs.
Nos modèles ont montré des patterns intéressants. Les prédictions pour les matchs de la Premier League se sont révélées plus précises que celles des ligues inférieures. Mais quand on a retiré les matchs impliquant les meilleures équipes, les différences de précision entre les ligues sont devenues moins marquées.
L'Impact des Équipes Dominantes
Nos résultats ont mis en lumière l'impact significatif que les équipes dominantes, souvent appelées le "Big Six" de la Premier League, ont sur les modèles de prédiction. Ces équipes ont historiquement mieux performé et faussent les prédictions en leur faveur.
On a relancé les modèles, cette fois en excluant les matchs impliquant ces équipes dominantes. Étonnamment, cela a rapproché nos capacités prédictives de celles des ligues inférieures ! Il semble que la domination d'une poignée d'équipes puisse rendre les prévisions plus compliquées qu'elles ne devraient l’être.
Insights des Autres Ligues
Pour élargir notre compréhension, on a aussi évalué les modèles en utilisant des données des ligues allemandes et écossaises. Alors que ces ligues ont leurs propres particularités, nos résultats s’alignaient généralement avec ce qu’on a découvert dans les ligues anglaises. Les modèles ont mieux fonctionné dans les ligues de haut niveau par rapport aux ligues inférieures dans l'ensemble.
Évaluations du Marché et la Sagesse des Foules
Le concept de "sagesse des foules" suggère qu'un plus grand groupe arrive souvent à une conclusion plus précise qu'un individu ou un petit groupe. Dans notre cas, si la foule peut efficacement évaluer les joueurs sur Transfermarkt, leurs idées devraient améliorer les prédictions, non ? Enfin, en quelque sorte.
Bien qu’on ait constaté que les évaluations de Transfermarkt offraient un certain pouvoir prédictif, elles n’ont pas nécessairement surpassé les méthodes traditionnelles en ce qui concerne le soccer de club. Cela soulève la question : la collecte d’informations est-elle vraiment à la hauteur ? Peut-être que ces gens qui parlent des valeurs des joueurs lancent simplement des fléchettes sur un tableau après tout.
Conclusion et Directions Futures
En résumé, notre recherche montre que différents modèles mathématiques peuvent aider à prédire les résultats des matchs de soccer, mais leur efficacité varie selon les ligues. Bien que les modèles aient bien fonctionné en Premier League, ils ont eu du mal avec les ligues inférieures, surtout quand les équipes dominantes étaient présentes.
Pour l’avenir, on voit plein de possibilités d'amélioration. Il y a un potentiel pour peaufiner les modèles en tenant mieux compte des matchs qui se terminent par des nuls ou en incorporant des métriques supplémentaires comme les statistiques des joueurs. Explorer les effets des équipes dominantes sur l'équilibre compétitif pourrait aussi fournir des insights précieux.
Avec la popularité mondiale du soccer, il n'y a pas de pénurie de données à explorer. Alors prends ton snack préféré et installe-toi, parce que le monde de l’analyse du soccer ne fait que commencer !
Titre: Predictive Modeling of Lower-Level English Club Soccer Using Crowd-Sourced Player Valuations
Résumé: In this research, we examine the capabilities of different mathematical models to accurately predict various levels of the English football pyramid. Existing work has largely focused on top-level play in European leagues; however, our work analyzes teams throughout the entire English Football League system. We modeled team performance using weighted Colley and Massey ranking methods which incorporate player valuations from the widely-used website Transfermarkt to predict game outcomes. Our initial analysis found that lower leagues are more difficult to forecast in general. Yet, after removing dominant outlier teams from the analysis, we found that top leagues were just as difficult to predict as lower leagues. We also extended our findings using data from multiple German and Scottish leagues. Finally, we discuss reasons to doubt attributing Transfermarkt's predictive value to wisdom of the crowd.
Auteurs: Josh Brown, Yutong Bu, Zachary Cheesman, Benjamin Orman, Iris Horng, Samuel Thomas, Amanda Harsy, Adam Schultze
Dernière mise à jour: 2024-11-13 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2411.09085
Source PDF: https://arxiv.org/pdf/2411.09085
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.