Prévoir le succès des startups avec des données et du machine learning
Utiliser l'analyse de données pour repérer des startups prometteuses avant d'investir.
― 7 min lire
Table des matières
- Pourquoi c'est important de prédire le succès des startups
- Utiliser les données de Crunchbase
- Construire un dataset
- Comprendre les caractéristiques
- Formation et test du modèle
- Simulation de portefeuille
- Mesurer la croissance financière
- Leçons tirées des résultats
- Développements futurs
- Conclusion
- Source originale
Prédire si une startup va réussir, c'est pas facile. Beaucoup de nouvelles entreprises échouent en quelques années, donc c'est essentiel pour les Investisseurs de savoir lesquelles ont le plus de chances de percer. Avec la montée de grosses bases de Données comme Crunchbase, on peut maintenant utiliser des données et du machine learning pour mieux anticiper le succès des Startups. Cet article parle de comment ces méthodes peuvent aider à repérer les startups avec un fort potentiel pendant leurs premiers tours d'investissement.
Pourquoi c'est important de prédire le succès des startups
Les startups jouent un rôle énorme dans l'économie. Elles créent des emplois et boostent l'innovation. Mais environ 90% d'entre elles échouent dans les cinq premières années. Ça rend important de savoir prédire lesquelles ont plus de chances de réussir. Les investisseurs peuvent utiliser ces prédictions pour placer leur argent judicieusement. De leur côté, les entrepreneurs peuvent aussi en profiter en comprenant les facteurs qui influencent leurs chances de succès.
Utiliser les données de Crunchbase
Crunchbase est une base de données qui donne des infos sur les startups, comme leurs stades de financement, leurs valorisations et les détails sur les investisseurs. Les Modèles de machine learning peuvent analyser ces données et dénicher des patterns qui pourraient indiquer le succès futur d'une startup en se basant sur des éléments comme l'historique de financement, la structure de l'équipe et les tendances du marché.
Dans cette étude, deux méthodes principales sont utilisées pour prédire le succès des startups : une approche de machine learning supervisé et une approche basée sur le classement. La première méthode consiste à collecter des données, former un modèle et le tester. La deuxième s'intéresse aux caractéristiques que les startups et investisseurs qui réussissent partagent.
Construire un dataset
Pour créer un modèle efficace, il faut un dataset avec une grosse quantité d'infos sur les startups. Pour cette recherche, plus de 34 000 entreprises ont été analysées, en se concentrant particulièrement sur celles aux stades d'investissement Series B et C. Une startup réussie est définie comme celle qui atteint une introduction en bourse (IPO), qui est acquise ou qui devient un "unicorn" (une entreprise évaluée à plus d'un milliard de dollars).
Pour identifier les entreprises à succès, le dataset a été filtré pour les IPO et les acquisitions, menant à une liste de 1 074 licornes. De plus, un dataset de startups non réussies a été créé en excluant celles déjà classées comme réussies. Ça a donné un total d'environ 32 760 entreprises en échec.
Comprendre les caractéristiques
Le modèle utilise plusieurs caractéristiques pour faire des prédictions. Ces caractéristiques peuvent être classées comme suit :
Caractéristiques des fondateurs
- Catégorielles : Comprend des éléments comme le code du pays, la région et le parcours scolaire.
- Numériques : Représente des données telles que le nombre de startups précédentes et les profils sur les réseaux sociaux.
Caractéristiques des investisseurs
- Catégorielles : Inclut le type d'investisseur et leur localisation.
- Numériques : Couvre le montant total de financement qu'ils ont fourni.
Caractéristiques des tours de financement
- Catégorielles : Représente des éléments comme le type d'investissement et les noms des investisseurs.
- Numériques : Implique des sommes, des moyennes et des maximums liés aux montants de financement.
Le modèle utilise aussi des données textuelles, comme des mots-clés liés au domaine d'activité de la startup, pour créer des caractéristiques supplémentaires. Ces tags textuels aident à donner une image plus claire du focus de l'entreprise.
Formation et test du modèle
Le modèle est formé avec des données historiques et est testé sur une période spécifique. La phase de formation utilise uniquement des données d'entreprises fondées avant le début de la période de test. Cette méthode empêche le modèle d'avoir connaissance d'événements futurs qui pourraient fausser les résultats.
Plusieurs simulations ont été réalisées, permettant au modèle d'améliorer ses prédictions sur la base du dataset croissant. Les résultats de ces simulations aident à créer un portefeuille de startups présumées réussies.
Simulation de portefeuille
Une partie clé de cette recherche est de simuler les opérations d'un fonds de capital risque sur plusieurs années. Le modèle passe en revue les données et sélectionne chaque mois les entreprises les plus performantes, formant ainsi un portefeuille.
Chaque entreprise ajoutée au portefeuille est suivie de près. Les entreprises sont marquées comme réussies si elles atteignent un événement de sortie tel qu'une IPO ou une acquisition. Si une entreprise n'arrive pas à attirer des financements pendant un long moment, elle est aussi marquée et retirée du portefeuille.
Ce processus permet d'évaluer clairement comment le modèle se comporte avec le temps et son efficacité à choisir des startups à succès.
Mesurer la croissance financière
Pour évaluer la performance du modèle, des métriques financières traditionnelles sont utilisées. L'objectif est de suivre la croissance du capital en se basant sur les startups du portefeuille. Les entreprises sont évaluées selon leur valorisation au moment d'entrée et de sortie.
Au final, le modèle démontre une croissance significative du capital, obtenue grâce à une sélection soignée de startups à fort potentiel. Cette métrique financière montre à quel point le modèle est efficace pour identifier des investissements prometteurs.
Leçons tirées des résultats
Les résultats des tests et des simulations montrent que l'utilisation de méthodes basées sur les données aide vraiment à prédire le succès des startups. Les facteurs clés incluent l'analyse d'une large gamme de caractéristiques et la mise à jour continue du modèle avec de nouvelles données.
La recherche souligne aussi l'importance de comprendre quelles caractéristiques sont les plus influentes dans la prédiction du succès, comme le parcours des fondateurs et le type d'investisseurs impliqués.
Développements futurs
Il y a plein de façons d'améliorer le modèle. Par exemple, des sources de données supplémentaires, comme l'activité sur les réseaux sociaux, pourraient donner plus d'infos sur le potentiel d'une entreprise. Élargir la définition du succès pourrait aussi aider à inclure plus de startups qui se trouvent dans une zone grise.
Tester différents seuils pour choisir quelles entreprises ajouter au portefeuille peut aussi être bénéfique. Ajuster ces paramètres pourrait mener à de meilleures Performances et à des prédictions plus précises.
Une autre zone importante pour l'exploration future est de comprendre comment les facteurs macroéconomiques affectent les startups. Ça aiderait à identifier les risques et les opportunités qui pourraient influencer les décisions d'investissement.
Conclusion
Avec le rôle grandissant des données et du machine learning dans le capital risque, les investisseurs peuvent prendre un gros avantage en utilisant ces modèles prédictifs. Être capable de prédire avec précision quelles startups sont susceptibles de réussir va mener à de meilleures décisions d'investissement. Au fur et à mesure que le paysage évolue, davantage de recherches et de développements sur ces modèles ne feront qu'améliorer leur efficacité dans l'écosystème startup en évolution rapide.
En s'appuyant sur des datasets complets et des analyses avancées, les capital-risqueurs peuvent améliorer leurs chances de dénicher la prochaine grande réussite, contribuant ainsi à un environnement startup plus sain et à la croissance économique.
Titre: Startup success prediction and VC portfolio simulation using CrunchBase data
Résumé: Predicting startup success presents a formidable challenge due to the inherently volatile landscape of the entrepreneurial ecosystem. The advent of extensive databases like Crunchbase jointly with available open data enables the application of machine learning and artificial intelligence for more accurate predictive analytics. This paper focuses on startups at their Series B and Series C investment stages, aiming to predict key success milestones such as achieving an Initial Public Offering (IPO), attaining unicorn status, or executing a successful Merger and Acquisition (M\&A). We introduce novel deep learning model for predicting startup success, integrating a variety of factors such as funding metrics, founder features, industry category. A distinctive feature of our research is the use of a comprehensive backtesting algorithm designed to simulate the venture capital investment process. This simulation allows for a robust evaluation of our model's performance against historical data, providing actionable insights into its practical utility in real-world investment contexts. Evaluating our model on Crunchbase's, we achieved a 14 times capital growth and successfully identified on B round high-potential startups including Revolut, DigitalOcean, Klarna, Github and others. Our empirical findings illuminate the importance of incorporating diverse feature sets in enhancing the model's predictive accuracy. In summary, our work demonstrates the considerable promise of deep learning models and alternative unstructured data in predicting startup success and sets the stage for future advancements in this research area.
Auteurs: Mark Potanin, Andrey Chertok, Konstantin Zorin, Cyril Shtabtsovsky
Dernière mise à jour: 2023-09-27 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.15552
Source PDF: https://arxiv.org/pdf/2309.15552
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.