Derniers articles pour Qualité des données

Théorie des statistiques Validation des modèles statistiques avec des données contaminées

Cet article parle des galères de la validation des modèles à cause des données contaminées.

2025-07-31T22:27:48+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Faire avancer l'apprentissage par renforcement hors ligne avec SeMOPO

SeMOPO améliore l'apprentissage à partir de données de mauvaise qualité en séparant les informations utiles du bruit.

2025-07-29T13:07:42+00:00 ― 6 min lire

Apprentissage automatique Améliorer les standards de recherche en apprentissage par renforcement multi-agent hors ligne

Examiner les problèmes clés en MARL hors ligne et proposer des solutions standardisées.

2025-07-29T05:53:12+00:00 ― 7 min lire

Méthodologie Évaluation des données non probabilistes en statistiques

Un aperçu du rôle des données non probabilistes dans les méthodes statistiques modernes.

2025-07-28T21:52:00+00:00 ― 9 min lire

Apprentissage automatique L'importance croissante de l'évaluation des données

Évaluer la valeur des données est crucial pour améliorer les résultats de l'apprentissage automatique.

2025-07-28T21:01:56+00:00 ― 9 min lire

Apprentissage automatique Évaluer les méthodes de sélection de caractéristiques dans des données bruyantes

Méthodes pour identifier des caractéristiques importantes dans des environnements de données de mauvaise qualité.

2025-07-28T00:47:18+00:00 ― 9 min lire

Calcul et langage Un coup d'œil plus près aux modèles GLM-4

Les modèles GLM-4 montrent de meilleures capacités dans la compréhension et la génération de langage.

2025-07-27T06:52:54+00:00 ― 10 min lire

Apprentissage automatique Améliorer la génération de données EHR pour de meilleures perspectives en matière de santé

Un nouveau modèle améliore les données EHR synthétiques pour des applications de santé meilleures.

2025-07-26T21:39:54+00:00 ― 7 min lire

Apprentissage automatique Améliorer le pseudo-labeling avec le cadre DIPS

DIPS s'attaque aux problèmes de qualité des données dans le pseudo-étiquetage pour de meilleurs résultats en apprentissage automatique.

2025-07-26T18:38:12+00:00 ― 7 min lire

Calcul et langage Présentation de FineWeb : un nouveau jeu de données pour les modèles de langage

FineWeb propose 15 trillions de jetons pour améliorer l'entraînement des modèles linguistiques.

2025-07-24T10:01:12+00:00 ― 10 min lire

Calcul et langage Petits modèles de langage et gestion du bruit

Cet article examine comment les petits modèles de langage apprennent à gérer le bruit dans les données.

2025-07-21T07:53:30+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes VideoEval : Une nouvelle norme pour l'évaluation des modèles vidéo

VideoEval établit une nouvelle référence pour évaluer efficacement les modèles de base vidéo.

2025-07-17T18:26:24+00:00 ― 7 min lire

Apprentissage automatique S'attaquer à l'effondrement des modèles dans l'entraînement de l'IA

Cet article parle de comment éviter l'effondrement des modèles en utilisant une meilleure sélection de données et des retours.

2025-07-16T12:48:16+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Améliorer la qualité des jeux de données grâce à la détection des erreurs d'étiquetage

Une nouvelle méthode améliore la détection des images et du texte mal étiquetés dans les jeux de données.

2025-07-16T06:37:36+00:00 ― 7 min lire

Bases de données Améliorer la gestion des données avec un transducteur SQL sémantique

Découvre comment le Transducteur SQL Sémantique améliore la clarté et la gestion des données.

2025-07-15T15:52:48+00:00 ― 9 min lire

Apprentissage automatique L'impact des données bruyantes sur la précision de l'apprentissage automatique

Explorer comment les données bruyantes affectent la performance du modèle sur des données inédites.

2025-07-08T17:53:20+00:00 ― 9 min lire

Traitement de l'image et de la vidéo Améliorer la détection des maladies grâce à une gestion de qualité des jeux de données

Utiliser UMAP pour repérer les erreurs d'étiquetage dans les jeux de données d'images médicales.

2025-07-08T10:56:15+00:00 ― 7 min lire

Calcul et langage Détecter les erreurs dans la traduction automatique

Cet article parle des défis pour détecter les hallucinations dans la traduction automatique entre différentes langues.

2025-07-08T06:15:42+00:00 ― 7 min lire

Calcul et langage Présentation de LawLuo : Une nouvelle approche de l'assistance juridique

LawLuo combine plusieurs agents pour une expérience de consultation légale améliorée.

2025-07-08T02:10:48+00:00 ― 7 min lire

Calcul et langage Les défis de l'entraînement régurgitatif dans les LLMs

Ce papier examine les inconvénients d'utiliser des données générées par des LLM pour entraîner de nouveaux modèles.

2025-07-05T23:08:00+00:00 ― 10 min lire

Calcul et langage Avancer des données synthétiques pour les modèles de langage

Une nouvelle méthode améliore la qualité des données synthétiques pour un meilleur alignement des modèles de langage.

2025-06-30T13:24:06+00:00 ― 7 min lire

Bases de données Avancées dans la résolution d'entités avec ASPen

Voici ASPen, un système pour améliorer la qualité des données grâce à des techniques avancées de résolution d'entités.

2025-06-28T15:11:12+00:00 ― 8 min lire

Intelligence artificielle Loi sur l'IA de l'UE : Gérer l'incertitude dans les systèmes d'IA

Les nouvelles règles se concentrent sur la transparence et la gestion de l'incertitude dans la technologie de l'IA.

2025-06-25T09:53:54+00:00 ― 8 min lire

Calcul et langage Adapter des modèles linguistiques avec des ressources limitées

Recherche sur l'entraînement de modèles de langue pour les langues sous-représentées de manière efficace.

2025-06-20T19:49:30+00:00 ― 8 min lire

Calcul et langage Optimiser les modèles linguistiques pour les textes médicaux

Une étude sur l'amélioration des modèles linguistiques en utilisant des articles médicaux ciblés.

2025-06-17T05:19:12+00:00 ― 7 min lire

Génie logiciel S'attaquer à la dette d'équité dans les systèmes d'IA

Cet article explore l'identification et la gestion des biais dans l'IA pour des résultats équitables.

2025-06-16T23:15:48+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Aligner l'IA à la compréhension visuelle humaine

Un cadre pour améliorer la performance de l'IA dans les tâches visuelles en imitant les jugements humains.

2025-06-14T06:13:12+00:00 ― 7 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la qualité des légendes d'images

Cet article évalue le sentiment et le sens des légendes d'images.

2025-06-12T04:58:36+00:00 ― 5 min lire

Vision par ordinateur et reconnaissance des formes L'impact du ciblage sur la performance du machine learning

Cet article souligne comment les variations d'étiquettes affectent les modèles de machine learning.

2025-06-12T01:09:30+00:00 ― 9 min lire

Méthodologie Améliorer la préparation des données pour réussir avec l'IA

Améliore la qualité des données grâce à l'analyse visuelle pour des projets d'IA efficaces.

2025-06-09T10:27:08+00:00 ― 6 min lire

Traitement de l'image et de la vidéo Défis dans l'analyse d'images histopathologiques avec l'apprentissage profond

Enquête sur les problèmes de dataset qui impactent la précision de la classification des images de tissus.

2025-06-09T01:40:10+00:00 ― 7 min lire

Théorie des statistiques Méthodes bayésiennes pour des données non correspondantes

Une nouvelle approche pour faire correspondre avec précision des enregistrements dans des ensembles de données sujets à erreurs.

2025-06-04T01:56:52+00:00 ― 7 min lire

Apprentissage automatique Améliorer le K-Means avec des données manquantes

De nouvelles méthodes améliorent le clustering K-means en s'attaquant aux problèmes de données manquantes.

2025-06-02T11:24:00+00:00 ― 6 min lire

Physique biologique PDBBind-Opt : Améliorer les données de découverte de médicaments

De nouveaux systèmes améliorent les données d'interaction protéine-ligande pour un meilleur design de médicaments.

2025-05-30T23:26:45+00:00 ― 8 min lire

Apprentissage automatique Les bizarreries et les défis des modèles vision-langage

Un aperçu des forces et des faiblesses des modèles Vision-Language d'aujourd'hui.

2025-05-28T19:26:51+00:00 ― 7 min lire

Calcul et langage Évaluer la qualité de Wikipedia dans différentes langues

Ce texte examine la qualité variable du contenu de Wikipedia dans différentes langues.

2025-05-27T10:10:12+00:00 ― 8 min lire

Intelligence artificielle Comprendre la granularité des classes dans les graphes de connaissances

La granularité des classes aide à organiser les graphes de connaissances pour améliorer la recherche d'infos.

2025-05-26T10:01:39+00:00 ― 7 min lire

Génie logiciel Les risques cachés des mauvaises données dans le deep learning

Des données pourries peuvent mener à une mauvaise performance des modèles dans les applis de deep learning.

2025-05-20T17:13:12+00:00 ― 8 min lire

Apprentissage automatique Naviguer dans les défis du bruit d'étiquetage en apprentissage profond

Le bruit des étiquettes peut freiner les modèles de deep learning ; de nouvelles méthodes améliorent la précision.

2025-05-01T16:21:20+00:00 ― 9 min lire

Apprentissage automatique S'attaquer au défi de la détection du cyberharcèlement

Comprendre les biais des données en apprentissage automatique pour une détection efficace du cyberharcèlement.

2025-04-30T03:12:00+00:00 ― 10 min lire