Derniers articles pour Étalon

Calcul et langage Évaluation des grands modèles de langage multimodaux

De nouveaux référentiels révèlent des défis pour les MLLMs dans des tâches du monde réel avec de longs contextes.

2025-08-15T10:16:00+00:00 ― 10 min lire

Génie logiciel Examiner le biais multilingue dans les modèles de génération de code

Cet article explore les biais dans les modèles de génération de code à travers différentes langues.

2025-08-15T03:25:12+00:00 ― 10 min lire

Calcul et langage Comprendre les hallucinations de code dans les modèles de langue

Un aperçu des hallucinations de code dans les LLM et leur impact sur le développement logiciel.

2025-08-15T01:58:18+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Présentation de Wake Vision : un nouveau dataset pour TinyML

Wake Vision améliore la détection de personnes pour TinyML avec un énorme jeu de données.

2025-08-14T17:24:48+00:00 ― 9 min lire

Calcul et langage Défis et opportunités en matière d'explicabilité de la génération de texte par IA

Ce papier parle du besoin d'explicabilité dans les modèles de génération de texte par IA.

2025-08-11T02:54:30+00:00 ― 8 min lire

Calcul et langage Évaluer la toxicité dans les modèles de langue multilingues

Une nouvelle référence évalue la toxicité dans les grands modèles de langage à travers différentes langues.

2025-08-10T21:30:36+00:00 ― 10 min lire

Finance computationnelle Utiliser des SSD pour construire des portefeuilles plus solides

Apprends comment la dominance stochastique d'ordre deux peut améliorer ta stratégie d'investissement.

2025-08-09T19:12:57+00:00 ― 7 min lire

Intelligence artificielle Évaluation des LLM dans la modélisation mathématique avec Mamo

Un nouveau référentiel évalue les capacités des LLM dans les processus de modélisation mathématique.

2025-08-09T14:10:24+00:00 ― 6 min lire

Informatique neuronale et évolutive Améliorer l'évolution différentielle avec des GPUs

Explorer comment les GPU améliorent l'efficacité des algorithmes de Différentielle Évolution.

2025-08-06T19:01:24+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans le raisonnement multi-modal en chaîne de pensée

Nouvelle référence pour améliorer la compréhension du texte et des images par l'IA.

2025-08-06T17:50:18+00:00 ― 9 min lire

Apprentissage automatique WeiPer : Une nouvelle méthode pour la détection OOD

WeiPer améliore la détection des distributions hors normes dans les modèles de machine learning en ajustant les poids.

2025-08-06T07:49:54+00:00 ― 10 min lire

Intelligence artificielle Évaluation des grands modèles de langage dans les interactions mathématiques à plusieurs tours

Cette étude mesure la performance des LLM dans des dialogues mathématiques complexes.

2025-08-05T07:12:36+00:00 ― 10 min lire

Apprentissage automatique Améliorer les prédictions de lien avec des explications claires

LinkLogic offre clarté et fiabilité pour la prédiction de liens dans les graphes de connaissances.

2025-08-03T12:56:42+00:00 ― 8 min lire

Calcul et langage Faire avancer l'auto-formalisation avec Lean 4

De nouvelles méthodes et repères visent à simplifier la formalisation des mathématiques avec Lean 4.

2025-08-03T08:59:42+00:00 ― 8 min lire

Apprentissage automatique Les LLM galèrent avec des tâches de raisonnement basiques

Des tests récents montrent que les LLM ont des faiblesses en raisonnement simple malgré leurs bons scores aux benchmarks.

2025-08-02T09:01:54+00:00 ― 6 min lire

Apprentissage automatique Benchmarks dynamiques pour évaluer les modèles de langage

Un nouveau système pour évaluer les modèles linguistiques en utilisant des flux de données du monde réel.

2025-08-02T01:23:42+00:00 ― 7 min lire

Apprentissage automatique Traitement du bruit d'étiquette dans les réseaux de neurones graphiques

Un nouveau benchmark aide à améliorer la performance des GNN face aux problèmes de bruit d'étiquettes.

2025-08-01T13:01:06+00:00 ― 10 min lire

Robotique Bench2Drive : Une nouvelle norme pour tester les systèmes de conduite autonome

Bench2Drive propose une méthode d'évaluation équitable pour les technologies de conduite autonome.

2025-08-01T06:02:24+00:00 ― 8 min lire

Intelligence artificielle S'attaquer aux problèmes mal définis dans les modèles de langage

De nouvelles méthodes améliorent la performance des modèles de langage sur des tâches de raisonnement complexe.

2025-07-31T22:55:48+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Évaluer la performance des prompts dans la génération et la récupération d'images

Une étude présente un nouveau critère pour évaluer la performance des prompts dans la création et la récupération d'images.

2025-07-31T18:43:00+00:00 ― 15 min lire

Apprentissage automatique Nouvelles perspectives sur la performance de mise à l'échelle des modèles linguistiques

Analyser les modèles existants révèle des infos sur les tendances de performance des modèles de langage à mesure qu'ils grandissent.

2025-07-31T14:57:12+00:00 ― 12 min lire

Apprentissage automatique Évaluer les compétences en programmation Java des LLMs

Un nouveau benchmark pour évaluer les LLMs pour les tâches de programmation Java.

2025-07-31T06:52:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Améliorer le sous-titrage vidéo avec une compréhension causale

Une nouvelle méthode crée de meilleures sous-titres pour les vidéos en se concentrant sur les récits et la causalité.

2025-07-31T02:39:12+00:00 ― 7 min lire

Cryptographie et sécurité Évaluer le rôle des grands modèles de langage dans la détection de vulnérabilités

Un nouveau benchmark teste la capacité des LLM à trouver des vulnérabilités dans les logiciels.

2025-07-30T14:48:12+00:00 ― 8 min lire

Calcul et langage Nouveau benchmark évalue les modèles de langue multilingues

Un nouveau benchmark évalue les performances des modèles multilingues dans les tâches de récupération sémantique.

2025-07-30T12:18:06+00:00 ― 10 min lire

Vision par ordinateur et reconnaissance des formes CMC-Bench : Un Nouveau Standard en Compression d'Image

Découvrez comment CMC-Bench transforme les techniques de compression d'images.

2025-07-30T02:46:45+00:00 ― 7 min lire

Génie logiciel DafnyBench : Améliorer la vérification de logiciels avec l'apprentissage automatique

DafnyBench teste des outils de vérification de logiciels, ouvrant la voie à une programmation fiable.

2025-07-29T23:23:54+00:00 ― 6 min lire

Vision par ordinateur et reconnaissance des formes Évaluation de la compréhension vidéo dans les modèles de langage multimodaux

Un nouveau standard vise à évaluer les MLLMs dans la compréhension vidéo sur plusieurs sujets.

2025-07-29T22:20:42+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Défier les limites des modèles de vision-langage

Un nouveau benchmark teste le raisonnement compositionnel dans les modèles avancés.

2025-07-29T19:42:42+00:00 ― 9 min lire

Apprentissage automatique Présentation de GuardAgents : Une nouvelle couche de sécurité pour les LLMs

Un cadre pour améliorer la sécurité des agents LLM dans différentes applications.

2025-07-29T07:43:48+00:00 ― 9 min lire

Calcul et langage Évaluer le raisonnement temporel dans les grands modèles de langage

Un nouveau repère évalue à quel point les modèles comprennent le temps et les événements.

2025-07-29T07:20:06+00:00 ― 8 min lire

Apprentissage automatique Mesurer la variance dans les benchmarks des modèles de langage

Cet article examine des méthodes pour évaluer la variance dans les benchmarks d'évaluation des modèles de langue.

2025-07-28T23:26:06+00:00 ― 10 min lire

Calcul et langage Faire avancer l'IA pour les langues de l'Asie du Sud-Est

SEACrowd vise à améliorer la représentation de l'IA pour les langues et les cultures d'Asie du Sud-Est.

2025-07-28T21:03:54+00:00 ― 9 min lire

Vision par ordinateur et reconnaissance des formes Avancées dans la détection de manipulation d'images

Un nouveau référentiel aide les chercheurs à améliorer les méthodes de détection de l'intégrité des images.

2025-07-28T11:35:06+00:00 ― 7 min lire

Intelligence artificielle Évaluation des LLM avec un nouveau benchmark pour les problèmes de recherche

Une étude sur l'amélioration des capacités de résolution de problèmes des LLMs en utilisant un nouveau cadre.

2025-07-28T01:18:54+00:00 ― 10 min lire

Apprentissage automatique Faire avancer les normes d'évaluation des modèles de langage

Une nouvelle méthode améliore les tests pour les modèles de langage en utilisant des données réelles des utilisateurs.

2025-07-27T21:06:06+00:00 ― 7 min lire

Calcul et langage Évaluer le désapprentissage dans les modèles de langage

De nouvelles méthodes révèlent des défis pour désapprendre des connaissances des modèles de langage.

2025-07-27T17:24:54+00:00 ― 8 min lire

Calcul et langage L'impact des modèles de langage à long contexte

Les modèles de langage à long contexte simplifient les tâches complexes et améliorent l'interaction avec l'IA.

2025-07-27T08:59:18+00:00 ― 10 min lire

Calcul et langage Évaluation du raisonnement dans les modèles de langage

Un nouveau benchmark évalue les compétences en raisonnement des modèles de langage.

2025-07-26T22:11:30+00:00 ― 11 min lire

Bases de données L'évolution des bases de données GPU

Examen des avancées dans la technologie des bases de données GPU et de leurs performances.

2025-07-26T19:49:18+00:00 ― 12 min lire