Zhenmei Shi

Apprentissage automatique Modèles de langage large et raisonnement mathématique

Examinant la capacité des LLMs à résoudre des problèmes mathématiques, surtout l'arithmétique modulaire.

2025-09-01T14:38:32+00:00 ― 10 min lire

Apprentissage automatique Le rôle du Softmax dans les réseaux de neurones

Explorer l'importance de softmax dans la performance et les applications des réseaux de neurones.

2025-08-13T07:02:54+00:00 ― 5 min lire

Apprentissage automatique Améliorer l'efficacité de l'attention dans les Transformers

Une nouvelle méthode améliore les mécanismes d'attention dans les modèles linguistiques pour de meilleures performances.

2025-08-12T17:05:30+00:00 ― 7 min lire

Apprentissage automatique Comprendre les modèles de diffusion en apprentissage automatique

Explorer les bases et les applications des modèles de diffusion dans différents domaines.

2025-08-07T06:52:24+00:00 ― 7 min lire

Apprentissage automatique Avancées dans les mécanismes d'attention tensorielle

Explorer l'attention tensorielle et son impact sur le traitement des données dans les modèles d'IA.

2025-08-07T06:44:30+00:00 ― 5 min lire

Apprentissage automatique Les Défis de l'Apprentissage en Contexte dans les Gros Modèles

Examiner pourquoi les modèles plus grands ont du mal avec l'apprentissage en contexte par rapport aux plus petits.

2025-08-05T08:55:18+00:00 ― 8 min lire

Apprentissage automatique Améliorer les modèles de langage avec l'apprentissage de préfixe et l'attention NTK

Avancées dans le fine-tuning des modèles de langage avec des techniques innovantes.

2025-07-26T01:47:00+00:00 ― 8 min lire

Vision par ordinateur et reconnaissance des formes Défis dans les capacités de raisonnement spatial de l'IA

Les modèles actuels galèrent avec le raisonnement spatial, s'appuyant plus sur le texte que sur les images.

2025-07-26T01:07:30+00:00 ― 7 min lire

Apprentissage automatique Équilibrer la vie privée et la performance dans les systèmes d'IA

Examiner la confidentialité différentielle et la régression NTK pour protéger les données des utilisateurs dans l'IA.

2025-07-11T01:56:18+00:00 ― 9 min lire

Apprentissage automatique Protéger la vie privée dans les mécanismes de cross-attention de l'IA

Explorer la confidentialité différentielle pour protéger les infos sensibles dans les applis IA.

2025-07-10T14:21:06+00:00 ― 7 min lire

Calcul et langage Évaluation de la capacité compositionnelle dans les grands modèles de langage

Explorer comment les LLMs s'en sortent sur des tâches composites qui combinent des tâches plus simples.

2025-07-09T00:25:54+00:00 ― 10 min lire

Structures de données et algorithmes Combiner la confidentialité différentielle avec le calcul des ellipsoïdes de John

Une nouvelle méthode améliore le calcul des ellipsoïdes de John tout en protégeant les données sensibles.

2025-06-29T13:26:18+00:00 ― 10 min lire

Structures de données et algorithmes Améliorer l'efficacité des grands modèles de langage

SparseGPT améliore la vitesse et l'efficacité des grands modèles de langage grâce à l'élagage des paramètres.

2025-06-23T13:23:42+00:00 ― 5 min lire

Apprentissage automatique Une méthode innovante réduit le temps de calcul des gradients pour les transformers

Une nouvelle méthode améliore les calculs de gradient, rendant les transformeurs plus efficaces en apprentissage automatique.

2025-06-23T07:28:12+00:00 ― 5 min lire

Calcul et langage Améliorer le traitement des longues entrées dans les modèles de langue

Une méthode pour améliorer l'efficacité des modèles de langage avec de longs textes.

2025-06-06T05:27:36+00:00 ― 7 min lire

Apprentissage automatique Transformers dans le traitement du langage : limites et potentiel

Explorer les capacités et les défis de la technologie des Transformers pour comprendre le langage.

2025-05-24T19:18:45+00:00 ― 7 min lire

Complexité informatique Débloquer les secrets des réseaux de Hopfield modernes

Un coup d'œil sur comment les MHNs peuvent améliorer l'apprentissage automatique.

2025-04-03T15:17:33+00:00 ― 7 min lire

Complexité informatique Mamba vs. Modèles d'Espace d'État : Le Duel de l'IA

Un aperçu de Mamba et des modèles d'état-espace dans les capacités de l'IA.

2025-04-02T21:38:15+00:00 ― 8 min lire

Apprentissage automatique L'avenir de l'IA : Explication de l'attention tensorielle

Découvrez comment l'attention tensorielle transforme le traitement du langage par l'IA.

2025-02-01T10:43:03+00:00 ― 8 min lire

Apprentissage automatique Suivi rapide de l'IA : Mécanismes d'attention RoPE

De nouvelles méthodes améliorent l'attention RoPE, accélérant considérablement les calculs d'IA.

2025-01-29T08:53:15+00:00 ― 7 min lire