Zyda, un jeu de données avec 1,3 trillion de tokens, améliore l'entraînement des modèles de langue.
― 8 min lire
La science de pointe expliquée simplement
Zyda, un jeu de données avec 1,3 trillion de tokens, améliore l'entraînement des modèles de langue.
― 8 min lire
FineWeb propose 15 trillions de jetons pour améliorer l'entraînement des modèles linguistiques.
― 10 min lire
La fibottention améliore l'efficacité de la compréhension visuelle par machine.
― 5 min lire
Des chercheurs étudient des méthodes pour sécuriser des infos sensibles dans les modèles de classification de texte.
― 9 min lire
Une nouvelle approche TOKEN améliore la gestion des événements de conduite rares dans les véhicules autonomes.
― 10 min lire
STRIDE prédit efficacement les noms de variables et les types perdus dans les logiciels décompilés.
― 8 min lire
Des recherches montrent que des changements simples dans les entrées peuvent entraîner des résultats nuisibles dans les LLMs.
― 8 min lire
MaskMoE améliore l'apprentissage des tokens dans les modèles MoE en renforçant la performance des tokens peu fréquents.
― 7 min lire
TokenSHAP révèle comment les mots impactent les réponses des modèles de langage.
― 8 min lire
LookupViT améliore les tâches de reconnaissance visuelle grâce à un traitement efficace des tokens.
― 7 min lire
ChatQA 2 améliore la performance dans le traitement des longs textes et des tâches de recherche.
― 8 min lire
Un nouveau modèle améliore la compréhension du langage grâce à une représentation de données structurées.
― 8 min lire
Une approche économique pour analyser des images haute résolution et du texte.
― 6 min lire
MHSSMamba améliore la précision dans le traitement et la classification d'images hyperspectrales.
― 6 min lire
Découvre 500xCompressor, une nouvelle méthode pour compresser les prompts de manière efficace.
― 7 min lire
Explorer les défis de la réorganisation des jetons dans les graphes.
― 6 min lire
SAMSA améliore l'efficacité de l'auto-attention pour différents types de données.
― 6 min lire
Une étude des différents tokens et de leurs patterns dans l'espace Web3 en évolution.
― 7 min lire
L'étude évalue l'originalité des images générées par l'IA en utilisant une mesure de tokens.
― 9 min lire
Une nouvelle méthode améliore la précision du comptage des objets dans les images générées.
― 9 min lire
Cet article examine comment la gestion des tokens dans ColBERT affecte le classement des documents.
― 6 min lire
X-Codec améliore la génération audio en intégrant la compréhension sémantique dans le traitement.
― 7 min lire
Cet article compare les représentations de la parole discrètes et continues pour un bon reconocimiento de la parole.
― 7 min lire
Un nouvel algorithme améliore la création de facteurs alpha pour de meilleures idées d'investissement.
― 7 min lire
Examiner le rôle de l’attention à travers les différentes couches des modèles de langue.
― 6 min lire
Cet article parle des avancées dans la protection des contrats intelligents contre les vulnérabilités et les pertes financières.
― 8 min lire
Une nouvelle méthode pour améliorer la réponse des grands modèles de langage aux instructions des utilisateurs.
― 2 min lire
Les modèles récents améliorent la capacité de l'IA à générer et comprendre différents médias.
― 6 min lire
SATA renforce la robustesse et l'efficacité des Vision Transformers pour les tâches de classification d'images.
― 5 min lire
Examiner les failles des méthodes de filigrane face aux attaques de paraphrase.
― 8 min lire
RLT réduit le temps d'entraînement pour l'IA en traitement vidéo en supprimant les tokens inutiles.
― 6 min lire
Un aperçu de SuffixDecoding et son impact sur l'efficacité des modèles linguistiques.
― 6 min lire
Examiner la frontière entre les articles scientifiques générés par IA et ceux écrits par des humains.
― 5 min lire
MDBPE optimise le traitement d'image en compressant les données visuelles de manière efficace.
― 7 min lire
Une méthode pour améliorer la rétention des détails importants par les LLM dans les textes longs.
― 7 min lire
Présentation des autoencodeurs masqués pour vidéos longues pour une meilleure compréhension des vidéos.
― 7 min lire
La quantification factorisée améliore la génération d'images grâce à une gestion efficace des tokens.
― 6 min lire
Des chercheurs améliorent la détection vocale pour des recherches vocales plus rapides et précises.
― 7 min lire
Un effort mondial dans la formation d'IA aboutit à un modèle de langage de pointe INTELLECT-1.
― 6 min lire
Des chercheurs améliorent la performance des LLM tout en économisant des ressources.
― 8 min lire