FactaeTHE FACTUAL NEWS

Benchmarks

4 articles récents mentionnant Benchmarks.

Les agents IA de recherche confirment leurs connaissances au lieu d'investiguer

Les modèles GPT-5.4 et Kimi K2.6 utilisent principalement le web pour valider leurs données d'entraînement plutôt que pour explorer vraiment, selon des chercheurs de l'Institut Harbin

Un nouveau benchmark temporel (LiveBrowseComp) testant uniquement des événements des 90 derniers jours révèle l'effondrement des performances quand les modèles ne peuvent pas s'appuyer sur leur mémoire

#search agents#benchmarks#knowledge vs. research🏢 Harbin Institute of Technology OpenAI
Source(s) à lire :
Il y a 4h

Les 4 approches principales pour évaluer les LLM

Panorama des méthodes d'évaluation des modèles de langage : benchmarks à choix multiples, vérificateurs automatisés, leaderboards et juges basés sur LLM

Comparaison des forces et limites de chaque approche avec exemples de code pratiques

#LLM#évaluation#benchmarks
Source(s) à lire :
Il y a 4h

État des LLM en 2025 : avancées, défis et perspectives

Panorama 2025 des grands modèles de langage couvrant les architectures émergentes et l'évolution des benchmarks

Focus sur DeepSeek R1 et les techniques d'optimisation au moment de l'inférence (inference-time scaling)

#LLM#DeepSeek R1#inference-time scaling🏢 DeepSeek
Source(s) à lire :
Il y a 4h

Tags associés

LLM · 2évaluation · 2search agents · 1knowledge vs. research · 1web search · 1model limitations · 1verifiers · 1leaderboards · 1LLM judges · 1DeepSeek R1 · 1inference-time scaling · 1architectures · 1
Benchmarks — actualité multi-sources | Factae