Les modèles GPT-5.4 et Kimi K2.6 utilisent principalement le web pour valider leurs données d'entraînement plutôt que pour explorer vraiment, selon des chercheurs de l'Institut Harbin
Un nouveau benchmark temporel (LiveBrowseComp) testant uniquement des événements des 90 derniers jours révèle l'effondrement des performances quand les modèles ne peuvent pas s'appuyer sur leur mémoire
#search agents#benchmarks#knowledge vs. research🏢 Harbin Institute of Technology OpenAI
Panorama des méthodes d'évaluation des modèles de langage : benchmarks à choix multiples, vérificateurs automatisés, leaderboards et juges basés sur LLM
Comparaison des forces et limites de chaque approche avec exemples de code pratiques