Les agents IA de recherche confirment leurs connaissances au lieu d'investiguer
Les modèles GPT-5.4 et Kimi K2.6 utilisent principalement le web pour valider leurs données d'entraînement plutôt que pour explorer vraiment, selon des chercheurs de l'Institut Harbin
Un nouveau benchmark temporel (LiveBrowseComp) testant uniquement des événements des 90 derniers jours révèle l'effondrement des performances quand les modèles ne peuvent pas s'appuyer sur leur mémoire
#search agents#benchmarks#knowledge vs. research🏢 Harbin Institute of Technology
OpenAI
Source(s) à lire :
Il y a 5h