L'Institut britannique de sécurité IA révèle que les benchmarks sous-estiment les capacités des agents
Une étude de l'AI Security Institute (AISI) montre que les benchmarks standards sous-évaluent les performances des agents IA en limitant leur budget de calcul.
Publié 1h·1 média·Important
≈ 32s
25 %
Sur des tâches d'ingénierie logicielle, le taux de succès augmente de 25 % avec un budget de…
60 %
Les modèles récents bénéficient davantage de cette augmentation, suggérant une progression r…
Le fait
Sur des tâches d'ingénierie logicielle, le taux de succès augmente de 25 % avec un budget de tokens multiplié par dix.
Les modèles récents bénéficient davantage de cette augmentation, suggérant une progression réelle 60 % plus rapide que les mesures précédentes.
Anthropic bloque l'accès à Claude Code pour des entreprises chinoises comme ByteDance et Ant Financial, mais ces dernières contournent les restrictions via VPN et filiales étrangères
Le hedge fund Bridgewater et Thinking Machines Lab révèlent qu’un modèle open-weight optimisé dépasse les performances de GPT et Claude dans l’analyse de documents financiers, pour un coût bien inférieur.