Accueil / 🤖 ia CRUX : évaluer les capacités des IA de frontier sur des tâches complexes Lancement de CRUX , un cadre d'évaluation conçu pour mesurer les capacités des modèles IA avancés sur des tâches longues et non structurées
Publié 5h · 1 média · Important
Écouter ≈ 29s Vitesse0.8× 1× 1.2× 1.5× 📋 Le fait Approche « open-world » qui simule des environnements réalistes plutôt que des benchmarks isolés, pour évaluer la robustesse et l'adaptabilité
Vise à combler l'écart entre les évaluations académiques et les performances réelles des systèmes IA en conditions operationnelles
🔍 Sources croisées — 1 média Synthèse automatisée à partir de 1 média · identifié le 31 mai 2026 À découvrir
🤖 IA
Anthropic déploie Sonnet 4.6, Google lance Gemini 3.1 Pro 🟢 5h · 1 source ActifImportant
Anthropic annonce la disponibilité de Claude Sonnet 4.6, sa dernière version du modèle phare
Lire la suite Replier ▾
Anthropic annonce la disponibilité de Claude Sonnet 4.6 , sa dernière version du modèle phare
Google déploie Gemini 3.1 Pro , enrichissant sa gamme de modèles d'IA générative
#Claude Sonnet 4.6 #Gemini 3.1 Pro #modèles IA Anthropic GoogleSource(s) à lire :
🤖 IA
GPT-5.4 et Gemini 3.1 Flash Lite : nouveaux modèles et réductions de coûts 🟢 5h · 1 source ActifImportant
OpenAI déploie GPT-5.4 avec variantes Pro et Thinking, renforçant son offre de modèles avancés
Lire la suite Replier ▾
OpenAI déploie GPT-5.4 avec variantes Pro et Thinking, renforçant son offre de modèles avancés
Google lance Gemini 3.1 Flash Lite à 1 /8e du coût de la version Pro, démocratisant l'accès aux grands modèles
#GPT-5.4 #Gemini 3.1 Flash Lite #modèles de langage OpenAI GoogleSource(s) à lire :
🤖 IA
Anthropic attaque Trump en justice, xAI recommence, fausses infos IA sur l'Iran 🟢 5h · 1 source ActifImportant
Anthropic intente une action en justice contre l'administration Trump dans un différend lié à un contrat avec le Pentagone autour de l'IA
Lire la suite Replier ▾
Anthropic intente une action en justice contre l'administration Trump dans un différend lié à un contrat avec le Pentagone autour de l'IA
xAI de Musk abandonne son infrastructure actuelle pour recommencer à zéro, critiquant la qualité de la construction initiale
#anthropic #xai #ia-generative Anthropic🏢 xAI Source(s) à lire :
🤖 IA
Anthropic classée risque chaîne logistique, tensions autour des contrats militaires IA 🟢 5h · 1 source ActifImportant
Le Département de la Défense américain classe officiellement Anthropic comme risque de chaîne logistique
Lire la suite Replier ▾
Le Département de la Défense américain classe officiellement Anthropic comme risque de chaîne logistique
Un mouvement '#QuitGPT' gagne du terrain après la signature d'un contrat entre OpenAI et le Pentagone
#Anthropic #OpenAI #chaîne logistique Anthropic OpenAISource(s) à lire :
🤖 IA
Nemotron 3 Super, départ chez xAI et action en justice d'Anthropic 🟢 5h · 1 source ActifImportant
NVIDIA présente Nemotron 3 Super, un modèle hybride Mamba-Transformer avec architecture MoE optimisée pour le raisonnement d'agents IA
Lire la suite Replier ▾
NVIDIA présente Nemotron 3 Super , un modèle hybride Mamba-Transformer avec architecture MoE optimisée pour le raisonnement d' agents IA
Un cofondateur supplémentaire quitte xAI , renforçant les turbulences internes chez la startup d'Elon Musk
#Nemotron 3 Super #Mamba-Transformer #MoE NVIDIA🏢 xAI Source(s) à lire :
🤖 IA
Salesforce affirme avoir réduit une migration de 231 jours à 13 jours avec Claude 🟢 5h · 1 source ActifImportant
Salesforce a migré son environnement de développement vers Claude Code (Anthropic) sans limites de tokens, rapportant 79% plus de pull requests par développeur et 5% moins d'incidents.
Lire la suite Replier ▾
Salesforce a migré son environnement de développement vers Claude Code ( Anthropic ) sans limites de tokens, rapportant 79 % plus de pull requests par développeur et 5 % moins d'incidents.
La migration aurait été réduite de 231 jours à 13 jours , mettant en avant les gains de productivité des agents IA autonomes.
#agents IA #Claude #migration dev 🏢 Salesforce AnthropicSource(s) à lire :
CRUX : évaluer les capacités des IA de frontier sur des tâches complexes | Factae | Factae