Sunt agenții AI pregătiți pentru locul de muncă? Un nou etalon ridică semne de întrebare.
Benchmark-ul APEX-Agents arată limitele curente ale AI în munca de birou.
Benchmark-ul APEX-Agents dezvăluie limitele actuale ale AI în munca de birou, cu modele care obțin scoruri scăzute. Brendan Foody subliniază necesitatea ca AI să opereze în medii complexe similare celor umane.
Puncte Cheie
- Satya Nadella a prezis că AI va înlocui munca de cunoaștere.
- Benchmark-ul APEX-Agents a fost creat de Mercor pentru a testa AI în sarcini de birou.
- Modelele AI au obținut scoruri scăzute, cu cel mai bun rezultat de 24% acuratețe.
- Mercor a descoperit că AI întâmpină dificultăți în gestionarea informațiilor din mai multe domenii.
- Brendan Foody a subliniat că AI trebuie să opereze în medii complexe, similare celor umane.
- Benchmark-ul APEX-Agents se concentrează pe profesii de înaltă valoare, cum ar fi consultanța și avocatura.
- OpenAI a creat un benchmark similar, GDPval, dar cu un focus diferit.
AI și provocările muncii de birou
În urmă cu aproape doi ani, Satya Nadella, CEO-ul Microsoft, a prezis că inteligența artificială (AI) va înlocui munca de cunoaștere, adică joburile de birou deținute de avocați, bancheri de investiții, bibliotecari, contabili, IT și alții. Deși modelele de bază au făcut progrese semnificative, schimbarea în munca de cunoaștere a fost lentă. Modelele AI au stăpânit cercetarea detaliată și planificarea agentică, dar, din diverse motive, majoritatea muncii de birou a rămas relativ neafectată. Aceasta este una dintre cele mai mari enigme ale AI, iar datorită noilor cercetări de la Mercor, un gigant al datelor de antrenament, începem să primim unele răspunsuri.
Benchmark-ul APEX-Agents: o provocare pentru AI
Noua cercetare de la Mercor analizează cum se descurcă modelele AI de top în sarcini reale de muncă de birou, extrase din consultanță, banking de investiții și drept. Rezultatul este un nou benchmark numit APEX-Agents, iar până acum, fiecare laborator AI primește o notă de trecere. Confruntate cu întrebări de la profesioniști reali, chiar și cele mai bune modele au avut dificultăți în a răspunde corect la mai mult de un sfert din întrebări. Majoritatea timpului, modelul a revenit cu un răspuns greșit sau fără răspuns deloc.
Dificultăți în gestionarea informațiilor complexe
Potrivit lui Brendan Foody, CEO-ul Mercor, care a lucrat la acest studiu, cel mai mare obstacol al modelelor a fost găsirea informațiilor din mai multe domenii - ceva esențial pentru majoritatea muncii de cunoaștere efectuate de oameni. «Una dintre marile schimbări în acest benchmark este că am construit întregul mediu, modelat după cum funcționează serviciile profesionale reale», a declarat Foody pentru TechCrunch. «Modul în care ne facem treaba nu este cu o singură persoană care ne oferă tot contextul într-un singur loc. În viața reală, operezi pe Slack, Google Drive și alte instrumente.» Pentru multe modele AI agentice, acest tip de raționament multidomeniu este încă imprevizibil.
Benchmark-uri și viitorul automatizării muncii
Scenariile au fost toate extrase de la profesioniști reali de pe piața de experți Mercor, care au formulat întrebările și au stabilit standardul pentru un răspuns de succes. Privind prin întrebările, care sunt postate public pe Hugging Face, se poate observa cât de complexe pot deveni sarcinile. De exemplu, o întrebare legată de exportul de date personale în timpul unei întreruperi de producție în UE necesită o evaluare detaliată a politicilor companiei și a legilor relevante privind confidențialitatea UE.
Performanța modelelor AI și așteptările viitoare
În timp ce niciunul dintre modele nu s-a dovedit pregătit să preia roluri de bancheri de investiții, unele au fost clar mai aproape de obiectiv. Gemini 3 Flash a avut cea mai bună performanță din grup cu o acuratețe de 24%, urmat îndeaproape de GPT-5.2 cu 23%. Sub acestea, Opus 4.5, Gemini 3 Pro și GPT-5 au obținut aproximativ 18% fiecare. Deși rezultatele inițiale sunt sub așteptări, domeniul AI are un istoric de depășire a benchmark-urilor dificile. Acum că testul APEX-Agents este public, este o provocare deschisă pentru laboratoarele AI care cred că pot face mai bine - ceva ce Foody se așteaptă pe deplin în lunile următoare.
Îmbunătățiri rapide și impactul lor
«Se îmbunătățește foarte repede», a declarat Foody pentru TechCrunch. «În acest moment, este corect să spunem că este ca un intern care are dreptate într-un sfert din cazuri, dar anul trecut era internul care avea dreptate în cinci sau 10% din cazuri. Acest tip de îmbunătățire an de an poate avea un impact atât de rapid.»
Abonează-te la StiriX
Primește cele mai noi știri tech direct pe email.
