Anthropic își adaptează testele tehnice pentru a preveni trișatul cu Claude
Testele tehnice ale Anthropic sunt constant revizuite pentru a preveni folosirea AI-ului Claude în trișare.
Anthropic își adaptează continuu testele tehnice pentru a preveni trișatul cu AI-ul Claude, începând din 2024. Tristan Hume explică provocările și soluțiile găsite.
Puncte Cheie
- Din 2024, Anthropic folosește un test tehnic pentru candidați.
- AI-ul Claude a determinat schimbări frecvente ale testului.
- Tristan Hume, liderul echipei, a detaliat provocările întâmpinate.
- Claude Opus 4 și 4.5 au performanțe remarcabile, complicând evaluarea candidaților.
- Anthropic a creat un nou test pentru a depăși limitele AI-ului actual.
Provocările testelor tehnice la Anthropic
Începând cu anul 2024, echipa de optimizare a performanței de la Anthropic a implementat un test tehnic pentru a verifica competențele candidaților la angajare. Cu toate acestea, odată cu avansarea instrumentelor de codare bazate pe inteligență artificială, testul a fost nevoit să se schimbe frecvent pentru a preveni trișatul asistat de AI. Liderul echipei, Tristan Hume, a explicat în detaliu istoria acestei provocări într-o postare pe blog. «Fiecare nou model Claude ne-a obligat să redesenăm testul», a scris Hume. «Cu același timp limitat, Claude Opus 4 a depășit majoritatea candidaților umani. Acest lucru ne-a permis totuși să distingem cei mai puternici candidați — dar apoi, Claude Opus 4.5 i-a egalat chiar și pe aceștia.»
Impactul AI-ului asupra evaluării candidaților
Problema evaluării candidaților devine serioasă în lipsa supravegherii fizice, deoarece nu există nicio modalitate de a asigura că cineva nu folosește AI pentru a trișa la test. «Sub constrângerile testului de acasă, nu mai aveam o modalitate de a distinge între rezultatele celor mai buni candidați și cele ale celui mai capabil model al nostru», a adăugat Hume. Fenomenul trișatului cu AI deja creează haos în școli și universități la nivel mondial, fiind ironic că și laboratoarele de AI trebuie să se confrunte cu această problemă. Totuși, Anthropic este bine echipat pentru a aborda această provocare.
Soluția inovatoare a lui Anthropic
În final, Hume a conceput un nou test care se concentrează mai puțin pe optimizarea hardware-ului, făcându-l suficient de inovator pentru a depăși instrumentele actuale de AI. Ca parte a postării, el a împărtășit testul original pentru a vedea dacă cineva ar putea veni cu o soluție mai bună. «Dacă poți depăși Opus 4.5», se menționează în postare, «ne-ar plăcea să auzim de la tine.»
Evenimentele viitoare StrictlyVC
Planifică din timp participarea la evenimentele StrictlyVC din 2026. Află perspective directe în sesiuni de discuții pe scenă și întâlnește constructorii și susținătorii care modelează industria. Alătură-te listei de așteptare pentru a obține acces prioritar la biletele cele mai ieftine și la actualizări importante.
Abonamente la newslettere
Abonează-te pentru a primi cele mai mari știri din industrie. În fiecare zi lucrătoare și duminică, poți primi cele mai bune acoperiri de la TechCrunch. TechCrunch Mobility este destinația ta pentru știri și perspective despre transport. Startup-urile sunt esențiale pentru TechCrunch, așa că primește cele mai bune acoperiri livrate săptămânal. Oferă celor care fac mișcări și agitatori informațiile de care au nevoie pentru a-și începe ziua. Prin trimiterea e-mailului tău, ești de acord cu Termenii și Nota de Confidențialitate.
• AI O cronologie a pieței semiconductorilor din SUA în 2025 Rebecca Szkutak • AI Anthropic revizuiește 'Constituția' lui Claude și sugerează conștiința chatbot-ului Lucas Ropek • AI CEO-ul Anthropic surprinde Davos cu criticile aduse Nvidia Connie Loizos • Apps Modul AI al Google poate accesa acum Gmail și Fotografii pentru a oferi răspunsuri personalizate Aisha Malik • AI Google ar fi achiziționat echipa din spatele startup-ului de voce AI Hume AI Rebecca Bellan • Fundraising De la pelerine de invizibilitate la cipuri AI: Neurophos strânge 110 milioane de dolari pentru a construi procesoare optice minuscule pentru inferență Ram Iyer
Abonează-te la StiriX
Primește cele mai noi știri tech direct pe email.
