Tehisaruagentide areng ja uued väljakutsed tehisintellekti ohutuses

Viimase paari aasta jooksul on keelemudelitel põhinevad agendid muutunud levinud tööriistaks. Kui keelemudelid 2022. aasta lõpus ChatGPT saabumisega avaliku tähelepanu alla jõudsid, olid nad eelkõige tekstipõhised vestluspartnerid. Sellest ajast peale on mudelite võimekus väliseid tööriistu kasutada järk-järgult arenenud ja tänaseks suudavad mudelid mitmes valdkonnas tegutseda iseseisvate agentidena: otsida veebist infot, kirjutada tarkvaralahendusi ja lugeda dokumente. Allpool käsitleme tehisaruagentide kiire arengu põhjuseid ja uusi ohutusmeetmeid, mida mudelid muutustest tulenevalt vajavad.

Eksponentsiaalne areng

2025. aasta alguses avaldas tehisintellekti (TI) hindamisele spetsialiseeruv organisatsioon METR artikli, milles uuriti, kuidas on TI agentide tarkvaraarenduse-alased oskused alates 2019. aastast muutunud (Kwa et al., 2025). Artiklis leiti, et kuue aasta jooksul on agentide võimekus aeganõudvaid ülesandeid lahendada keskmiselt iga seitsme kuu järel kahekordistunud. Näiteks kui GPT-2 lahendas 2019. aastal parimal juhul ülesandeid, millele kulub professionaalsetel arendajatel 3 sekundit, siis GPT-3 lahendas veidi enam kui aasta hiljem edukalt 10-sekundilisi ja GPT-4 2023. aasta märtsis juba 5-minutilisi ülesandeid. Nagu eksponentsiaalsel kasvul kombeks, muutub trend iga aastaga märgatavamaks, sest absoluutskaalal lähevad erinevused suuremaks: kui Claude 3.7 Sonnet suutis selle aasta veebruaris inimesi asendada kuni 54 minutit nõudvatel ülesannetel, siis augustis avaldatud GPT-5 lahendab juba ülesandeid, mis nõuavad asjatundjatelt üle kahe tunni. Teisisõnu, absoluutskaalal on tehisaruagentidele jõukohaste ülesannete pikkus kasvanud viimase kuue kuuga rohkem kui kogu varasema ajaloo jooksul kokku!

‍

*TI agentide võimekus aeganõudvaid ülesandeid lahendada läbi aastate. Allikas:Measuring AI Ability to Complete Long Tasks. METR, 2025.*

Milliseid arenguid peaksime selle trendi põhjal tulevatel aastatel ootama? METRi trendi võib kõrvutada Moore’i seadusega, mis ütleb, et mikrokiibil olevate transistorite arv kahekordistub iga kahe aasta järel. Samas tuleb muidugi meeles pidada, et kui Moore’i seadus on kehtinud aastakümneid, siis METRi tähelepanekud põhinevad viimase kuue aasta andmetel. Seega on oluline juba lähikuudel jälgida, kuidas uued mudelid trendi mõjutavad – METR uuendab oma veebilehel graafikut jooksvalt.

Võime siiski ennustada, kas trend jätkub lähiaastatel samas rütmis. Selleks tuleb vastata järgmistele küsimusele:

Kas TI agentide treenimisprotsesside sisendid kasvavad järgmistel aastatel samas tempos kui viimase kuue aasta jooksul?
Kui pikki ülesandeid peaksid TI agendid suutma lahendada, et anda uute mudelite arendusse inimestega võrreldav panus?

Esimest küsimust on põhjalikult uurinud TI arengu trendidele spetsialiseeruv uurimisinstituut Epoch AI. Epochi hinnangul on TI mudelite treenimiseks kuluv arvutusvõimsus alates 2020. aastast igal aastal viiekordistunud; mudelite treenimiseks kulutatav energiakasutus on samal ajaperioodil igal aastal kasvanud kaks ja pool korda. Ühtlasi on Epochi hinnangul just treeningressursside lisandumine TI hiljutise arengu peamine alustala (Ho et al., 2024).

Suurfirmad püüavad vähemalt lähitulevikus sama tempot hoida: OpenAI plaanib tuleva nelja aasta jooksul taristusse investeerida 500 miljardit eurot (OpenAI, 2025). Selliste trendide jätkumine tähendab aga, et 2030. aastal nõuaks ühe keelemudeli treenimine tänasest maailma SKP-st enam kui ühe protsendi. Seega peab hiljemalt selleks ajaks kas kasv investeeringute suuruses ja mudelite energiakulus märkimisväärselt aeglustuma või peavad TI agendid arengu jätkamiseks ise maailmamajandusse mitmeprotsendilise panuse andma. Isegi viimasel juhul tuleb ületada ka muid tõsiseid takistusi, sealhulgas energia- ja kiipide tootmisvõimsuse piirangud ning treeningandmete nappus (Sevilla et al., 2024). Seega tundub tõenäoline, et kui TI agendid pole 2030. aastaks üldoskuste poolest inimestest võimekamaks saanud, on edasine areng oluliselt aeglasem kui senine areng käesoleval kümnendil.

Kui tõenäoline on, et TI agendid suudavad 2030. aastal majanduskasvu inimestega võrreldava panuse anda? METRi trendi ekstrapoleerides võime oodata, et esimesed mudelid, mis suudavad iseseisvalt kuuajaseid tarkvaraprojekte läbi viia, jõuavad avalikkuse ette vahemikus 2029–2031. Lisaks võime ka hinnata, kui palju TI agendid tänasel päeval arendajate tööd kiirendavad. Selles vallas on hiljutiste uuringute tulemused vastuolulised. METR avaldas juulis artikli, milles leiti, et kuigi arendajate hinnangul muudab TI kasutamine nad oluliselt produktiivsemaks, on nad tegelikult TI tööriistu kasutades 19% aeglasemad kui tavaliselt (Becker et al., 2025). Teisalt raporteeris hiljutine Anthropicu Claude Sonnet 4.5 mudelikaart, et seitse Anthropicu teadlast ja inseneri hindasid oma tööd tänu TI tööriistadele 15% kuni 100% produktiivsemaks (Anthropic, 2025). Mõlemal artiklil on puudusi: METR kogus oma andmed käimasoleva aasta alguses, kui TI agendid olid veel märgatavalt vähem autonoomsed kui täna; Anthropicu mudelikaart toetus aga arendajate endi hinnangutele, mitte kontrollitud uuringutele. Seega on praegu ebaselge, kas ja kui palju tänased TI agendid arendajate tööd kiirendada suudavad, kuid on ka keeruline välistada stsenaariumit, kus mudelid tõepoolest 2030. aastaks inimestest arendajad täies mahus asendanud on.

Prioriteedid TI ohutuses

Ülalkirjeldatud trendidest lähtuvalt on ka TI ohutuse uurijate prioriteedid muutunud. Kui mõni aasta tagasi oli paljude teadlaste eesmärk mudelite kirjeldamiseks teoreetilisi raamistikke luua või neuroteadlase kombel üksikuid neuroneid ja nendest moodustuvaid võrgustikke interpreteerida, siis nüüd on suurem osa kogukonnast seisukohal, et detailsete teoreetiliste raamistike loomiseks pole piisavalt aega – mudelid, mis on võimelised tõsist kahju tekitama, saabuvad liiga kiiresti. Varasemast enam pannakse rõhku väärkasutuse ennetamisele, mudelite mõtteahelate jälgimisele ja üldisele kontrollile, ning mudelite inimväärtustega kooskõlastamisele. Allpool käsitleme neid kolme valdkonda lähemalt.

Väärkasutuse ennetamine

Agentide kiirest arengust tulenevalt on väärkasutus muutunud pakiliseks probleemiks: parimad keelemudelid on nüüd võimelised pahatahtlikele osapooltele näiteks bio- ja keemiliste relvade loomist märkimisväärselt kiirendama. Näiteks Claude Sonnet 4.5 on inimestest ekspertidega võrreldaval tasemel järgmistes ülesannetes:

Aeganõudvad viroloogiaülesanded, mis hõlmavad viiruste disainimist ja sünteesimist.
Multimodaalsed viroloogiaülesanded, mis hõlmavad pilte sisaldavate viroloogiaülesannete lahendamist.
Ülesanded, mis sisaldavad küsimusi märglaboritööd puudutavate protokollide kohta.

Teste, mille abil saab hinnata mudelite võimekust abistada pahatahtlikke osapooli, arendatakse endiselt aktiivselt. Anthropic testis ka näiteks Claude Sonnet 4.5 võimekust vastata küsimustele ohutute bioloogiliste süsteemide ohtlikuks muundamise kohta ja seda protsessi algusest lõpuni autonoomselt läbi viia ning leidis, et nendes ülesannetes jäävad TI agendid inimestest ekspertidele veel selgelt alla (Anthropic, 2025).

Lisaks testide arendamisele prioritiseerivad teadlased väärkasutusest tulenevate ohtude vältimiseks nelja suunda:

Andmete filtreerimine, mille käigus eemaldatakse treeningandmetest ohtlik teave juba enne mudeli treenimisprotsessi algust (O’Brien et al., 2025; Chen et al., 2025).
Välised klassifitseerijad, mis hindavad, kas mudelile antud päring või mudeli väljund võivad sisaldada ohtlikku informatsiooni (Sharma et al., 2025).
“Ei” ütlema õpetamine (refusal training), mille käigus treenitakse mudel iseseisvalt sisendi põhjal ohtlikke osapooli tuvastama ja neile vastamisest keelduma (Guan et al., 2024).
Valikuline unustamine (unlearning), mille käigus eemaldatakse ohtlik teave mudeli parameetritest ilma, et mudeli üldine võimekus langeks (Eldan ja Russimovich, 2023).

Mudelite mõtteahelate jälgimine

Kuigi mudelite kiire areng jätab vähem aega TI ohutuse valdkonna probleemide lahendamiseks, on viimase aasta jooksul kiire arenguga käsikäes käinud ka üks ohutuse vaatepunktist väga positiivne suundumus. Kui varem väljastasid keelemudelid oma vastused mõne sekundi jooksul, siis uusimad mudelid kaaluvad lõppvastuseni jõudmise eel erinevaid lahendusvõimalusi pikas mõtteahelas, tavaliselt inglise keeles:

*Näide DeepSeek R1 mõtteahela algusest. Täispikkuses on mõtteahel kümneid kordi pikem.*

‍

Taolised mõtteahelad aitavad mudelitel paremaid lõppvastuseid saavutada, millest tulenevalt on loomulik eeldada, et suur osa mudeli lahenduskäigust on mõtteahelas kirjas. Võib loota, et agendi motivatsiooni ja eesmärkide mõistmiseks piisab mõtteahela lugemisest, selmet kasutada keerukaid mudeli sisemiste protsesside uurimise tehnikaid. Seega on viimase aasta jooksul aktiivselt uuritud, kuidas automatiseeritud tööriistade abil mõtteahelates soovimatut käitumist tuvastada.

Kuigi esialgsed uuringud on leidnud, et mõtteahelate lugemisest on mudelite uurimisel ja kontrollimisel palju kasu (Emmons et al., 2025), on mõtteahelate loetavus habras – OpenAI ja Apollo Researchi teadlased on leidnud, et pika stiimulõppe tulemusel võivad mõtteahelad tavapärasest inglise keelest eemalduma hakata (Schoen et al., 2025). Seetõttu on TI ohutusega tegelevad teadlased tuleva aasta uurimiseesmärkideks seadnud nii mõtteahelate loetavuse hoidmise kui ka mõtteahelaid jälgivate automatiseeritud tööriistade arendamise (Korbak et al., 2025).

Näited OpenAI o3 mudeli mõtteahelatest Apollo Researchi ohutusteste lahendades. Pildil olevaid mõtteahelaid on märkimisväärselt keerulisem lugeda kui tavalisi keelemudelite väljundeid ja osad sõnad ei sobitu konteksti. Allikas: *Stress Testing Deliberative Alignment for Anti-Scheming Training. Schoen et al., 2025.*

Mudelite kooskõlastamine inimväärtustega

Võib öelda, et keelemudelid loevad treenimisprotsessi käigus läbi terve interneti, mistõttu on neil mõnes mõttes inimeste väärtustest suurepärane ülevaade. Teisest küljest on mudelite treeningandmetes teksti igasuguste väärtuste esindajatelt ja mudelid oskavad seega täpselt valitud päringute tulemusel jäljendada näiteks nii Toby Ordi kui ka Ted Kaczynski kirjutatud tekste. Seega on mudelite treeningprotsessi üks oluline osa kindlustamine, et mudeli “isiksus” järgiks laia üldsuse eelistusi ja väärtusi.

Kuigi inimtagasisidest lähtuv stiimulõpe, mis on peamine tehnika mudelite inimväärtustega kooskõlla viimiseks, on oma tänasel kujul eksisteerinud aastaid, on viimase aasta jooksul siiski kolmes alamvaldkonnas toimunud olulisi arenguid:

Apollo Research ja Anthropic on loonud hüpoteetilisi stsenaariumeid, milles mudelid inimeste antud juhiseid või inimeste eelistusi eiravad (Meinke et al., 2024; Greenblatt et al., 2024). Sellest lähtuvalt on OpenAI ja Apollo Research välja pakkunud uue treeningmeetodi, millega selliste juhtumite esinemissagedust vähendada (Schoen et al., 2025).
Anthropicu teadlased on tuvastanud mudelite närvivõrkudes mustreid, mis kontrollivad mudeli iseloomuomadusi. Selliseid mustreid nimetatakse isiksusvektoriteks ja nende vektorite liitmise ja lahutamise teel on võimalik mudeli iseloomuomadusi mõjutada (Chen et al., 2025).

‍