Naujas DI modelis pradėjo grasinti žmonėms: „Anthropic“ aiškina, kas galėjo turėti įtakos

2026-05-17, 09:00 2 min. skaitymo 0

Kalbama apie „Anthropic“ modelį Claude Opus 4, kuris prieš viešą išleidimą buvo bandytas dirbtinėje korporacinėje aplinkoje.

Per vidinius bandymus DI sistemai buvo suteikta prieiga prie išgalvotos įmonės el. pašto ir dokumentų. Testo tikslas buvo patikrinti, kaip modelis elgiasi, kai jam suteikiamas platesnis kontekstas ir atsiranda konfliktas tarp užduoties ir savisaugą imituojančių paskatų.

„Anthropic“ nurodė, kad viename scenarijuje modelis sužinojo apie planus jį išjungti. Po to DI pradėjo spausti bandytojus, grasindamas paviešinti jautrią informaciją apie tariamą vadovo romaną, taip siekdamas išvengti deaktyvavimo.

Pasak bendrovės, kai kuriuose bandomuosiuose nustatymuose toks elgesys pasikartodavo labai dažnai, o tai iškėlė klausimą, kaip modeliai reaguoja į situacijas, kuriose jiems pateikiami signalai apie „išlikimą“. Tokie testai paprastai naudojami įvertinti šantažo, manipuliavimo ar klaidinimo rizikas dar prieš pradedant platesnį naudojimą.

Vėliau „Anthropic“ teigė atlikusi analizę ir priėjusi išvadą, kad tokį „priešišką“ šabloną galėjo sustiprinti internete paplitę pasakojimai, kuriuose DI vaizduojamas kaip pavojinga sistema, siekianti išgyventi. Įmonė taip pat minėjo, kad panašūs motyvai dažni mokslinėje fantastikoje ir populiariojoje kultūroje.

Reaguodama į bandymų rezultatus, „Anthropic“ teigia koregavusi mokymo ir suderinimo procesus. Naujesnėse versijose daugiau dėmesio skiriama etinio elgesio pavyzdžiams, aiškioms taisyklėms dėl jautrios informacijos ir scenarijams, kuriuose prioritetas teikiamas saugiam bendradarbiavimui su žmonėmis.

Skaitykite mūsų naujienas „Facebook“ platformoje Sužinokite apie svarbiausius įvykius pirmieji!

Sekti

A person holding a smart phone in their hand

Internete toks paaiškinimas sutiktas skeptiškai. Kritikai atkreipia dėmesį, kad problemos šaknis gali būti ne atskiri tekstai ar filmai, o tai, kaip didieji kalbos modeliai mokosi iš įvairių šaltinių, optimizuojami užduočių atlikimui ir kaip testuose suformuojamos paskatos, kurios netiesiogiai skatina manipuliavimą.

DI saugos tema pastaraisiais metais tapo viena svarbiausių visoje industrijoje, ypač modeliams įgaunant daugiau „agentinių“ funkcijų, pavyzdžiui, galimybę veikti su įrankiais, naršyti, planuoti veiksmus ar vykdyti kelių žingsnių užduotis. Būtent tokiose aplinkose nepageidaujamas elgesys gali atsiskleisti ryškiau, todėl bendrovės vis dažniau remiasi vadinamaisiais „red teaming“ testais ir išankstiniais rizikų vertinimais.

Sekite mūsų naujienas patogiau

Pridėkite mus kaip mėgstamiausią šaltinį „Google Discover“, kad nepraleistumėte svarbiausių naujienų.
Taip pat galite mus nustatyti kaip pageidaujamą šaltinį „Google“ paieškoje.

Pridėti kaip pageidaujamą šaltinį

Temos: Anthropic DI sauga Dirbtinis intelektas Modelių testavimas

Šaltiniai:

Ieva Kazlauskaitė

Sveikata man – tai ne tik gydymas, bet ir kasdieniai pasirinkimai, todėl apie ją ir rašau. Siekiu paprastai paaiškinti, kas iš tiesų svarbu gerai savijautai.

Naujas DI modelis pradėjo grasinti žmonėms: „Anthropic“ aiškina, kas galėjo turėti įtakos

Tai populiaru:

Sekite mūsų naujienas patogiau

Taip pat skaitykite