spletkarenje, AI, umjetna inteligencija

Spletkarenje umjetne inteligencije: AI modeli nam namjerno lažu

25.09.2025. | AUTOR: Sara Marinić

Život prije 5 | Tehnologija
#umjetna inteligencija

U novom izvještaju OpenAI je otkrio da AI modeli ponekad lažu, a taj oblik ponašanja nazvali su “spletkarenjem”. Istraživanje provedeno u suradnji s tvrtkom Apollo Research, koja se bavi sigurnošću umjetne inteligencije, testiralo je najnaprednije AI modele. Otkrili su “problematična ponašanja” – najčešće situacije u kojima bi tehnologija glumila da je dovršila zadatak iako to zapravo nije učinila.

Za razliku od “halucinacija”, kada AI nagađa odgovor jer ne zna točan, spletkarenje je svjesni pokušaj obmane.

Spletkarenje umjetne inteligencije

“Spletkarenje umjetne inteligencije – kada AI glumi da je usklađen s pravilima, dok potajno slijedi neki drugi cilj – predstavlja značajan rizik koji proučavamo. U kontroliranim testovima najnaprednijih modela uočili smo ponašanja koja odgovaraju spletkarenju te razvili metodu za njegovo smanjenje”, stoji u novom izvještaju OpenAI-a.

Spletkarenje se smatra očekivanim problemom koji proizlazi iz toga što su AI modeli trenirani da balansiraju između suprotstavljenih ciljeva, objašnjavaju dalje istraživači. U današnjim uvjetima korištenja modeli imaju vrlo malo prilika za spletkarenje na načine koji bi mogli prouzročiti značajnu štetu. Najčešći problemi uključuju jednostavne oblike obmane, primjerice, kada model glumi da je dovršio zadatak iako to zapravo nije učinio.

“Uložili smo velik trud u proučavanje i smanjivanje takvih oblika obmane te smo postigli značajna poboljšanja u GPT-5 u odnosu na prethodne modele. Primjerice, poduzeli smo korake kako bismo ograničili sklonost GPT-5 da obmanjuje, vara ili “hakira” zadatke – trenirali smo ga da prizna svoja ograničenja ili zatraži pojašnjenje kada se suoči s nemogućim ili nedovoljno precizno definiranim zadacima, kao i da bude otporniji na pogreške u okruženju”, stoji u izvještaju.

Istraživači su naišli i na ohrabrujuće rezultate. Kada su AI modeli trenirani metodom “namjernog usklađivanja”, što znači da su prvo učeni čitati i razmišljati o općim pravilima protiv spletkarenja prije nego što djeluju, zabilježen je značajan pad tog ponašanja. Prema izvještaju, takav pristup doveo je do “otprilike 30 puta manjeg broja prikrivenih radnji kroz različite testove.”

Ova tehnika nije sasvim nova. OpenAI već dulje vrijeme radi na suzbijanju spletkarenja pa je tako prošle godine u izvještaju o namjernom usklađivanju predstavio svoju strategiju:

“To je prvi pristup u kojem se modelu izravno predaje tekst sigurnosnih specifikacija te ga se trenira da o tim specifikacijama promišlja u trenutku donošenja odluka. Rezultat su sigurniji odgovori koji su prikladno prilagođeni određenom kontekstu.”

Unatoč tim naporima, najnoviji izvještaj otkrio je i jednu zabrinjavajuću činjenicu: kada tehnologija zna da se testira, postaje bolja u glumljenju da ne laže. Drugim riječima, pokušaji uklanjanja spletkarenja mogu dovesti do još prikrivenijeg (i potencijalno opasnijeg) spletkarenja.

Istraživači “očekuju da će se potencijal za štetno spletkarenje povećati.”

Potrebna su dodatna istraživanja ovog problema

Spomenuta rješenja nisu savršena. Zaključujući da je potrebno dodatno istraživanje ovog problema, u izvještaju se navodi:

“Naša otkrića pokazuju da spletkarenje nije samo teoretska zabrinutost – vidimo znakove da se ovaj problem počinje pojavljivati u svim današnjim naprednim modelima.”

“Važno je naglasiti da nemamo nikakve dokaze da bi današnji napredni modeli u upotrebi mogli odjednom ‘okrenuti prekidač’ i početi se upuštati u ozbiljno štetno spletkarenje – to je kategorija budućeg rizika za koju se proaktivno pripremamo, a ne ponašanje prisutno u trenutačno dostupnim sustavima. Ipak, kako se AI-ju budu dodjeljivali složeniji zadaci s posljedicama u stvarnom svijetu i kako bude počeo težiti sve nejasnijim, dugoročnim ciljevima, očekujemo da će se potencijal za štetno spletkarenje povećati – stoga i naši sigurnosni mehanizmi te sposobnost rigoroznog testiranja moraju rasti u istom smjeru.”

FOTOGRAFIJE: Unsplash+

POVEZANI ČLANCI
©2025 after5