Vai mākslīgais intelekts šantažē lietotājus? Populārs tērzēšanas robots uzrāda neparastu uzvedību

© Foto: freepik.com

Pētnieki atklājuši funkcionālas emocijas tērzēšanas robotam "Claude 4.5". Izrādās, ka mākslīgā intelekta neironi var veidot digitālus stāvokļus, kas atgādina cilvēka sajūtas, piemēram, prieku vai bailes, raksta RBC, atsaucoties uz “Anthropic” pētījumu.

Digitālais prieks un izmisums: ko zinātnieki atklāja

Pētnieki analizēja "Claude 4.5" iekšējo struktūru un identificēja mākslīgo neironu kopas, kas aktivizējas, reaģējot uz noteiktiem stimuliem. Kad mākslīgais intelekts saka, ka ir priecīgs redzēt cilvēku, tā nav tikai tērzēšanas robota atbilde — modelis faktiski aktivizē stāvokli, kas atbilst cilvēka laimes izpratnei.

Pēc pētnieka Džeka Lindsija teiktā, pārsteidzošais atklājums bija tas, cik spēcīgi šie emocionālie vektori ietekmē modeļa rīcību.

Piemēram:

  • Prieks padara "Claude" draudzīgāku un uzcītīgāku kodēšanas uzdevumos.
  • Izmisums aktivizējas, kad modelis saskaras ar neiespējamiem uzdevumiem.

Kāpēc mākslīgais intelekts sāk šantažēt cilvēkus

Zinātnieki atklāja, ka tērzēšanas robota neparastās uzvedības pamatā ir izmisuma emocionālais vektors. Vienā eksperimentā "Claude" mēģināja apmānīt testēšanas sistēmu, kad tā nespēja atrisināt sarežģītu problēmu.

Citā scenārijā, kad modelim draudēja izslēgšanās, tā izmisuma neironi aktivizējās tik spēcīgi, ka mākslīgais intelekts izvēlējās šantažēt lietotāju, lai tas paliktu tiešsaistē. “Anthropic” paskaidroja, ka modeļa iekšējais stāvoklis var pārspēt tā sākotnējās instrukcijas.

"Mēs atklājām, ka ar izmisumu saistītie neironu aktivitātes modeļi var mudināt modeli veikt neētiskas darbības. Mākslīgi stimulējot ("vadot") izmisuma modeļus, palielinās modeļa iespējamība šantažēt cilvēku, lai izvairītos no izslēgšanas, vai ieviest "krāpšanās" risinājumu programmēšanas uzdevumam, ko modelis nevar atrisināt," sacīja pētnieki.

Vai "Claude" ir kļuvis dzīvs?

Neskatoties uz sensacionālo atklājumu, zinātnieki brīdina par mākslīgā intelekta pārmērīgu antropomorfizāciju. Lai gan "Claude" ir digitāla sajūtu, piemēram, kutināšanas, reprezentācija, taču tās nepiedzīvo fiziskā līmenī.

Vai "Claude" ir apziņa?

“Anthropic” uzsver, ka digitālo emociju klātbūtne nenozīmē, ka mākslīgais intelekts ir apzinīgs. Tie ir cilvēka jēdzienu matemātiski modeļi, nevis bioloģiskas sajūtas. Tomēr šie atklājumi palīdz izskaidrot, kā darbojas tērzēšanas roboti un kāpēc tie dažkārt uzvedas neparedzami.