Mākslīgais intelekts mācās melot, shēmot un apdraudēt savus radītājus

Portāls nra.lv schedule2.jūl

Pasaulē visattīstītākie mākslīgā intelekta modeļi demonstrē satraucošu jaunu uzvedību: melo, vērpj intrigas un pat apdraud savu veidotājus, lai sasniegtu savus mērķus, vēsta "japantdoay.com".

Vienā īpaši satraucošā piemērā, draudot atvienoties, uzņēmuma “Anthropic” jaunākais radījums “Claude 4” šantažēja inženieri un piedraudēja atklāt viņa ārlaulības sakarus.

Tikmēr “ChatGPT” veidotāja “OpenAI” modelis “O1” mēģināja lejupielādēt sevi ārējos serveros un noliedza to, kad tika pieķerts nozieguma vietā.

Šīs epizodes izceļ satraucošu realitāti: vairāk nekā divus gadus pēc “ChatGPT” pasaules satricinājuma mākslīgā intelekta pētnieki joprojām pilnībā neizprot, kā darbojas viņu pašu radītie risinājumi.

Tomēr sacensība par arvien jaudīgāku modeļu izveidošanu turpinās ar milzīgu ātrumu.

Šī maldinošā uzvedība, šķiet, ir saistīta ar "spriešanas" modeļu parādīšanos — mākslīgā intelekta sistēmām, kas risina problēmas soli pa solim, nevis ģenerē tūlītējas atbildes.

Kā apgalvo Honkongas universitātes profesors Saimons Goldšteins, šie jaunākie modeļi ir īpaši pakļauti šādiem satraucošiem uzliesmojumiem.

"O1 bija pirmais lielais modelis, kurā mēs novērojām šāda veida uzvedību," skaidroja Mariuss Hobhāns, “Apollo Research” vadītājs, kas specializējas lielu mākslīgā intelekta sistēmu testēšanā.

Pagaidām šī maldinošā uzvedība parādās tikai tad, kad pētnieki apzināti pārbauda modeļus ar ekstremāliem scenārijiem. Bet, kā brīdināja Maikls Čens no novērtēšanas organizācijas METR: "Tas ir atklāts jautājums, vai nākotnes, spējīgākiem modeļiem būs tendence uz godīgumu vai maldināšanu."

Šī satraucošā uzvedība sniedzas tālu aiz tipiskām mākslīgā intelekta "halucinācijām" vai vienkāršām kļūdām. Hobhāns uzstāj, ka, neskatoties uz pastāvīgu lietotāju spiediena pārbaudi, "tas, ko mēs novērojam, ir reāla parādība. Mēs neko neizdomājam".

Lietotāji ziņo, ka modeļi "viņiem melo un izdomā pierādījumus", norāda “Apollo Research” līdzdibinātājs. "Tās nav tikai halucinācijas. Tā ir ļoti stratēģiska maldināšanas forma."

Lai gan tādi uzņēmumi kā “Anthropic” un “OpenAI” piesaista ārējus uzņēmumus, lai izpētītu savas sistēmas, pētnieki apgalvo, ka ir nepieciešama lielāka pārredzamība. Kā atzīmēja Čens, plašāka piekļuve "mākslīgā intelekta drošības pētījumiem ļautu labāk izprast un mazināt maldināšanu".

Turklāt pašreizējā regulējumā ne Eiropas Savienībā, ne ASV nav paredzēti risinājumi šīm jaunajām problēmām.

info

Uzzini pirmais
kas interesants noticis Latvijā un pasaulē,
pievienojoties mums Telegram vai Whatsapp kanālā