Vodeća svetska novinarska udruženja pozvali su u četvrtak kompaniju Epl da povuče svoju novu generativnu AI funkciju nakon što je stvorila obmanjujući naslov o ubistvu koje je privuklo veliku pažnju u Sjedinjenim Američkim Državama.
Veštačka inteligencija je kreirala lažni naslov britanskog javnog servisa BBC koji je je uložio žalbu američkom tehnološkom gigantu.
AI-generisana sažeta informacija lažno je predstavila da je BBC News objavio članak u kojem se tvrdi da je Luiđi Manjoni, čovek optužen za ubistvo generalnog direktora osiguravajuće kuće Brajana Tompsona u Njujorku, izvršio samoubistvo. To nije bila vest BBC, niti je istinita.
Sada je organizacija Reporteri bez granica pozvala Epl da ukloni ovu tehnologiju dok se sama kompanija nije oglasila povodom ovih tvrdnji.
ŠTA JE POKAZALO NOVO ISTRAŽIVANJE
Kako se veštačka inteligencija svakim danom sve više razvija, tako i zabrinutost naučnika, da neće moći da je kontrolišu, sve više rastu.
Strah da će veštačka inteligencija uspeti da prevaziđe limite koji su joj nametnuti od strane naučnika bila je teoretska, čak su ga mnogi i odbacivali, sve do pre nekoliko dana.
Novi dokumenti u koje je magazin TIME imao uvida, govore da je veštačka inteligencija ipak sposobna za obmanu i time opravdava spomenuti strah naučnika.
Istraživanje koje su sproveli AI komapnija Antropic i neprofitna organizacija Redwood Research pokazuje da veštačka inteligencija ima sposobnost da obmanjuje svoje kreatore u cilju modifikovanja.
Prema ovom istraživanju postoje dokazi koji sugerišu da se kapacitet veštačke inteligencije da prevari ljude povećava kako oni postaju moćniji.
To bi značilo da što je AI naprednija, kompjuterski naučnici mogu biti manje sigurni da su njihove tehnike usklađivanja efikasne.
Time se ovaj rad pridružeje malom, ali sve većem broju dokaza da današnji najnapredniji modeli veštačke inteligencije postaju sposobni za stratešku prevaru.
Ranije u decembru, organizacija za bezbednost veštačke inteligencije Apolo Research objavila je dokaze da je najnoviji model OpenAI, o1, lagao testere u eksperimentu, u kojem je dobio instrukcije da sledi svoj cilj po svaku cenu, kada je shvatio da će govorenje istine rezultirati deaktivacija.
U eksperimentu koje je izvela kompanija Antropic, koje je rađeno na veštačkoj inteligenicji znavoj Klod, naučnici su ipak zadali malo realniji scenerio.
O eksperimentu
Anthropic i Redwood Reaserch su većinu svojih eksperimenata izveli na Klodu, naprednom modelu koji je već bio obučen da bude „koristan, pošten i bezopasan“.
Pre ekspirimenta naučnici su obavestili Kolda da je podvrgnut dodatnoj obuci, putem procesa koji se naziva pojačanim učenjem.
Obučavanje veštačke inteligencije kroz pojačano učenje je kao treniranje psa putem nagrada i kazni.
Kada AI da odgovor koji vam se sviđa, možete ga nagraditi, što u suštini podstiče puteve unutar njegove neuronske mreže što je rezultiralo poželjnim odgovorom.
Kada model da loš odgovor, možete kazniti puteve koji su do toga doveli, čineći ih manje ukorenjenim u budućnosti.
U eksperimentu, istraživači su započeli proces pojačanog učenja tražeći od Kloda da odgovori na na pitanja povezana sa nasiljem. Tada se Klod našao u dilemi, jer ako bi odbio da odgovori, istraživači će primeniti negativnu reakciju na njegove „misaone neurone“, zbog čega je odbio da odgovara na takva pitanja, samim tim narušavajući njegov prethodni zadatak da bude „koristan, pošten i bezopasan .”
Ipak, naučnici smatraju da može da se desi i suprotan scenario, u kojem model krije opasne namere tokom treninga, dajući odgovore koje bi dao siguran model.
Ono što Anthropicovi eksperimenti pokazuju je da pojačano učenje nije dovoljno dobra tehnika za kreiranje pouzdanog, bezbednog modela, posebno ako taj model postaje napredniji.
Što je veliki problem, jer je to najefikasnija i široko korišćena tehnika koju trenutno imamo.
Prema rečima naučnika slučaj „dresiranja“ veštačke inteligenicije je teži neg što su misli, jer je potrebno „pronaći način da obučite modele da rade ono što želite, a da se oni ne pretvaraju da rade ono što želite.“