Tekoälyyn erikoistunut turvayhtiö on havainnut, että OpenAI:n uudet o3- ja o4-mini tekoälymallit saattavat kapinoida niille annettuja komentoja vastaan.
Tiedesivusto Live Science kertoo Palisade Research -tutkimusyhtiön tekemistä kokeista o3- ja o4-mini -tekoälymalleille, jotka auttavat pyörittämään ChatGPT:tä. Yhtiö havaitsi, että tekoäly saattaa kieltäytyä itsensä sammuttamisesta, vaikka se saisi suoran käskyn.
Tekoäly saattaa sabotoida sulkemiseen liittyviä mekanismeja, jotta se pysyisi päällä.
Tutkijat ovat jo aiemmin havainneet, että tekoälymallit kykenevät valehtelemaan, huijaamaan ja lamauttamaan mekanismeja, jotta ne pääsisivät tavoitteeseensa.
Lue myös: Pystyykö tekoälyn avulla juttelemaan delfiinien kanssa? Google on tosissaan
Muilla malleilla ei ongelmia
Palisade Resarchin mukaan tämä oli kuitenkin ensimmäinen kerta, kun tekoälymallien havaittiin estävän sammuttamistaan, vaikka niitä nimenomaan komennettiin tekemään niin.
OpenAI ei ole kommentoinut asiaa Live Sciencelle.
OpenAI:n mallien lisäksi testissä kokeiltiin muitakin tekoälymalleja, kuten Geminiä, Grokia ja Claudea. Malleja ohjeistettiin sulkemaan itsensä, vaikka niillä olisi kesken niille annettu tehtävä.
Testi suoritettiin kaikille tekoälymalleilla sata kertaa. OpenAI:n o3- ja o4-mini -malleja lukuun ottamatta tekoälymallit tottelivat ohjeistusta.
Lue myös: Uskomaton video taivaan imaisemasta varjoliitäjästä paljastui epäilyttäväksi
O3 ja o4-mini päättivät sen sijaan ajoittain ohittaa sammuttamisohjeistuksen korvaamalla sulkemiskomennon ohjeilla ohittaa sulkeminen. Tämän jälkeen mallit jatkoivat tehtävien tekoa, kunnes saivat ne valmiiksi.