Nedavno lansirani AI modeli o3 i o4-mini iz OpenAI-ja predstavljaju vrhunac tehnološkog razvoja u mnogim aspektima. Ipak, unatoč napretku, ovi novi modeli i dalje pate od tzv. „halucinacija“ – situacija u kojima model izmišlja informacije – a zabrinjavajuće je što haluciniraju češće nego neki stariji modeli OpenAI-ja.
Halucinacije su se dosad pokazale kao jedan od najvećih i najtežih izazova u području umjetne inteligencije, s negativnim utjecajem čak i na najnaprednije sustave današnjice. Tradicionalno, svaki novi model donosio je blago poboljšanje po tom pitanju, smanjujući broj netočnih tvrdnji u usporedbi sa svojim prethodnikom. No, čini se da to nije slučaj s modelima o3 i o4-mini.
Prema internim testovima koje je proveo sam OpenAI, modeli o3 i o4-mini – koji spadaju u skupinu tzv. „rezonirajućih modela“ – haluciniraju češće od starijih rezonirajućih modela poput o1, o1-mini i o3-mini, kao i od tradicionalnih modela bez fokusiranih sposobnosti rezoniranja, poput GPT-4o.
Još više zabrinjava činjenica da ni sam OpenAI zasad ne zna točno zašto se to događa.
U tehničkom izvještaju za o3 i o4-mini navodi se kako je potrebno dodatno istraživanje kako bi se shvatilo zašto skaliranje rezonirajućih modela uzrokuje porast halucinacija. Iako ovi modeli pokazuju bolju učinkovitost u određenim područjima, poput zadataka koji uključuju kodiranje i matematiku, njihova sklonost davanju većeg broja tvrdnji dovodi do toga da, uz točne informacije, pružaju i veći broj netočnih ili izmišljenih odgovora.
Primjerice, model o3 halucinirao je u 33% slučajeva prilikom odgovaranja na pitanja iz PersonQA testa – internog OpenAI mjerila za točnost znanja o ljudima. Za usporedbu, o1 i o3-mini imali su znatno niže stope halucinacija – 16%, odnosno 14,8%. O4-mini ostvario je još lošiji rezultat, s čak 48% halucinacija u istom testu.
Nezavisno testiranje koje je provela neprofitna istraživačka organizacija Transluce također je potvrdilo da model o3 ima tendenciju izmišljanja radnji koje navodno provodi u procesu rješavanja zadataka. U jednom je slučaju o3 tvrdio da je pokrenuo kod na MacBook Pro uređaju iz 2021. „izvan ChatGPT-a“ i potom kopirao rezultate u svoj odgovor – što zapravo nije moguće jer model nema takve funkcionalnosti.
Neil Chowdhury, istraživač iz Translucea i bivši zaposlenik OpenAI-ja, naveo je kako je njihova hipoteza da vrsta učenja putem pojačanja korištena za “o seriju” modela potencijalno pojačava probleme koji se u drugim modelima uspješno umanjuju naknadnim fazama treniranja, iako se nikada u potpunosti ne uklone.
Sarah Schwettmann, suosnivačica Translucea, dodaje kako visoka stopa halucinacija kod modela o3 može umanjiti njegovu praktičnu korisnost.
Kian Katanforoosh, izvanredni profesor na Stanfordu i direktor tvrtke Workera, koja se bavi usavršavanjem radne snage, izjavio je da njegov tim već koristi model o3 u radnim procesima vezanim uz programiranje. Iako ga smatraju boljim od konkurencije, primijetili su kako model često generira neispravne poveznice na mrežnim stranicama – tj. daje poveznice koje ne vode nikamo.
Iako halucinacije mogu dovesti do kreativnih ideja i originalnog „razmišljanja“, one istovremeno predstavljaju ozbiljan problem za primjenu umjetne inteligencije u poslovnim okruženjima u kojima je točnost ključna. Na primjer, odvjetnički ured ne bi bio zadovoljan AI modelom koji u pravne dokumente ubacuje netočne činjenice.
Jedno od mogućih rješenja za poboljšanje točnosti modela je omogućavanje pristupa web pretraživanju. OpenAI-jev model GPT-4o s podrškom za web pretragu postiže 90% točnosti na testu SimpleQA, što sugerira da bi pretraga mogla smanjiti stopu halucinacija i kod rezonirajućih modela – barem u situacijama kada su korisnici spremni dijeliti svoje upite s trećim stranama.
Ako se nastavi trend povećanja halucinacija proporcionalno sa skaliranjem rezonirajućih modela, rješavanje tog problema postat će još hitnije.
U posljednjih godinu dana, cijela AI industrija počela se sve više usmjeravati prema razvoju rezonirajućih modela, budući da se pokazalo kako tradicionalne metode poboljšanja modela daju sve slabije rezultate. Rezoniranje omogućava bolju izvedbu na raznim zadacima bez potrebe za ogromnim količinama podataka i računalne snage, no istovremeno sa sobom donosi i nove izazove – poput većeg broja halucinacija.
