OpenAI je početkom tjedna predstavio novu generaciju svojih modela umjetne inteligencije pod imenom GPT-4.1, koja uključuje varijante mini i nano. Ovi modeli posebno su optimizirani za zadatke povezane s programiranjem i izvršavanjem uputa. Premda nisu dostupni putem ChatGPT-a, moguće ih je koristiti preko OpenAI API-ja. Jedna od njihovih ključnih značajki je mogućnost obrade teksta od čak 750.000 riječi.
Novi modeli stižu u trenutku kada konkurentske tvrtke poput Googlea i Anthropica ulažu dodatne napore u razvoj naprednih rješenja za automatsko kodiranje. Googleov Gemini 2.5 Pro i Claude 3.7 Sonnet tvrtke Anthropic, kao i DeepSeekov V3 model, već su ostvarili zapažene rezultate na testovima vezanima uz programiranje.
Cilj OpenAI-ja i drugih tehnoloških lidera je razviti modele koji mogu samostalno rješavati složene zadatke iz područja softverskog inženjeringa. U tom smjeru ide i ambicija stvaranja AI sustava koji bi mogao funkcionirati kao samostalni „softverski inženjer-agent”, sposoban za izradu kompletnih aplikacija, uključujući testiranje, dokumentaciju i kontrolu kvalitete.
OpenAI tvrdi da je GPT-4.1 znatno poboljšan zahvaljujući povratnim informacijama korisnika. Fokus je bio na boljoj podršci za frontend programiranje, smanjenju nepotrebnih izmjena, preciznom praćenju zadanih formata i pouzdanijem korištenju alata. Sve to omogućuje razvoj učinkovitijih AI agenata za stvarne inženjerske zadatke.

Prema internim podacima OpenAI-ja, GPT-4.1 nadmašuje prethodne modele poput GPT-4o i njegovih varijacija u većini programerskih testova. Mini i nano verzije novog modela donose veću brzinu i manju potrošnju resursa, ali uz nešto slabiju preciznost. GPT-4.1 nano ujedno je i najpovoljniji model u njihovoj ponudi.
Cijene korištenja modela ovise o količini obrade: GPT-4.1 košta 2 dolara za milijun ulaznih tokena i 8 dolara za milijun izlaznih, dok su cijene za mini i nano verzije znatno niže.
Na testu SWE-bench Verified, GPT-4.1 ostvario je rezultate između 52% i 54,6%, nešto niže u odnosu na konkurente Google i Anthropic, čiji modeli prelaze 60%. Razlika djelomično proizlazi iz tehničkih ograničenja platforme na kojoj su testovi izvođeni.
Osim toga, model je testiran i u zadacima razumijevanja video sadržaja, gdje je pokazao iznimne rezultate — posebno u kategoriji dugih videozapisa bez titlova.
Unatoč poboljšanjima, GPT-4.1 dijeli neka ograničenja drugih naprednih modela. I dalje može pogriješiti pri zadacima koje bi iskusni stručnjaci bez problema riješili, poput otkrivanja ili popravljanja sigurnosnih propusta u kodu. Također, njegova preciznost opada kada obrađuje velike količine tokena — s 84% pri 8.000 tokena na 50% pri milijun tokena. OpenAI priznaje da model može biti previše doslovan, zbog čega često zahtijeva vrlo konkretne i precizno formulirane upite.
