OpenAI je poฤetkom tjedna predstavio novu generaciju svojih modela umjetne inteligencije pod imenom GPT-4.1, koja ukljuฤuje varijante mini i nano. Ovi modeli posebno su optimizirani za zadatke povezane s programiranjem i izvrลกavanjem uputa. Premda nisu dostupni putem ChatGPT-a, moguฤe ih je koristiti preko OpenAI API-ja. Jedna od njihovih kljuฤnih znaฤajki je moguฤnost obrade teksta od ฤak 750.000 rijeฤi.
Novi modeli stiลพu u trenutku kada konkurentske tvrtke poput Googlea i Anthropica ulaลพu dodatne napore u razvoj naprednih rjeลกenja za automatsko kodiranje. Googleov Gemini 2.5 Pro i Claude 3.7 Sonnet tvrtke Anthropic, kao i DeepSeekov V3 model, veฤ su ostvarili zapaลพene rezultate na testovima vezanima uz programiranje.
Cilj OpenAI-ja i drugih tehnoloลกkih lidera je razviti modele koji mogu samostalno rjeลกavati sloลพene zadatke iz podruฤja softverskog inลพenjeringa. U tom smjeru ide i ambicija stvaranja AI sustava koji bi mogao funkcionirati kao samostalni โsoftverski inลพenjer-agentโ, sposoban za izradu kompletnih aplikacija, ukljuฤujuฤi testiranje, dokumentaciju i kontrolu kvalitete.
OpenAI tvrdi da je GPT-4.1 znatno poboljลกan zahvaljujuฤi povratnim informacijama korisnika. Fokus je bio na boljoj podrลกci za frontend programiranje, smanjenju nepotrebnih izmjena, preciznom praฤenju zadanih formata i pouzdanijem koriลกtenju alata. Sve to omoguฤuje razvoj uฤinkovitijih AI agenata za stvarne inลพenjerske zadatke.
Prema internim podacima OpenAI-ja, GPT-4.1 nadmaลกuje prethodne modele poput GPT-4o i njegovih varijacija u veฤini programerskih testova. Mini i nano verzije novog modela donose veฤu brzinu i manju potroลกnju resursa, ali uz neลกto slabiju preciznost. GPT-4.1 nano ujedno je i najpovoljniji model u njihovoj ponudi.
Cijene koriลกtenja modela ovise o koliฤini obrade: GPT-4.1 koลกta 2 dolara za milijun ulaznih tokena i 8 dolara za milijun izlaznih, dok su cijene za mini i nano verzije znatno niลพe.
Na testu SWE-bench Verified, GPT-4.1 ostvario je rezultate izmeฤu 52% i 54,6%, neลกto niลพe u odnosu na konkurente Google i Anthropic, ฤiji modeli prelaze 60%. Razlika djelomiฤno proizlazi iz tehniฤkih ograniฤenja platforme na kojoj su testovi izvoฤeni.
Osim toga, model je testiran i u zadacima razumijevanja video sadrลพaja, gdje je pokazao iznimne rezultate โ posebno u kategoriji dugih videozapisa bez titlova.
Unatoฤ poboljลกanjima, GPT-4.1 dijeli neka ograniฤenja drugih naprednih modela. I dalje moลพe pogrijeลกiti pri zadacima koje bi iskusni struฤnjaci bez problema rijeลกili, poput otkrivanja ili popravljanja sigurnosnih propusta u kodu. Takoฤer, njegova preciznost opada kada obraฤuje velike koliฤine tokena โ s 84% pri 8.000 tokena na 50% pri milijun tokena. OpenAI priznaje da model moลพe biti previลกe doslovan, zbog ฤega ฤesto zahtijeva vrlo konkretne i precizno formulirane upite.
