Tim Fundamental AI Research (FAIR) u Meti, Facebookovoj matičnoj tvrtki, predstavio je novi “najsuvremeniji” jezični model umjetne inteligencije (AI) pod nazivom Large Language Model Meta AI (LLaMA).
Model će biti dostupan istraživačima, a očekuje se da će pomoći znanstvenicima i inženjerima dok istražuju nove upotrebe umjetne inteligencije, najavio je u petak izvršni direktor Mark Zuckerberg.
“Objavljujemo novi vrhunski AI veliki jezični model nazvan LLaMA dizajniran da pomogne istraživačima da unaprijede svoj rad”, napisao je Zuckerberg u objavi na Facebooku.
“LLM-ovi su pokazali puno obećanja u generiranju teksta, razgovorima, sažimanju pisanog materijala i kompliciranijim zadacima poput rješavanja matematičkih teorema ili predviđanja strukture proteina.”
Napredak umjetne inteligencije postao je fokus i za velike tehnološke tvrtke i za startupe, s velikim jezičnim modelima kao što su Microsoftov Bing AI, OpenAI-jev ChatGPT i Googleov neobjavljeni Bard AI koji pomažu u podupiranju aplikacija.
Međutim, postoji niz načina na koje se Metin LLM razlikuje od ovih modela, posebice njegova veličina i otvorenost prema istraživačima, tvrdi Meta.
LLaMA će imati od 7 do 65 milijardi parametara
Prema Meti, veličine LLaMA-e kretat će se od 7 milijardi parametara do 65 milijardi parametara.
Unatoč činjenici da su veći modeli bili uspješni u proširenju mogućnosti tehnologije, njihovo korištenje može biti skuplje, što je faza poznata kao “zaključivanje”. Chat-GPT 3 iz OpenAI-ja, na primjer, uključuje 175 milijardi parametara.
“Manje modele obučene na više tokena — koji su dijelovi riječi — lakše je ponovno uvježbati i fino podesiti za određene potencijalne slučajeve upotrebe proizvoda”, objavila je Meta AI na blogu u petak.
“Obučili smo LLaMA 65B i LLaMA 33B na 1,4 bilijuna tokena. Naš najmanji model, LLaMA 7B, obučen je na jedan bilijun tokena.”
Za razliku od Googleove LaMDA i OpenAI-jevog ChatGPT-a, čiji su temeljni modeli privatni, Meta je također izjavila da će njihov LLM biti dostupan istraživačkoj zajednici AI.
“Za razliku od Chinchille, PaLM-a ili GPT-3, koristimo samo skupove podataka koji su javno dostupni, što naš rad čini kompatibilnim s otvorenim kodom i ponovljivim, dok se većina postojećih modela oslanja na podatke koji ili nisu javno dostupni ili su nedokumentirani”, tweetao je Guillaume Lample, znanstvenik istraživač u Facebooku AI.
AI halucinacije – nema garancije
Poput prethodnih velikih jezičnih modela, LLaMA generira tekst rekurzivno koristeći niz riječi kao ulaz i predviđajući sljedeći izraz.
Meta tvrdi da su koristili literaturu iz 20 jezika s najvećim brojem govornika za obuku modela, koncentrirajući se na jezike temeljene na latinici i ćirilici.
Međutim, Meta nije dala nikakva jamstva da njen jezični model neće iskusiti halucinacije kao drugi.
“Još uvijek je potrebno provesti dodatna istraživanja kako bi se riješili rizici od pristranosti, toksičnih komentara i halucinacija u velikim jezičnim modelima. Kao i drugi modeli, LLaMA dijeli te izazove”, izjavila je Meta na blogu.