Pratite nas

Pozdrav, koji sadrลพaj vas zanima?

Umjetna inteligencija

Alarm u svijetu tehnologije: Ostajemo li bez podataka za hranjenje umjetne inteligencije?

Alarm u svijetu tehnologije: Ostajemo bez podataka za hranjenje umjetne inteligencije
Pexels/Ilustracija

Kako umjetna inteligencija (UI) dostiลพe vrhunac svoje popularnosti, istraลพivaฤi upozoravaju da bi industrija mogla ostati bez podataka za obuku โ€“ goriva koje pokreฤ‡e moฤ‡ne sustave UI.

To bi moglo usporiti rast modela UI, posebno velikih jeziฤnih modela, pa ฤak i promijeniti putanju revolucije UI.

Ali zaลกto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na webu? I postoji li naฤin za rjeลกavanje tog rizika?

Zaลกto su podaci visoke kvalitete vaลพni za UI

Potrebno nam je puno podataka za obuku moฤ‡nih, toฤnih i visokokvalitetnih algoritama UI. Na primjer, ChatGPT je treniran na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi rijeฤi.

Sliฤno tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generiranje slika UI kao ลกto su DALL-E, Lensa i Midjourney) treniran je na LIAON-5B skupu podataka koji se sastoji od 5,8 milijardi parova slika i teksta. Ako se algoritam trenira na nedovoljnoj koliฤini podataka, proizvest ฤ‡e netoฤne ili niskokvalitetne rezultate.

Kvaliteta podataka za obuku je takoฤ‘er vaลพna. Podaci niske kvalitete, kao ลกto su objave na druลกtvenim medijima ili mutne fotografije, lako se mogu nabaviti, ali nisu dovoljni za obuku visoko uฤinkovitih modela UI.

Tekst preuzet s platformi druลกtvenih medija moลพe biti pristran ili predrasudan, ili moลพe sadrลพavati dezinformacije ili ilegalni sadrลพaj koji bi model mogao replicirati. Na primjer, kada je Microsoft pokuลกao trenirati svoj AI bot koristeฤ‡i sadrลพaj s Twittera, nauฤio je proizvoditi rasistiฤke i mizogine rezultate.

Zato programeri UI traลพe visokokvalitetan sadrลพaj poput teksta iz knjiga, online ฤlanaka, znanstvenih radova, Wikipedije i odreฤ‘enog filtriranog web sadrลพaja. Googleov pomoฤ‡nik treniran je na 11.000 romantiฤnih romana preuzetih s web stranice za samostalno izdavanje Smashwords kako bi ga uฤinili konverzacijskijim.

Imamo li dovoljno podataka?

Industrija UI trenirala je sustave UI na sve veฤ‡im skupovima podataka, zbog ฤega sada imamo visoko uฤinkovite modele kao ลกto su ChatGPT ili DALL-E 3. Istovremeno, istraลพivanja pokazuju da online zalihe podataka rastu puno sporije od skupova podataka koji se koriste za treniranje UI.

U radu objavljenom proลกle godine, skupina istraลพivaฤa predvidjela je da ฤ‡emo ostati bez visokokvalitetnih tekstualnih podataka do 2026. godine ako se trenutni trendovi treniranja UI nastave. Takoฤ‘er su procijenili da ฤ‡e podaci niske kvalitete jezika biti iscrpljeni negdje izmeฤ‘u 2030. i 2050., a podaci niske kvalitete slika izmeฤ‘u 2030. i 2060.

UI bi do 2030. godine mogao doprinijeti svjetskoj ekonomiji s do 15,7 bilijuna dolara (24,1 bilijuna A$), prema raฤunovodstvenoj i savjetodavnoj grupi PwC. Ali, nestajanje upotrebljivih podataka moglo bi usporiti njegov razvoj.

Trebamo li biti zabrinuti?

Iako gore navedene toฤke mogu zabrinuti nekeoboลพavatelje UI, situacija moลพda nije tako loลกa kako se ฤini. Postoji puno nepoznanica o tome kako ฤ‡e se modeli UI razvijati u buduฤ‡nosti, kao i nekoliko naฤina za rjeลกavanje rizika od nedostatka podataka.

Jedna prilika je da programeri UI poboljลกaju algoritme tako da uฤinkovitije koriste podatke koje veฤ‡ imaju.

Vjerojatno ฤ‡e u narednim godinama biti u moguฤ‡nosti trenirati visoko uฤinkovite sustave UI koristeฤ‡i manje podataka, a moguฤ‡e i manje raฤunalne snage. To bi takoฤ‘er pomoglo smanjiti ugljiฤni otisak UI.

Druga opcija je koriลกtenje UI za stvaranje sintetiฤkih podataka za treniranje sustava. Drugim rijeฤima, programeri mogu jednostavno generirati podatke koji im trebaju, prilagoฤ‘ene njihovom posebnom modelu UI.

Nekoliko projekata veฤ‡ koristi sintetiฤki sadrลพaj, ฤesto izvorni iz usluga za generiranje podataka poput Mostly AI. To ฤ‡e postati uobiฤajenije u buduฤ‡nosti.

Programeri takoฤ‘er traลพe sadrลพaj izvan besplatnog online prostora, poput onog koji posjeduju veliki izdavaฤi i offline repozitoriji. Razmislite o milijunima tekstova objavljenih prije interneta. Digitalno dostupni, mogli bi pruลพiti novi izvor podataka za projekte UI.

News Corp, jedan od najveฤ‡ih svjetskih vlasnika sadrลพaja vijesti (koji ima veฤ‡i dio svog sadrลพaja iza paywalla) nedavno je rekao da pregovara o sadrลพajnim poslovima s programerima UI. Takvi bi poslovi prisilili tvrtke UI da plaฤ‡aju za podatke za obuku โ€“ dok su ih do sada uglavnom besplatno skupljali s interneta.

Stvaraoci sadrลพaja su protestirali protiv neovlaลกtenog koriลกtenja njihovog sadrลพaja za treniranje modela UI, s nekima koji tuลพe tvrtke poput Microsofta, OpenAI-a i Stability AI-a. Biti plaฤ‡eni za njihov rad moลพe pomoฤ‡i u obnavljanju nekih neravnoteลพa moฤ‡i koje postoje izmeฤ‘u kreativaca i tvrtki UI.

Moลพda ฤ‡e vas zanimati

Tech

ล to bi se dogodilo ako uronite ruku u posudu tekuฤ‡eg duลกika? Bi li vam se ruka smrzla do ozeblina? Bi li se razbila ฤim...

Internet

Sigurno ste do sad naletjeli na neke od bizarnosti na koje je Googleovo auto naletjelo pri snimanju, a u ovom videu pogledajte kompilaciju najฤudnijih...

Tech

Trebate izraฤunati postotak od nekog broja, a ne znate kako? Proฤitajte ovaj jednostavan ฤlanak i nauฤite kako se raฤuna postotak. Postotci se koriste za...

Tech

1995. godine grupa znanstvenika NASA-e napravila je testove o tome kako pojedine droge utjeฤu na paukovu sposobnost da izgradi mreลพu.

Internet

Odmah da vam kaลพemo โ€“ neizbjeลพan kraj dogodio bi se iznenaฤ‘ujuฤ‡e brzo. Ako je zapremnina prosjeฤnog lijesa 886 litara, a prosjeฤan volumen ljudskog tijela...

Automoto

Tvrtka Laser Power Systems razvila je automobil pogonjen nuklearnom energijom. Napokon je pronaฤ‘en naฤin koji ฤ‡e vaลกem automobilu omoguฤ‡iti vjeฤni rad bez punjenja. No...

Tech

Rudnik dijamanata Mir u Siberu jedna je od najveฤ‡ih rupa u tlu koju je ฤovjek napravio. Duboka je 525 metara i ลกiroka 1200m. Let...

Tech

Bumerang je jedan od najstarijih leteฤ‡ih objekata koje je ljudska ruka stvorila. Svi znamo da su ih koristili Aboridลพini, no malo je poznato je...