Pratite nas

Pozdrav, koji sadržaj vas zanima?

Umjetna inteligencija

Alarm u svijetu tehnologije: Ostajemo li bez podataka za hranjenje umjetne inteligencije?

Alarm u svijetu tehnologije: Ostajemo bez podataka za hranjenje umjetne inteligencije
Pexels/Ilustracija

Kako umjetna inteligencija (UI) dostiže vrhunac svoje popularnosti, istraživači upozoravaju da bi industrija mogla ostati bez podataka za obuku – goriva koje pokreće moćne sustave UI.

To bi moglo usporiti rast modela UI, posebno velikih jezičnih modela, pa čak i promijeniti putanju revolucije UI.

Ali zašto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na webu? I postoji li način za rješavanje tog rizika?

Zašto su podaci visoke kvalitete važni za UI

Potrebno nam je puno podataka za obuku moćnih, točnih i visokokvalitetnih algoritama UI. Na primjer, ChatGPT je treniran na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi riječi.

Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generiranje slika UI kao što su DALL-E, Lensa i Midjourney) treniran je na LIAON-5B skupu podataka koji se sastoji od 5,8 milijardi parova slika i teksta. Ako se algoritam trenira na nedovoljnoj količini podataka, proizvest će netočne ili niskokvalitetne rezultate.

Kvaliteta podataka za obuku je također važna. Podaci niske kvalitete, kao što su objave na društvenim medijima ili mutne fotografije, lako se mogu nabaviti, ali nisu dovoljni za obuku visoko učinkovitih modela UI.

Tekst preuzet s platformi društvenih medija može biti pristran ili predrasudan, ili može sadržavati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primjer, kada je Microsoft pokušao trenirati svoj AI bot koristeći sadržaj s Twittera, naučio je proizvoditi rasističke i mizogine rezultate.

Zato programeri UI traže visokokvalitetan sadržaj poput teksta iz knjiga, online članaka, znanstvenih radova, Wikipedije i određenog filtriranog web sadržaja. Googleov pomoćnik treniran je na 11.000 romantičnih romana preuzetih s web stranice za samostalno izdavanje Smashwords kako bi ga učinili konverzacijskijim.

Imamo li dovoljno podataka?

Industrija UI trenirala je sustave UI na sve većim skupovima podataka, zbog čega sada imamo visoko učinkovite modele kao što su ChatGPT ili DALL-E 3. Istovremeno, istraživanja pokazuju da online zalihe podataka rastu puno sporije od skupova podataka koji se koriste za treniranje UI.

U radu objavljenom prošle godine, skupina istraživača predvidjela je da ćemo ostati bez visokokvalitetnih tekstualnih podataka do 2026. godine ako se trenutni trendovi treniranja UI nastave. Također su procijenili da će podaci niske kvalitete jezika biti iscrpljeni negdje između 2030. i 2050., a podaci niske kvalitete slika između 2030. i 2060.

UI bi do 2030. godine mogao doprinijeti svjetskoj ekonomiji s do 15,7 bilijuna dolara (24,1 bilijuna A$), prema računovodstvenoj i savjetodavnoj grupi PwC. Ali, nestajanje upotrebljivih podataka moglo bi usporiti njegov razvoj.

Trebamo li biti zabrinuti?

Iako gore navedene točke mogu zabrinuti nekeobožavatelje UI, situacija možda nije tako loša kako se čini. Postoji puno nepoznanica o tome kako će se modeli UI razvijati u budućnosti, kao i nekoliko načina za rješavanje rizika od nedostatka podataka.

Jedna prilika je da programeri UI poboljšaju algoritme tako da učinkovitije koriste podatke koje već imaju.

Vjerojatno će u narednim godinama biti u mogućnosti trenirati visoko učinkovite sustave UI koristeći manje podataka, a moguće i manje računalne snage. To bi također pomoglo smanjiti ugljični otisak UI.

Druga opcija je korištenje UI za stvaranje sintetičkih podataka za treniranje sustava. Drugim riječima, programeri mogu jednostavno generirati podatke koji im trebaju, prilagođene njihovom posebnom modelu UI.

Nekoliko projekata već koristi sintetički sadržaj, često izvorni iz usluga za generiranje podataka poput Mostly AI. To će postati uobičajenije u budućnosti.

Programeri također traže sadržaj izvan besplatnog online prostora, poput onog koji posjeduju veliki izdavači i offline repozitoriji. Razmislite o milijunima tekstova objavljenih prije interneta. Digitalno dostupni, mogli bi pružiti novi izvor podataka za projekte UI.

News Corp, jedan od najvećih svjetskih vlasnika sadržaja vijesti (koji ima veći dio svog sadržaja iza paywalla) nedavno je rekao da pregovara o sadržajnim poslovima s programerima UI. Takvi bi poslovi prisilili tvrtke UI da plaćaju za podatke za obuku – dok su ih do sada uglavnom besplatno skupljali s interneta.

Stvaraoci sadržaja su protestirali protiv neovlaštenog korištenja njihovog sadržaja za treniranje modela UI, s nekima koji tuže tvrtke poput Microsofta, OpenAI-a i Stability AI-a. Biti plaćeni za njihov rad može pomoći u obnavljanju nekih neravnoteža moći koje postoje između kreativaca i tvrtki UI.

Možda će vas zanimati

Tech

Što bi se dogodilo ako uronite ruku u posudu tekućeg dušika? Bi li vam se ruka smrzla do ozeblina? Bi li se razbila čim...

Internet

Sigurno ste do sad naletjeli na neke od bizarnosti na koje je Googleovo auto naletjelo pri snimanju, a u ovom videu pogledajte kompilaciju najčudnijih...

Tech

Trebate izračunati postotak od nekog broja, a ne znate kako? Pročitajte ovaj jednostavan članak i naučite kako se računa postotak. Postotci se koriste za...

Tech

1995. godine grupa znanstvenika NASA-e napravila je testove o tome kako pojedine droge utječu na paukovu sposobnost da izgradi mrežu.

Internet

Odmah da vam kažemo – neizbježan kraj dogodio bi se iznenađujuće brzo. Ako je zapremnina prosječnog lijesa 886 litara, a prosječan volumen ljudskog tijela...

Automoto

Tvrtka Laser Power Systems razvila je automobil pogonjen nuklearnom energijom. Napokon je pronađen način koji će vašem automobilu omogućiti vječni rad bez punjenja. No...

Tech

Rudnik dijamanata Mir u Siberu jedna je od najvećih rupa u tlu koju je čovjek napravio. Duboka je 525 metara i široka 1200m. Let...

Tech

Bumerang je jedan od najstarijih letećih objekata koje je ljudska ruka stvorila. Svi znamo da su ih koristili Aboridžini, no malo je poznato je...