Kako umjetna inteligencija (UI) dostiže vrhunac svoje popularnosti, istraživači upozoravaju da bi industrija mogla ostati bez podataka za obuku – goriva koje pokreće moćne sustave UI.
To bi moglo usporiti rast modela UI, posebno velikih jezičnih modela, pa čak i promijeniti putanju revolucije UI.
Ali zašto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na webu? I postoji li način za rješavanje tog rizika?
Zašto su podaci visoke kvalitete važni za UI
Potrebno nam je puno podataka za obuku moćnih, točnih i visokokvalitetnih algoritama UI. Na primjer, ChatGPT je treniran na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi riječi.
Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generiranje slika UI kao što su DALL-E, Lensa i Midjourney) treniran je na LIAON-5B skupu podataka koji se sastoji od 5,8 milijardi parova slika i teksta. Ako se algoritam trenira na nedovoljnoj količini podataka, proizvest će netočne ili niskokvalitetne rezultate.
Kvaliteta podataka za obuku je također važna. Podaci niske kvalitete, kao što su objave na društvenim medijima ili mutne fotografije, lako se mogu nabaviti, ali nisu dovoljni za obuku visoko učinkovitih modela UI.
Tekst preuzet s platformi društvenih medija može biti pristran ili predrasudan, ili može sadržavati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primjer, kada je Microsoft pokušao trenirati svoj AI bot koristeći sadržaj s Twittera, naučio je proizvoditi rasističke i mizogine rezultate.
Zato programeri UI traže visokokvalitetan sadržaj poput teksta iz knjiga, online članaka, znanstvenih radova, Wikipedije i određenog filtriranog web sadržaja. Googleov pomoćnik treniran je na 11.000 romantičnih romana preuzetih s web stranice za samostalno izdavanje Smashwords kako bi ga učinili konverzacijskijim.
Imamo li dovoljno podataka?
Industrija UI trenirala je sustave UI na sve većim skupovima podataka, zbog čega sada imamo visoko učinkovite modele kao što su ChatGPT ili DALL-E 3. Istovremeno, istraživanja pokazuju da online zalihe podataka rastu puno sporije od skupova podataka koji se koriste za treniranje UI.
U radu objavljenom prošle godine, skupina istraživača predvidjela je da ćemo ostati bez visokokvalitetnih tekstualnih podataka do 2026. godine ako se trenutni trendovi treniranja UI nastave. Također su procijenili da će podaci niske kvalitete jezika biti iscrpljeni negdje između 2030. i 2050., a podaci niske kvalitete slika između 2030. i 2060.
UI bi do 2030. godine mogao doprinijeti svjetskoj ekonomiji s do 15,7 bilijuna dolara (24,1 bilijuna A$), prema računovodstvenoj i savjetodavnoj grupi PwC. Ali, nestajanje upotrebljivih podataka moglo bi usporiti njegov razvoj.
Trebamo li biti zabrinuti?
Iako gore navedene točke mogu zabrinuti nekeobožavatelje UI, situacija možda nije tako loša kako se čini. Postoji puno nepoznanica o tome kako će se modeli UI razvijati u budućnosti, kao i nekoliko načina za rješavanje rizika od nedostatka podataka.
Jedna prilika je da programeri UI poboljšaju algoritme tako da učinkovitije koriste podatke koje već imaju.
Vjerojatno će u narednim godinama biti u mogućnosti trenirati visoko učinkovite sustave UI koristeći manje podataka, a moguće i manje računalne snage. To bi također pomoglo smanjiti ugljični otisak UI.
Druga opcija je korištenje UI za stvaranje sintetičkih podataka za treniranje sustava. Drugim riječima, programeri mogu jednostavno generirati podatke koji im trebaju, prilagođene njihovom posebnom modelu UI.
Nekoliko projekata već koristi sintetički sadržaj, često izvorni iz usluga za generiranje podataka poput Mostly AI. To će postati uobičajenije u budućnosti.
Programeri također traže sadržaj izvan besplatnog online prostora, poput onog koji posjeduju veliki izdavači i offline repozitoriji. Razmislite o milijunima tekstova objavljenih prije interneta. Digitalno dostupni, mogli bi pružiti novi izvor podataka za projekte UI.
News Corp, jedan od najvećih svjetskih vlasnika sadržaja vijesti (koji ima veći dio svog sadržaja iza paywalla) nedavno je rekao da pregovara o sadržajnim poslovima s programerima UI. Takvi bi poslovi prisilili tvrtke UI da plaćaju za podatke za obuku – dok su ih do sada uglavnom besplatno skupljali s interneta.
Stvaraoci sadržaja su protestirali protiv neovlaštenog korištenja njihovog sadržaja za treniranje modela UI, s nekima koji tuže tvrtke poput Microsofta, OpenAI-a i Stability AI-a. Biti plaćeni za njihov rad može pomoći u obnavljanju nekih neravnoteža moći koje postoje između kreativaca i tvrtki UI.