Kako umjetna inteligencija (UI) dostiลพe vrhunac svoje popularnosti, istraลพivaฤi upozoravaju da bi industrija mogla ostati bez podataka za obuku โ goriva koje pokreฤe moฤne sustave UI.
To bi moglo usporiti rast modela UI, posebno velikih jeziฤnih modela, pa ฤak i promijeniti putanju revolucije UI.
Ali zaลกto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na webu? I postoji li naฤin za rjeลกavanje tog rizika?
Zaลกto su podaci visoke kvalitete vaลพni za UI
Potrebno nam je puno podataka za obuku moฤnih, toฤnih i visokokvalitetnih algoritama UI. Na primjer, ChatGPT je treniran na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi rijeฤi.
Sliฤno tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generiranje slika UI kao ลกto su DALL-E, Lensa i Midjourney) treniran je na LIAON-5B skupu podataka koji se sastoji od 5,8 milijardi parova slika i teksta. Ako se algoritam trenira na nedovoljnoj koliฤini podataka, proizvest ฤe netoฤne ili niskokvalitetne rezultate.
Kvaliteta podataka za obuku je takoฤer vaลพna. Podaci niske kvalitete, kao ลกto su objave na druลกtvenim medijima ili mutne fotografije, lako se mogu nabaviti, ali nisu dovoljni za obuku visoko uฤinkovitih modela UI.
Tekst preuzet s platformi druลกtvenih medija moลพe biti pristran ili predrasudan, ili moลพe sadrลพavati dezinformacije ili ilegalni sadrลพaj koji bi model mogao replicirati. Na primjer, kada je Microsoft pokuลกao trenirati svoj AI bot koristeฤi sadrลพaj s Twittera, nauฤio je proizvoditi rasistiฤke i mizogine rezultate.
Zato programeri UI traลพe visokokvalitetan sadrลพaj poput teksta iz knjiga, online ฤlanaka, znanstvenih radova, Wikipedije i odreฤenog filtriranog web sadrลพaja. Googleov pomoฤnik treniran je na 11.000 romantiฤnih romana preuzetih s web stranice za samostalno izdavanje Smashwords kako bi ga uฤinili konverzacijskijim.
Imamo li dovoljno podataka?
Industrija UI trenirala je sustave UI na sve veฤim skupovima podataka, zbog ฤega sada imamo visoko uฤinkovite modele kao ลกto su ChatGPT ili DALL-E 3. Istovremeno, istraลพivanja pokazuju da online zalihe podataka rastu puno sporije od skupova podataka koji se koriste za treniranje UI.
U radu objavljenom proลกle godine, skupina istraลพivaฤa predvidjela je da ฤemo ostati bez visokokvalitetnih tekstualnih podataka do 2026. godine ako se trenutni trendovi treniranja UI nastave. Takoฤer su procijenili da ฤe podaci niske kvalitete jezika biti iscrpljeni negdje izmeฤu 2030. i 2050., a podaci niske kvalitete slika izmeฤu 2030. i 2060.
UI bi do 2030. godine mogao doprinijeti svjetskoj ekonomiji s do 15,7 bilijuna dolara (24,1 bilijuna A$), prema raฤunovodstvenoj i savjetodavnoj grupi PwC. Ali, nestajanje upotrebljivih podataka moglo bi usporiti njegov razvoj.
Trebamo li biti zabrinuti?
Iako gore navedene toฤke mogu zabrinuti nekeoboลพavatelje UI, situacija moลพda nije tako loลกa kako se ฤini. Postoji puno nepoznanica o tome kako ฤe se modeli UI razvijati u buduฤnosti, kao i nekoliko naฤina za rjeลกavanje rizika od nedostatka podataka.
Jedna prilika je da programeri UI poboljลกaju algoritme tako da uฤinkovitije koriste podatke koje veฤ imaju.
Vjerojatno ฤe u narednim godinama biti u moguฤnosti trenirati visoko uฤinkovite sustave UI koristeฤi manje podataka, a moguฤe i manje raฤunalne snage. To bi takoฤer pomoglo smanjiti ugljiฤni otisak UI.
Druga opcija je koriลกtenje UI za stvaranje sintetiฤkih podataka za treniranje sustava. Drugim rijeฤima, programeri mogu jednostavno generirati podatke koji im trebaju, prilagoฤene njihovom posebnom modelu UI.
Nekoliko projekata veฤ koristi sintetiฤki sadrลพaj, ฤesto izvorni iz usluga za generiranje podataka poput Mostly AI. To ฤe postati uobiฤajenije u buduฤnosti.
Programeri takoฤer traลพe sadrลพaj izvan besplatnog online prostora, poput onog koji posjeduju veliki izdavaฤi i offline repozitoriji. Razmislite o milijunima tekstova objavljenih prije interneta. Digitalno dostupni, mogli bi pruลพiti novi izvor podataka za projekte UI.
News Corp, jedan od najveฤih svjetskih vlasnika sadrลพaja vijesti (koji ima veฤi dio svog sadrลพaja iza paywalla) nedavno je rekao da pregovara o sadrลพajnim poslovima s programerima UI. Takvi bi poslovi prisilili tvrtke UI da plaฤaju za podatke za obuku โ dok su ih do sada uglavnom besplatno skupljali s interneta.
Stvaraoci sadrลพaja su protestirali protiv neovlaลกtenog koriลกtenja njihovog sadrลพaja za treniranje modela UI, s nekima koji tuลพe tvrtke poput Microsofta, OpenAI-a i Stability AI-a. Biti plaฤeni za njihov rad moลพe pomoฤi u obnavljanju nekih neravnoteลพa moฤi koje postoje izmeฤu kreativaca i tvrtki UI.
