Alarm u svijetu tehnologije: Ostajemo li bez podataka za hranjenje umjetne inteligencije?

Objavljeno

11/11/2023

Napisao
Geek Hr
11/11/2023

4 min čitanja

Kako umjetna inteligencija (UI) dostiže vrhunac svoje popularnosti, istraživači upozoravaju da bi industrija mogla ostati bez podataka za obuku – goriva koje pokreće moćne sustave UI.

To bi moglo usporiti rast modela UI, posebno velikih jezičnih modela, pa čak i promijeniti putanju revolucije UI.

Ali zašto je potencijalni nedostatak podataka problem, s obzirom na to koliko ih ima na webu? I postoji li način za rješavanje tog rizika?

Zašto su podaci visoke kvalitete važni za UI

Potrebno nam je puno podataka za obuku moćnih, točnih i visokokvalitetnih algoritama UI. Na primjer, ChatGPT je treniran na 570 gigabajta tekstualnih podataka, ili oko 300 milijardi riječi.

Slično tome, algoritam stabilne difuzije (koji stoji iza mnogih aplikacija za generiranje slika UI kao što su DALL-E, Lensa i Midjourney) treniran je na LIAON-5B skupu podataka koji se sastoji od 5,8 milijardi parova slika i teksta. Ako se algoritam trenira na nedovoljnoj količini podataka, proizvest će netočne ili niskokvalitetne rezultate.

Kvaliteta podataka za obuku je također važna. Podaci niske kvalitete, kao što su objave na društvenim medijima ili mutne fotografije, lako se mogu nabaviti, ali nisu dovoljni za obuku visoko učinkovitih modela UI.

Tekst preuzet s platformi društvenih medija može biti pristran ili predrasudan, ili može sadržavati dezinformacije ili ilegalni sadržaj koji bi model mogao replicirati. Na primjer, kada je Microsoft pokušao trenirati svoj AI bot koristeći sadržaj s Twittera, naučio je proizvoditi rasističke i mizogine rezultate.

Zato programeri UI traže visokokvalitetan sadržaj poput teksta iz knjiga, online članaka, znanstvenih radova, Wikipedije i određenog filtriranog web sadržaja. Googleov pomoćnik treniran je na 11.000 romantičnih romana preuzetih s web stranice za samostalno izdavanje Smashwords kako bi ga učinili konverzacijskijim.

Imamo li dovoljno podataka?

Industrija UI trenirala je sustave UI na sve većim skupovima podataka, zbog čega sada imamo visoko učinkovite modele kao što su ChatGPT ili DALL-E 3. Istovremeno, istraživanja pokazuju da online zalihe podataka rastu puno sporije od skupova podataka koji se koriste za treniranje UI.

U radu objavljenom prošle godine, skupina istraživača predvidjela je da ćemo ostati bez visokokvalitetnih tekstualnih podataka do 2026. godine ako se trenutni trendovi treniranja UI nastave. Također su procijenili da će podaci niske kvalitete jezika biti iscrpljeni negdje između 2030. i 2050., a podaci niske kvalitete slika između 2030. i 2060.

UI bi do 2030. godine mogao doprinijeti svjetskoj ekonomiji s do 15,7 bilijuna dolara (24,1 bilijuna A$), prema računovodstvenoj i savjetodavnoj grupi PwC. Ali, nestajanje upotrebljivih podataka moglo bi usporiti njegov razvoj.

Trebamo li biti zabrinuti?

Iako gore navedene točke mogu zabrinuti nekeobožavatelje UI, situacija možda nije tako loša kako se čini. Postoji puno nepoznanica o tome kako će se modeli UI razvijati u budućnosti, kao i nekoliko načina za rješavanje rizika od nedostatka podataka.

Jedna prilika je da programeri UI poboljšaju algoritme tako da učinkovitije koriste podatke koje već imaju.

Vjerojatno će u narednim godinama biti u mogućnosti trenirati visoko učinkovite sustave UI koristeći manje podataka, a moguće i manje računalne snage. To bi također pomoglo smanjiti ugljični otisak UI.

Druga opcija je korištenje UI za stvaranje sintetičkih podataka za treniranje sustava. Drugim riječima, programeri mogu jednostavno generirati podatke koji im trebaju, prilagođene njihovom posebnom modelu UI.

Nekoliko projekata već koristi sintetički sadržaj, često izvorni iz usluga za generiranje podataka poput Mostly AI. To će postati uobičajenije u budućnosti.

Programeri također traže sadržaj izvan besplatnog online prostora, poput onog koji posjeduju veliki izdavači i offline repozitoriji. Razmislite o milijunima tekstova objavljenih prije interneta. Digitalno dostupni, mogli bi pružiti novi izvor podataka za projekte UI.

News Corp, jedan od najvećih svjetskih vlasnika sadržaja vijesti (koji ima veći dio svog sadržaja iza paywalla) nedavno je rekao da pregovara o sadržajnim poslovima s programerima UI. Takvi bi poslovi prisilili tvrtke UI da plaćaju za podatke za obuku – dok su ih do sada uglavnom besplatno skupljali s interneta.

Stvaraoci sadržaja su protestirali protiv neovlaštenog korištenja njihovog sadržaja za treniranje modela UI, s nekima koji tuže tvrtke poput Microsofta, OpenAI-a i Stability AI-a. Biti plaćeni za njihov rad može pomoći u obnavljanju nekih neravnoteža moći koje postoje između kreativaca i tvrtki UI.

U ovom članku:AI, podaci, stručnjaci, umjetna inteligencija, upozorenje

Možda će vas zanimati

Tech

Pogledajte što se dogodi s ljudskom rukom kada se uroni u tekući dušik

Što bi se dogodilo ako uronite ruku u posudu tekućeg dušika? Bi li vam se ruka smrzla do ozeblina? Bi li se razbila čim...

Geek Hr05/11/2013

Internet

Najčudnije stvari uhvaćene na Google Street Viewu

Sigurno ste do sad naletjeli na neke od bizarnosti na koje je Googleovo auto naletjelo pri snimanju, a u ovom videu pogledajte kompilaciju najčudnijih...

Geek Hr19/11/2013

Tech

Kako se računa postotak?

Trebate izračunati postotak od nekog broja, a ne znate kako? Pročitajte ovaj jednostavan članak i naučite kako se računa postotak. Postotci se koriste za...

Geek Hr05/10/2020

Tech

Pogledajte kako pojedine droge djeluju na pauka

1995. godine grupa znanstvenika NASA-e napravila je testove o tome kako pojedine droge utječu na paukovu sposobnost da izgradi mrežu.

Geek Hr16/01/2013

Internet

Koliko dugo čovjek može preživjeti ako je živ zakopan?

Odmah da vam kažemo – neizbježan kraj dogodio bi se iznenađujuće brzo. Ako je zapremnina prosječnog lijesa 886 litara, a prosječan volumen ljudskog tijela...

Geek Hr31/10/2013

Automoto

Auto koji može voziti 100 godina bez ponovnog punjenja goriva

Tvrtka Laser Power Systems razvila je automobil pogonjen nuklearnom energijom. Napokon je pronađen način koji će vašem automobilu omogućiti vječni rad bez punjenja. No...

Geek Hr31/03/2014

Tech

Mir – rudnik dijamanata u Sibiru

Rudnik dijamanata Mir u Siberu jedna je od najvećih rupa u tlu koju je čovjek napravio. Duboka je 525 metara i široka 1200m. Let...

Geek Hr13/01/2013

Tech

Zašto se bumerang uvijek vraća vlasniku?

Bumerang je jedan od najstarijih letećih objekata koje je ljudska ruka stvorila. Svi znamo da su ih koristili Aboridžini, no malo je poznato je...

Geek Hr04/11/2013

Alarm u svijetu tehnologije: Ostajemo li bez podataka za hranjenje umjetne inteligencije?

Zašto su podaci visoke kvalitete važni za UI

Imamo li dovoljno podataka?

Trebamo li biti zabrinuti?

Drugi upravo čitaju

Igre i gaming

Dungeons and Dragons: 11 trikova za bolju avanturu

Tech

QR kod: Najbrži način za dijeljenje linkova

Filmovi i SF

Hobit: 15 detalja koji mijenjaju pogled na film

Filmovi i SF

Paul film: 11 razloga zašto ga geekovi obožavaju

Filmovi i SF

Isle of Wonders: 13 trikova za najbolji geek vikend

Možda će vas zanimati

Tech

Pogledajte što se dogodi s ljudskom rukom kada se uroni u tekući dušik

Internet

Najčudnije stvari uhvaćene na Google Street Viewu

Tech

Kako se računa postotak?

Tech

Pogledajte kako pojedine droge djeluju na pauka

Internet

Koliko dugo čovjek može preživjeti ako je živ zakopan?

Automoto

Auto koji može voziti 100 godina bez ponovnog punjenja goriva

Tech

Mir – rudnik dijamanata u Sibiru

Tech

Zašto se bumerang uvijek vraća vlasniku?