Nedávna štúdia odhalila, že až 57% obsahu na internete môže pochádzať z umelej inteligencie.
Tento fenomén má vážne dôsledky na kvalitu dát, ktoré sa používajú na trénovanie AI systémov. Generatívna AI je schopná vytvárať neuveriteľne realistické obrázky, videá a texty, ktoré však často strácajú zmysel a sú len zmesou vytrhnutých výrokov z rôznych webstránok. Ďalším problémom je, že chatboty môžu poskytovať presné informácie, ktoré však pochádzajú z chráneného autorského obsahu.
Sam Altman, CEO OpenAI, priznal, že vytvorenie nástroja ako ChatGPT bez použitia chráneného materiálu je prakticky nemožné. Výskumníci z AWS (Amazon Web Services) zistili, že až 57% verejného internetového obsahu môže byť generovaného AI alebo preloženého pomocou AI algoritmov. Odborníci z Cambridge a Oxfordu varujú, že narastajúce množstvo AI generovaného obsahu a jeho závislosť na týchto umelých dátach vedie k zníženiu kvality.
Dr. Ilia Shumailová z Oxfordu upozorňuje na rýchly nástup modelového kolapsu, ktorý najprv postihuje zle reprezentované údaje a následne znižuje rozmanitosť výstupov. Tento kolaps môže mať vážne dôsledky, keďže zhoršuje výkon pri menšinových údajoch. V praxi to znamená, že internet je zaplavený obsahom pochybnej kvality, z ktorého sa učia jazykové modely, čo vedie k zhoršeniu ich výsledkov.
Generovaný obsah často nie je overovaný a zle preložené príspevky len pridávajú na zmätku. Pri krátkych textoch je často ťažké určiť kontext, čo je problém aj pre ľudí. Výskumný tím použil na svoje závery vopred vycvičenú AI, ktorá po opakovanom použití dát vylúčila z rozsahu svojich znalostí vzácne plemená psov, hoci bola pôvodne trénovaná na širokej knižnici informácií.
Keď sú pôvodné dáta chybné, a z týchto chýb sa generujú ďalšie výsledky, dochádza k efektu podobnému genetickej degenerácii pri klonovaní. Každá ďalšia generácia je čoraz viac postihnutá chybami, až nakoniec nie je možné pokračovať v klonovaní.