DeepSeek vyvoláva obavy ohľadom súkromia a cenzúry

Aj v tomto prípade platí, že nie je všetko zlato čo sa blyští.

Čínska verzia umelej inteligencie, ktorá zosadila z pozície najpopulárnejšej bezplatnej aplikácie v americkom App Store konkurenčný ChatGPT od OpenAI, vyvolala rozruch. Nielenže má kvalitnejšie odpovede na otázky, ale aj jej náklady na prevádzku sú len zlomok nákladov konkurencie a jej tréning stál približne desatinu sumy v porovnaní s trénovaním konkurenčnej GPT-4 od OpenAI.

Netrvalo dlho, a už sa objavili prvé obavy ohľadom ochrany súkromia a cenzúry. DeepSeek sa v negatívnom slova zmysle preslávil cenzúrou politických tém ako násilne potlačené povstanie na námestí Tiananmen (Námestie Nebeského pokoja) v Pekingu v roku 1989, alebo cenzúrou tém týkajúcich sa Taiwanu. Screenshoty ohľadom tejto cenzúry sa objavovali aj na sociálnych sieťach.

Ktokoľvek si mohol čínsku AI vyskúšať a overiť si, že ide o dezinformácie, ktoré sú pre sociálne siete typické. Tieto informácie o cenzúre protestov a informácií ohľadom Taiwanu sú aj v našom článku o DeepSeek. Aj keď produkt čínskej firmy má open-source povahu, nie je to produkt s plne otvoreným zdrojovým kódom, pretože verejne prístupné sú len výstupy modelu a niektoré jeho aspekty.

Podkladové trénované údaje a kód potrebný na úplnú reprodukciu modelov nie sú úplne zverejnené, čo malo za následok aj obvinenie od OpenAI z odcudzenia dát. AI zhromažďuje dáta o jej používateľoch na serveroch v Číne, čo vyvolalo obavy ohľadom ochrany súkromia a rizika zneužitia dát. V krajinách ako Taiwan a Južná Kórea už bol DeepSeek zakázaný na použitie vo vládnych inštitúciách.

Konanie vyvolalo pozornosť aj regulátorov z Európskej únie, napríklad talianskeho GPDP (Garante per la protezione dei dati personali). Z dôvodu vysokého potencionálneho rizika pre údaje miliónov ľudí v Taliansku úrad požiadal DeepSeek a jeho dcérske spoločnosti, aby potvrdili, že ktoré osobné údaje sa zhromažďujú, aké zdroje sa používajú, na aké účely, na akom právnom základe sa spracúvajú a či sú uložené na serveroch v Číne.

Požiadavka bola síce odoslaná 28. januára so zákonnou lehotou na odpoveď 20 dní, ale už na druhý deň aplikácia zmizla z talianskych obchodov s aplikáciami App Store a Google Play. Taktiež sa našla databáza služby, ktorá bola verejne dostupná. Databáza obsahovala značný objem histórie chatu, back-endových údajov a citlivých informácií vrátane tokov protokolov, tzv. API Secrets a prevádzkových údajov.

Databáza bola nielen prístupná a čitateľná, ale bola tiež otvorená kontrole a zvyšovaniu oprávnení v rámci prostredia DeepSeek. Nevyžadovala sa žiadna autentifikácia, takže ktokoľvek, kto narazil na databázu, mohol spustiť dotazy na získanie citlivých protokolov a chatových správ v čistom texte (plain text), a takto dokonca aj ukradnúť heslá a lokálne súbory.

Tieto skutočnosti oprávnene vyvolávajú obavy o ochranu súkromia, bezpečnosť dát a preukázané riziko cenzúry. Obavy zo zneužitia dát sa samozrejme netýkajú len čínskych verzií AI. Chatboty, a iné odnože umelej inteligencie, taktiež trénujú na dátach, ktoré tam zadali samotní používatelia a aj na výsledkoch, ktoré boli takto vygenerované.

Z tohto dôvodu viacerí samotní prevádzkovatelia takýchto produktov upozorňujú, aby používatelia nezadávali osobné a citlivé dáta, nakoľko by sa takouto formou stali súčasťou zozbieraných dát a mohli by sa dostať do nepovolaných rúk. Pri zadávaní požiadaviek pre umelú inteligenciu sa treba správať tak, ako keby si požiadavky používateľa mohol ktokoľvek prečítať, a tomu prispôsobiť formu a rozsah dopytov.

Zdroj