Как генеративният AI използва нашите данни

AI системите предизвикват много опасения, включително как използват данни. Знаем много малко за това откъде тези модели получават петабайтите данни, от които се нуждаят, как се използват тези данни и какви предпазни мерки, ако има такива, има, когато става въпрос за чувствителна информация. Разработчиците не са склонни да говорят по тази тема и може сами да не знаят за това.

Може би сте доволни от това или смятате, че ползите от генеративния ИИ надвишават рисковете. Но не всички смятат така.

Преди две седмици публикация стана вирусна в Twitter, обвиняваща Google, че събира данни от Google Docs за обучение на AI. В коментарите той добави, че компанията „използва документи и имейл от години, за да обучава своя изкуствен интелект“.

Оригиналният туит получи близо 10 милиона гледания и беше споделен хиляди пъти. Никой не обърна внимание, че това може дори да не е вярно.

Google заявява, че не използва данни от своите безплатни или корпоративни продукти, включително Mail и Docs, без разрешение на потребителя. Компанията обаче използва анонимни данни, за да обучи функции като проверка на правописа и Smart Compose.

Вероятно съдебни дела и промени в закона ще защитят нашата информация в бъдеще. Но тези компании вече са събрали нашите данни, използвали са ги и са успели да спечелят от тях. И вероятно няма да можем да направим нищо по въпроса.

Как разработчиците получават вашите данни

Грубо казано, генеративните AI системи се нуждаят от възможно най-много данни за обучение. Колкото повече получават, толкова по-точно ще си представят как хората звучат, изглеждат, говорят и пишат.

Интернет предоставя огромни количества данни, които са относително лесни за получаване чрез агрегатори и API. Но тези инструменти не правят разлика между защитени с авторски права произведения или лични данни; ако има нещо ще се използва.

Това означава, че някой стартиращ бизнес може да вземе вашите данни, за да стартира технология, за която не сте знаели. Те можеха да се появят в мрежата години преди стартирането на този стартъп. Може би дори не сте ги публикували. Или може би сте мислили, че давате данните си на компанията за цел, която ви е удобна, но сега се страхувате, че са били използвани за нещо друго.

Няма значение колко предпазливи са генеративните AI компании относно разкриването на своите източници на данни, често просто твърдейки, че са „публични“.

Списъкът с източници на Meta* за първия модел LLaMA споменава Common Crawl, който е архив с отворен код на цялата мрежа, и сайтове като Github, Wikipedia и Stack Exchange, които също са огромни хранилища на информация. По отношение на източниците, Llama 2 Meta* не беше толкова откровен. Всички тези източници може да съдържат лична информация.

OpenAI признава, че използва лични данни, за да обучава своите модели, но казва, че ги намира “случайно” и ги използва само за създаване на “по-добри модели”, а не за създаване на профили на хора, за да им продава реклами.

Google и Meta* разполагат с огромни количества лични потребителски данни, които според тях в момента не използват за обучение на своите езикови модели. Въпреки това няма гаранция, че няма да го направят в бъдеще, особено ако това означава получаване на конкурентно предимство.

Meta* попадна в голям скандал и получи глоба от 5 милиарда долара, когато сподели данни с трети страни, включително Cambridge Analytica, които след това ги злоупотребиха.

Въпросът е, че тези компании са дали на потребителите много причини да не се доверяват на техните съобщения за поверителност на данните или ангажименти за изграждане на сигурни системи.

Авторски права, закони за поверителност и “публични” данни

За творци като писатели, музиканти и актьори авторските права и правата върху изображения са основна грижа и е доста очевидно защо. Генеративните AI модели са обучени върху техните творения и по този начин могат да ги оставят без работа.

Ето защо комикът Сара Силвърман съди OpenAI и Meta* в колективен иск. Тя твърди, че две компании са се обучавали върху нейните писания, използвайки набори от текстови данни от нейната книга The Bedwetter. Има и съдебни дела за права върху изображения и използване на код с отворен код.

Използването на генеративен AI също е една от причините писатели и актьори да стачкуват, като и двата им профсъюза WGA и SAG-AFTRA се страхуват, че студиата ще обучават модели на линии и изображения на артисти и просто ще генерират ново съдържание, без да компенсират хората.

Но средният потребител може да няма интелектуална собственост, която да защитава, или поне доходът му няма да зависи от това. Много повече го интересува как OpenAI и други защитават вашата поверителност, когато техните системи събират информация, смесват я и я връщат обратно.

Регулаторите, законодателите и юристите също си задават този въпрос.

Италия дори временно забрани ChatGPT поради проблеми с поверителността.
Други европейски държави обмислят да направят свои собствени проверки на ChatGPT.
Освен това OpenAI привлече вниманието на Федералната търговска комисия и се разследва за възможни нарушения на законите за защита на потребителите. Агенцията също сигнализира, че ще следи отблизо генеративните AI инструменти.

Засега няма начин моделите да изтрият личната информация, която са научили за нас, което е чиста проба за нарушаване на поверителността.

Инструментите за почистване и изтриване на данни на ChatGPT са предназначени само за информацията, събрана от потребителите на услугата. Вече има опция хората в „определени юрисдикции“ да се откажат от обработка на данни от модели на OpenAI, но няма гаранция, че това ще се случи, а за да го направи, първо трябва да се докаже, че данните са били обработени.

Въпреки че OpenAI наскоро промени политиката си и спря моделите за обучение въз основа на данни, предоставени от собствените му клиенти, има друга загриженост за поверителността по отношение на това как тези модели използват данните, които им предоставяте, когато ги използвате, и информацията, която публикуват в публичното пространство .

Главният изпълнителен директор на OpenAI Сам Алтман признава, че клиентите очевидно искат компанията да не се обучава върху техните данни. Междувременно OpenAI беше съден за клевета заради отговор на ChatGPT, който невярно твърди, че някой е измамил НПО и е откраднал пари. И това не е единственият път, когато отговорът на ChatGPT съдържа неверни обвинения.

Какво може да се направи по въпроса? Това е най-трудното тук. Много от опасенията за поверителността днес са резултат от това, че в миналото не е имало правилните закони за защита на данните, преди тези набори от данни и технологии да бъдат създадени.

Винаги можем да опитаме да публикуваме по-малко данни, но с това, което вече е попаднало в мрежата, практически няма какво да се направи. За да направите това, ще ви трябва машина на времето, но досега дори генеративният AI не е изобретил такава.