Обучението с изкуствен интелект върху генерирано съдържание унищожава модели - проучване

Преди шест месеца светът научи за ChatGPT, а днес интернет е пълен с текстове и изображения, генерирани от AI. Досега големи езикови модели се обучават върху материали, създадени от човека. Но какво ще стане, ако синтетичното съдържание дойде да ги замени?

Група изследователи от Обединеното кралство и Канада стигнаха до разочароващото заключение , че използването на генерирани данни за обучение причинява необратими дефекти в моделите.

Разглеждайки разпределението на вероятностите в моделите, генериращи текст и изображения, авторите заключават: „обучението върху данни, произведени от други модели, причинява колапс на модела – дегенеративен процес, който кара моделите да забравят истинското разпределение на вероятностите във времето… този процес е неизбежен, дори в случаи с почти идеални условия за дългосрочно обучение.

„С течение на времето грешките в генерираните данни се натрупват и в крайна сметка моделите, които се учат от тях, възприемат реалността все по-зле и по-зле. Бяхме поразени от това колко бързо се сриват моделите: те могат бързо да забравят повечето от първоначалните данни, на които първоначално са били обучени “, коментира Иля Шумайлов, един от водещите автори на изследването .

Друг автор на изследването, Рос Андерсън, професор по информационна сигурност в Кеймбридж и Университета в Единбург, сравнява това със замърсяването: точно както пластмасата се натрупва в океаните и въглеродният диоксид се натрупва в атмосферата, ние пълним интернет с безсмислено съдържание.

В резултат на това ще бъде по-трудно да се обучават нови модели, което ще даде предимство на компании, които вече са го направили, или тези, които управляват достъпа до човешки интерфейси. И някои стартиращи компании, отбелязва той, вече вземат данни за обучение от уеб архива.

Как моделът се срива

Проблемът започва, когато данните, генерирани от AI моделите, замърсяват набора от данни за обучение за следващите модели.

„Оригиналните данни, създадени от човека, представят света по-честно, защото съдържат и невъзможни данни. От друга страна, генеративните модели са склонни да се учат твърде добре от популярни данни и често не успяват да разберат или представят недостатъчно по-малко популярни данни“, обясни Шумайлов.

Като пример той даде хипотетичен сценарий, при който моделът се обучава на набор от 100 котки, 10 със синя козина и 90 с жълта козина.

Моделът не само помни, че жълтите котки са по-често срещани, но също така представя сините котки като по-жълти, отколкото са в действителност. В резултат на това, когато моделът бъде помолен да създаде нови данни, сред резултатите се появяват няколко зелени котки.

След няколко последователни цикъла на обучение, оригиналният подпис на синя козина се размива, ставайки първо зелен и накрая жълт. Това постепенно изкривяване и загуба на малцинствени данни е колапсът на модела.

За да се избегне това, важно е да се гарантира, че малцинствените данни са представени справедливо по отношение на количеството и точността на изображението. А това е трудно, защото не е лесно за моделите да се учат от редки явления.

Това замърсяване на данните създава изкривено възприемане на реалността. Дори ако моделът е научен да не генерира твърде много дублиращи се резултати, колапсът все още възниква, защото моделите дават грешни отговори, за да се избегне повторение.

Иля Шумайлов отбеляза, че може да има и по-сериозни последици, като дискриминация по пол, етническа принадлежност или други чувствителни признаци.

Авторите на изследването установиха, че ако дори 10% от оригиналното генерирано от човека съдържание се използва в следващите поколения, „колапсът на модела все още се случва, но не толкова бързо“.

Как да избегнем проблема

Изследователите предлагат две решения.

Създайте достоверно копие, което се състои единствено или условно от генерирани от човека данни и не включва синтетично съдържание. По този начин ще бъде възможно моделът да се обучи върху тези данни отново или от нулата.
Използвайте нови, чисти, генерирани от хора набори от данни в обучението.

За това обаче, отбелязват авторите, е необходим начин за разграничаване на синтетичните данни – с помощта на механизма за масово маркиране, усилията на разработчиците на AI или тези, които произвеждат съдържание. Засега няма надежден или масов начин за това.

Последици за индустрията и потребителите

Това е смущаваща новина за генеративния AI и компаниите, които искат да се възползват от технологията. В същото време това означава, че генерираното от човека съдържание ще бъде още по-ценно, отколкото е сега, макар и само като данни за обучение на изкуствения интелект.

Констатациите имат важно значение за областта на ИИ и показват колко важно е да се подобри методологията за поддържане на целостта на моделите във времето.

„Ясно е, че колапсът на моделите остава проблем за машинното обучение и трябва да се направи нещо по въпроса, за да може генеративният ИИ да продължи да се подобрява“, каза Шумайлов.