Изненадващо, никой не знае как всъщност работят съвременните AI системи – дори и тези, които ги създават.

От Anthropic обаче твърдят, че са успели да отворят „черната кутия“. Това потенциално ще помогне за предотвратяване на злонамерено използване на технологията и ще намали потенциалните заплахи.

Най-странното и най-страшното в съвременните AI системи е, че принципите на тяхната работа са все още неясни .

Това е така, защото големите езикови модели (LLM), които се използват в ChatGPT и други популярни чатботове, са различни от обикновените програми, за които пишат код. По същество LLM се учат сами, като обработват огромни количества данни, за да идентифицират модели и връзки в езика, и след това използват това знание, за да предвидят коя дума ще се появи следващата в текста.

Този подход обаче прави по-трудно обратното проектиране или коригирането на проблема чрез намиране на грешка в кода. Ако потребител сега зададе въпроса „Кой град в САЩ има най-добрата храна?“ и получи отговора „Токио“, ще бъде невъзможно да се разбере защо моделът прави грешка или отговаря на друг потребител „Мадрид“.

И когато LLM-ите започнат да се държат неправилно, никой не може да обясни защо.

В края на краищата, ако не знаем какво се случва вътре в моделите, как ще разберем дали те могат да бъдат използвани за създаване на биологични оръжия, разпространяване на политическа пропаганда или писане на зловреден код за кибератаки? Ако мощните системи спрат да се подчиняват или започнат да ни мамят, как можем да ги спрем, ако дори не разбираме какво причинява това поведение?

Неразбираемостта на моделите не е само неудобство: това е и причината някои изследователи да се страхуват, че мощните AI системи могат да се превърнат в заплаха за човечеството.

За да се справи с тези проблеми, малък клон на изследванията на AI, известен като “механистична интерпретируемост”, прекара години в разглеждане на това, което се случва под капака на моделите. Работата напредваше бавно и прогресът беше постепенен.

Съществува и нарастваща съпротива срещу идеята, че системите с изкуствен интелект изобщо представляват голям риск. Миналата седмица двама старши изследователи по сигурността в OpenAI, създателят на ChatGPT, напуснаха компанията поради конфликт с ръководството относно това дали компанията прави достатъчно, за да гарантира сигурността на своите продукти.

Но тази седмица екип от изследователи от стартиращата компания за изкуствен интелект Anthropic съобщи за голям пробив, който се надяват да ни даде по-добро разбиране за това как всъщност работят езиковите модели на изкуствен интелект и може би да предотврати техните вредни ефекти.

Накарайте изкуствения интелект да учи и да се самоусъвършенства – изберете онлайн курсове от каталога с курсове за машинно обучение.

Изследователите са разгледали един от моделите на Anthropic, Claude 3 Sonnet, версия на езиковия модел Claude 3, и са използвали техника, наречена „речниково обучение“, за да идентифицират модели в това как комбинациите от неврони, математическите единици в AI модела, бяха активирани, когато Клод беше подканен да обсъди конкретна тема. Те идентифицираха приблизително 10 милиона от тези модели, които нарекоха „функции“.

Беше открито, че една от функциите се активира всеки път, когато Клод беше помолен да говори за Сан Франциско. Други функции отговаряха на споменавания на теми като имунология или специфични научни термини като литий. А някои бяха свързани с по-абстрактни понятия, като измама или пристрастност към пола.

Те също така забелязаха, че ако ръчно активирате определени функции, можете да повлияете на поведението на системата или дори да я принудите да наруши собствените си правила.

Например, ако принудите функцията, свързана с концепцията за угодничество, да работи по-активно, Клод ще похвали потребителя, дори ако това е неподходящо.

Крис Охла, който ръководи екипа за интерпретация на Anthropic, коментира, че констатациите ще позволят на компаниите с изкуствен интелект да управляват моделите по-ефективно.

„Ние отключваме функции, които могат да хвърлят светлина върху притесненията относно пристрастията, рисковете за сигурността и автономността. Много се радвам, че може да успеем да превърнем тези противоречиви и противоречиви въпроси в тема за продуктивна дискусия“, каза той.

Други изследователи вече са открили подобни явления в малки и средни езикови модели. Но екипът на Anthropic беше един от първите, които приложиха тези методи към модел в пълен размер.

Джейкъб Андреас, асистент по компютърни науки в Масачузетския технологичен институт, успя да прочете резюме на изследването на Anthropic. Това е окуражаващ знак, че може да се постигне широкомащабна интерпретируемост, каза той.

„Точно както разбирането на основните принципи на това как работят хората ни помогна да лекуваме болести, разбирането как работят тези модели ще ни позволи да забележим кога нещата може да се объркат и да създадем по-добри инструменти за контрол“, казва той.

Ола, директор на изследванията в Anthropic, казва, че въпреки че новите открития представляват важен напредък, проблемът с интерпретацията на AI все още е далеч от решение.

 


На първо място, най-големите модели вероятно съдържат милиарди функции, представящи различни концепции – много повече от 10-те милиона, които екипът твърди, че е открил. Намирането на всички тях би изисквало невероятна изчислителна мощност и би било непосилно скъпо за всички, освен за най-богатите компании за изкуствен интелект.

Дори ако изследователите трябваше да дефинират всяка функция в голям модел на изкуствен интелект, те пак ще имат нужда от повече информация, за да разберат напълно вътрешното функциониране на модела. Също така няма гаранция, че AI компаниите ще действат по начини, които правят техните системи по-сигурни.

Изследователят обаче вярва, че дори възможността за отваряне на тази черна кутия ще даде на компаниите, регулаторите и широката общественост повече увереност, че тези системи могат да бъдат управлявани.

“Има много други предизвикателства пред нас, но това, което изглеждаше най-ужасното, вече не изглежда като пречка”, каза той.