Не само GPT: предимствата на BERT пред ChatGPT

ChatGPT стана много популярен напоследък. Използва се в голямо разнообразие от приложения и изглежда е способен на всичко. Но дали е толкова добро и универсално? Яков Длугач, разработчик в Wayve, реши да разбере това.

ChatGPT и BERT са представители на невронни мрежи, които могат да се използват за решаване на много проблеми с обработката на естествен език (NLP). НЛП е една от най-важните области на изкуствения интелект и лингвистиката. Занимава се с анализ на текстови данни, обработка и възпроизвеждане на естествена устна и писмена човешка реч.

Примери за НЛП задачи в бизнеса

НЛП опростява и автоматизира много процеси, които изискват обработка на големи количества неструктуриран текст. NLP се използва за създаване на „умни“ системи, включително уеб търсачки (например Google или Yandex), музикални приложения, услуги за автоматичен превод и чат ботове.

Работата на гласови асистенти като Siri или Alice се основава на НЛП. Именно НЛП им позволява да разберат молбата и да й отговорят на естествен език.

Примери за инструменти, базирани на NLP, включват филтриране и класифициране на имейли (като спам), проследяване на новини, създаване на автоматични субтитри за видео съдържание, анализиране на настроението на текста, проверка на граматика и правопис и автоматично довършване на текст въз основа на въведената част.

Какво да избера – GPT или BERT?

Предварително обучени езикови модели с трансформаторна архитектура, като BERT (двупосочни енкодерни представяния от трансформатори) и GPT (генеративен предварително обучен трансформатор), играят важна роля при решаването на много проблеми с НЛП.

Те помагат за анализиране и класифициране на текст, превеждат го автоматично, разпознават наименувани обекти (NER), подобряват извличането на информация и т.н.

Защо ChatGPT е толкова популярен?

ChatGPT е най-известният езиков модел на класа GPT от OpenAI. Тя е обучена на голямо количество данни, така че има обширни познания по различни теми. И когато няма достатъчно данни за обучение за конкретна задача, GPT моделите могат бързо да се адаптират и да предоставят точни отговори.

Основната способност на GPT е да генерира последователни и информативни текстове в отговор на текстово или устно искане от потребителя, като се адаптира към стила и формата. Тази технология се използва в разговорни приложения: чатботове и виртуални асистенти.

Заедно с генерирането на текст, GPT може да се използва за решаване на всички проблеми, които разчитат на създаването на текстове, като резюмиране (преобразуване на текст в по-малък обем), намиране на отговори на сложни въпроси (когато отговорът трябва да бъде събран от различни параграфи или логически извод трябва да се приложи към отговора), както и при решаване на задачи от други области (например, когато изображение се трансформира в текстово описание и нещо се определя от него).

Освен това GPT е добър при решаването на задачи за довършване на текст, езиков превод и анализ на настроението на текста.

Кога е най-подходящото време да изберете BERT?

Само преди четири години BERT и GPT бяха добре известни, но през последните години нямаше пробив в BERT, така че беше малко позабравен.

Възможно е да има погрешно схващане, че BERT е остарял и затова е по-добре да използвате най-новата версия на ChatGPT за всякакви задачи, свързани с НЛП.

Всъщност BERT има редица предимства и може да бъде много по-ефективен при решаването на следните проблеми:

Анализ и класификация на текст

Оценете текста по определени критерии и го присвоете към една от категориите. Анализът се използва за създаване на съдържание, проверка на неговата уникалност или грешки в текста, избор на синоними и рими. Използва се и в анализите и маркетинга, когато е необходимо да се оцени „настроението“ на потребителите въз основа на прегледите на продукта и да се открият основните силни и слаби страни, появяващи се в прегледите.

Социалните мрежи могат да използват класификатор за търсене на забранено съдържание. Да предположим, че социалните мрежи трябва да скрият призивите за насилие. За да направи това, тя обучава класификатор: има повиквания или няма повиквания.

Класификацията може също да се използва за откриване на спам, подобряване на потребителското изживяване на даден сайт, определяне на начини за популяризиране на марка и т.н.

Важно предимство на BERT при решаването на този проблем е възможността да се избират най-важните думи от изречение или текст и да се сравнява всяка от тези думи с набор от функции, които отчитат контекста. Това ви позволява по-точно да откривате нюанси в речта (като сарказъм), които GPT може да пропусне.

В допълнение, BERT може да бъде преобучен на своите етикетирани данни, като се използва много по-малко количество данни и това почти винаги значително подобрява качеството.

Пример : CB Insights, компания, която се занимава с независими анализи на стартиращи компании, започна да използва BERT за решаване на проблем с класификацията или по-точно за анализ на нагласите. Целта беше да се научим да определяме дали новините за дадена компания са положителни, отрицателни или неутрални.

Проблемът беше сложността на учебната задача, малкия набор от данни за обучение и голямото пространство за функции. Преди да използва BERT, компанията опита много други начини за подобряване на съществуващия модел: обобщени вграждания на думи, вграждания на doc2vec, функции, базирани на речник, и други.

Производителността остава ниска и компанията се обръща към BERT. С минимална фина настройка той показа най-добри резултати. За кратко време производителността се увеличи значително.

Търсене на информация

Търсене на информация по заявка на потребител в голямо количество неструктурирани данни. Компанията може да използва езикови модели, за да анализира заявките за търсене и да предостави на потребителя най-подходящите резултати.

Например, преди да публикува нова тема, форумът може да подкани потребителя да прочете няколко подобни дискусии.

SBERT е моделна архитектура, базирана на BERT. Моделите на SBERT ви позволяват да проектирате цели изречения във векторно пространство с фиксирано измерение (подобно на word2vec). Има много предварително обучени модели на SBERT за различни сценарии, включително търсене, така че дори и с модел извън кутията можете да получите много добро качество.

Въпреки че GPT може да се използва и в този режим (преобразуване на изречения във вектори), поради своята архитектура той дава по-голяма тежест на последните няколко думи в изречение или текст, което влошава качеството на търсенето, особено при дълги заявки.

Първи пример : Google винаги е работил за подобряване на разбирането на езика, за да отговаря по-точно на потребителските заявки за търсене. В резултат на проучване Google създаде технологията BERT, която взема предвид пълния контекст на дадена дума, като разглежда думите, които идват преди и след нея. Това е особено важно за разбирането на целта на заявките за търсене.

Компанията започна да прилага моделите BERT за класиране и представени фрагменти в търсенето. Това значително подобри ефективността на потребителските търсения. По-специално, търсенето може да разбере контекста на думите в по-дълги, разговорни заявки и заявки, в които предлозите са важни за разбирането на значението на заявката. BERT научи търсачката да улавя фините езикови нюанси.

Тъй като BERT може да извлича знания от един език и да ги прилага на други, Google използва модели на BERT, базирани на подобрения на английски език, за да подобри търсенето на други езици. Това помага на компанията да показва подходящи резултати на много езици, на които е достъпно търсенето.

Втори казус : Joveo търсеше подходящо решение за предоставяне на контекстуални и смислени изгледи за обяви за работа чрез самостоятелно създаване на прикачени файлове за длъжности и длъжностни характеристики. За да се справи ефективно с това предизвикателство (намаляване на изчислителната мощност и времето за изпълнение за извличане на вграждания на предложения), компанията избра SBERT.

Проблемът с данните за свободните работни места, които компанията получава е, че те не са етикетирани и идват от различни източници и клиенти. Поради тази причина Joveo се нуждае от вграждане на пространство за разбиране, групиране и класифициране на работни места.

Целта на компанията е да създаде информативни, интуитивни прикачени файлове за длъжности и описания в споделено пространство за презентации. За да постигне тази цел, Joveo прецизира SBERT модела, като му подава текстови данни, особено от работни области, които са подходящи за Joveo.

С това пространство за вграждане Joveo отбеляза значително увеличение на производителността в сравнение с предишните основни вграждания на word2vec. Използването на SBERT също така доведе до подобрена производителност за приложенията надолу по веригата в Joveo, като класификация на длъжностите, афинитет от работа към работа, кликване и прогнозиране на приложения.

Намиране на отговори на въпроси

Системите за въпроси и отговори (QA) са в основата на чатботовете и асистентите и се използват за решаване на прости потребителски проблеми, които могат да бъдат разрешени без човешка намеса. Тази задача е подобна на извличането на информация, но в нея заявката е формулирана като въпрос. Например, потребител задава въпрос в чата и системата трябва да намери отговор за него в документацията.

За решаването на този проблем има и предварително обучени модели SBERT, въпреки че те идват по двойки: единият за въпроси, другият за отговори.

GPT моделите също могат да отговарят на въпроси, но те използват различна концепция: списък с въпроси и отговори се подава към декодера като „контекст“. Освен това, тъй като мрежата генерира отговор въз основа на входните данни, вместо да търси съществуващ отговор на въпроса, тя може да „фантазира“ нещо напълно ненадеждно.

Освен това, ако трябва да потърсите отговора в купа сено, така да се каже, в голям набор от информация, тогава може да се нуждаете от отделен модел за предварително филтриране, преди да използвате GPT, и BERT може да е подходящ за тази роля .

Разпознаване на именуван обект

Откриване и класифициране на обекти. Често това е име, име на фирма или място, дата и час. С NER можете да създавате автоматизирани чатботове, да анализирате съдържание и да разкривате важни потребителски данни.

NER обикновено е част от решенията на други проблеми, а не отделен проблем. Добър пример е търсенето на рецензии за конкретен продукт или компания в социалните медии. Този проблем се смяташе за решен преди възхода на GPT и BERT, а усъвършенстваните NER модели все още не използват нито BERT, нито GPT.

Има обаче примери за успешни приложения на BERT в ситуации, при които данните за обучението са недостатъчни за „класическите“ модели.

Пример : Georgian, финтех компания, инвестираща в технологични компании с висок растеж, инвестира в SPINS през 2021 г. SPINS предоставя на марките и търговците на дребно здравна информация и препоръки въз основа на водеща в индустрията продуктова библиотека.

Създаването на препоръки, които са в основата на бизнеса на SPINS, изисква пълни и точни данни. Данните за търговеца обаче може да са остарели, непълни или неправилни, така че почистването и стандартизирането на данните е важно за SPINS и неговите клиенти.

SPINS и Georgian решиха да използват AI за автоматично идентифициране на конкретни точки от данни и намаляване на ръчните усилия, необходими за почистване на данните. Задачата беше да се подчертаят части в имената на стоките в ценовата листа.

Компанията първоначално експериментира с модел, базиран на правила. По време на тестването той показа достатъчна точност, но по време на анализа на грешките стана ясно, че такъв модел има много недостатъци, особено значителни проблеми с мащабируемостта и липсата на оценка на надеждността.

За да се справи с тези недостатъци, Georgian започна да тества BERT и стигна до резултати, които го задоволиха.

Решението Georgian и SPINS е в състояние да попълни предварително прогнози с висока степен на сигурност за големи обеми входящи данни. Намаляването на ръчните стъпки спести време и усилия и направи по-лесно и по-бързо разширяването на продуктовата библиотека на SPINS.

Системи за машинен превод

Използват се в различни приложения, онлайн преводачи, както и за взаимодействие с чуждестранни клиенти. Съвременните модели за машинен превод се основават на модела „трансформатор“, който по същество комбинира BERT и GPT, но в по-малък мащаб. Като цяло, за езикови двойки, където има много данни за обучение, съществуващите модели за превод вече се представят много добре.

Основното направление на настоящите научни изследвания е преводът на редки (т.нар. ниско ресурсни) езици. BERT има многоезични модели, които позволяват да се използват данни от езици с голям ресурс за подобряване на качеството на редки езици и поради това често се използва в модели за машинен превод. GPT, напротив, досега се справя само с общи езици.

Допълнителни предимства на BERT пред GPT

BERT възприема цяло изречение или текст, докато GPT не може да гледа напред, особено по време на обучение, и му е по-трудно да научи граматическата структура на изреченията. Това е особено вярно за езици с необичаен словоред (например на немски, но до известна степен на руски). По същата причина BERT се справя по-добре с неяснотите в тълкуването;
BERT е по-бърз за обучение и се използва в производството, защото има по-малко параметри. В допълнение, BERT е по-лесен за персонализиране за конкретна задача, тъй като има по-прост процес на обучение: BERT всъщност тренира паралелно върху всички думи на изречението, докато GPT, със същите изчислителни ресурси, може да научи само една дума при време.

Резюме

След като проучихме предимствата и недостатъците на моделите GPT и BERT, можем да заключим, че GPT не е универсален. BERT може да бъде много по-ефективен при решаването на проблеми като извличане на информация, отговаряне на въпроси, класификация и анализ на текст, машинен превод и разпознаване на именувани обекти.

BERT може да се използва за решаване както на отделни проблеми, така и на части от тях (например NER). Може да се използва и самостоятелно или заедно с GPT – например при решаване на задачата за намиране на отговор на въпроси, BERT може да се използва за предварително филтриране.

Основното, което е важно да разберете при избора на модел е, че няма един универсален модел, който да се справи еднакво успешно с всички задачи на НЛП. Но ако знаете за характеристиките на моделите при решаване на определени проблеми, ще можете да изберете оптималния, който ще ви помогне да постигнете по-добри резултати в процеса на развитие на вашия бизнес.