Изследователи от лабораторията за изкуствен интелект на Amazon Web Services установиха, че повече от половината текст в интернет е преведен на 2 или повече езика и често качеството на текста пада поради лош машинен превод.

Това поражда сериозни опасения относно разработването на големи езикови модели: модерният AI изисква огромни количества данни за обучение, които могат да бъдат събрани само онлайн.

„Всъщност се заинтересувахме от тази тема, защото няколко колеги, които работят с машинен превод и са носители на редки езици, отбелязаха, че повечето от уеб ресурсите на техния роден език изглеждат машинно генерирани“, обяснява Мехак Даливал, бивш Applied Научен стажант в AWS и настоящ студент в Калифорнийския университет, Санта Барбара.

„Идеята дойде от говорещи редки езици и направихме проучване, за да разберем по-добре проблема и да видим колко широко разпространен е той. С това казано, всеки трябва да е наясно, че съдържанието, което гледа онлайн, може да е машинно генерирано“, добавя Dhaliwal.

Като част от проучването се формира корпус от 6,38 милиарда изречения, събрани в интернет.

57,1% от изреченията в корпуса са имали паралелни съвпадения на поне 3 езика.

Както всички продукти за машинно обучение, машинният превод е обект на човешки пристрастия и е фокусиран върху езиците, които се говорят в западния свят и развитите страни. Поради това качеството на преводите варира значително и редки езици, като тези, които се говорят в Африка, не предоставят достатъчно данни за обучение за създаване на висококачествени текстове.

„Като цяло забелязахме, че повечето езици са склонни да имат паралелни съвпадения в най-често срещаните езици. По-вероятно е изреченията да бъдат преведени на френски, отколкото на който и да е рядко срещан език, просто защото има много повече данни на френски, отколкото на език с ниски ресурси“, коментира Даливал.

В проучването често срещаните езици като английски или френски са имали средно ниво на едновременност от 4, което означава, че изреченията са имали еквиваленти на другите три езика. Редки езици, като африкански волоф или коса, имат средно ниво на паралелизъм от 8,6. Освен това преводите върху тях бяха много по-лоши.

„Колкото повече преводи има едно изречение на различни езици, толкова по-ниско е качеството на преводите, което показва високото разпространение на машинния превод“, се казва в статията.

Проучването установи също, че за езици с много паралелни съответствия има тенденция да се избират по-кратки, „по-предвидими“ изречения от 5-10 думи. Поради това колко кратки бяха изреченията, изследователите установиха, че е трудно да характеризират качеството им.

Въпреки това, според учените, проучването е доста поучително: „По-голямата част идва от статии, които характеризираме като нискокачествени, не изискващи значителен опит или усилия за създаване, по теми като това как да бъдете взети сериозно на работа, правейки повече внимателни решения, как да решите да бъдете щастливи или шест съвета за нови собственици на лодки и така нататък.

 

Изследователите твърдят, че пристрастието при избора на кратки изречения от статии с ниско качество е причинено от факта, че „нискокачественото съдържание (вероятно създадено за генериране на рекламни приходи) е масово преведено чрез машинен превод на по-редки езици (отново, вероятно за генериране на приходи от реклама). Освен това се предполага, че такива данни първоначално се появяват на английски и се превеждат на други езици.

Според изследователите това означава, че значителна част от текста на редки езици в интернет са лоши машинни преводи, което поставя под въпрос развитието на големи езикови модели на тези езици.

Проучването заключава: „Съвременният изкуствен интелект изисква огромни количества данни за обучение, обикновено вариращи от няколкостотин милиарда до няколко трилиона токена. Обучението в този мащаб е възможно само чрез използване на данни, събрани онлайн.

Нашите резултати пораждат много опасения за разработчиците на многоезични модели: владеенето на езика (особено в изреченията) и точността на машинния превод са по-ниски, което може да доведе до модели с ниско владеене на езика и повече халюцинации, а отклонението при избора показва, че данните може да са с по-ниско качество, дори без грешки в машинния превод.“