Как да разберем, че текстът е написан от невронна мрежа

Качеството на създаденото от изкуствения интелект съдържание става все по-високо и става все по-трудно то да се разпознае. Дори специални инструменти не винаги се справят със задачата и могат да смятат, че текстът, написан от човек, е генериран от невронна мрежа.

Казваме ви на какво трябва да обърнете внимание, за да разграничите текстовете, създадени от AI и хората, и кои фактори ги правят сходни.

Как програмите определят произхода на текста?

Да започнем с основите. За да откриете синтетичен, тоест машинно генериран текст, трябва да потърсите модели.

Въпросът е, че когато човек пише, той комбинира произволни мисли в смислени изречения. Хората не следват модели и някои изречения може да са твърде дълги, докато други може да са твърде кратки.

И това е точно обратното на това как AI мисли и пише. Тук не трябва да очаквате инциденти, а текстът ще има ясна структура. Някои идеи или думи ще се повтарят и изборът на речник може да изглежда механичен, напомнящ на роботизирана реч.

Всичко това се взема предвид от специализирани програми. Четири параметъра се използват за разграничаване между това, което е написано от човек и това, което е генерирано от невронна мрежа.

Класификатори

Това са алгоритми, които определят класа на текста, като използват фактори като използване, граматика, стил и тон.

Например, текст с тъп тон, граматически грешки и повторение е по-вероятно да бъде категоризиран като генериран от AI.

Вграждания

В този контекст вгражданията са числени представяния на думи и техните взаимоотношения една с друга. Те се изразяват като вектори в многомерно пространство, всеки от които има уникален код.

Тези кодове помагат на компютрите да разберат как всяка дума е свързана една с друга и в какъв контекст се използва. Базовият модел на машинно обучение непрекъснато се обучава, за да определи кои кодове са често срещани в текстовете на AI и кои не.

Недоумение

Това е характеристика на текста, която определя степента на объркване във фрагмента. Хората пишат с много висока степен на недоумение. Но не и AI.

Опитайте се да разберете как да завършите следното изречение: „Вчера гледах Опенхаймер и това е… филм.“ Ако ви хрумне нещо като „вълнуващо“, „изключително“, „прекрасно“, „впечатляващо“ или „завладяващо“, съжалявам, но вие може да сте робот.

Ако това наистина е така, тогава е вероятно основният езиков модел да е халюцинаторен , тоест той прави твърдения, които не са подкрепени с факти, или няма ограничения, които контролират качеството и изхода.

Спонтанност

Вече говорихме за това, че хората пишат непредсказуемо. И някои изречения може да са дълги, а други кратки. Спонтанността (избухването) е друга характеристика на текста, която определя това.

Текстът, написан с помощта на изкуствен интелект, обикновено се състои от изречения, които са сходни по дължина и структура (ниска спонтанност).

Обратно, човешкият текст съдържа както дълги, така и кратки изречения и е достатъчно креативен, за да разчупи шаблони. В същото време няма да има скучна структура (висока спонтанност).

AI детекторите използват комбинация от тези четири концепции за откриване на генерирано съдържание. Но колко точни са те? За съжаление методът все още не работи на 100%. Просто ви казва вероятността.

И така, резултат от 70% означава, че програмата е 70% уверена, че съдържанието е създадено от AI, и 30% уверена, че авторът му е човек.

Самата идея предполага възможността за грешка, тъй като се фокусира само върху нивата на увереност и вероятност.

Защо програмите за проверка правят грешки?

Има много причини машинно генерираното съдържание да става все по-трудно за откриване.

Generative AI ги изпреварва: модели като ChatGPT 4 (и дори безплатната версия) наистина стават все по-добри в писането на човешки текстове. Те използват само правилните класификатори, вграждания, объркване и спонтанност. Те анализираха безумно количество съдържание, генерирано от хора, за да намерят сладкото място между правилното използване на граматиката и избора на думи.
Софтуерът просто не е достатъчно добър: Подобно на софтуера за генериране, AI детекторите трябва да бъдат обучени на огромни количества данни. В противен случай те няма да могат да категоризират точно съдържанието.
Пристрастията често се промъкват в данните за обучение, карайки AI систематично да взема лоши решения за конкретни случаи на употреба. И това е сериозен проблем. Съществува, защото всички данни за обучение идват от хора. Хората имат пристрастия, дори и да не ги осъзнават.
Новите стратегии за генериране на съдържание влошават нещата: авторите на AI и блогърите непрекъснато разработват нови стратегии, за да заблудят детекторите на AI. Например, те разработиха специални съвети, за да принудят ChatGPT да записва съдържание, което е по-вероятно да остане незабелязано. Вече дори има специален плъгин, който прави текста на ChatGPT по-хуманен.

Как да повлияем на това?

Най-добре е сами да се научите да разпознавате генерираното съдържание.

С малко практика ще можете да забележите следните характеристики:

Повтарящи се думи и фрази , особено тези, насочени към възможни целеви ключови думи. Структурата на текста може да изглежда твърде еднообразна. Например, „Харесвам котки, защото котките са сладки. Котките имат мека козина и мъркат приятно. Не мога да си представя живота си без котки.”
Много общ тон, никаква или минимална креативност. Например „Добре дошли в нашия уебсайт. Ние предлагаме широка гама от продукти и услуги. Ние задоволяваме нуждите на нашите клиенти. Нашият екип работи усилено, за да осигури най-доброто качество и да задоволи нашите клиенти.”
Повърхностен текст без истинско прозрение или практически познания, базирани на реален житейски опит. Например, „Винаги трябва да поддържате положително отношение и никога да не се отказвате. Позитивността носи успех и щастие в живота. Това е добър навик.”
Фактически грешки и остаряла информация. Известно е, че генериращият AI халюцинира от време на време и измисля неща без никаква основа в реалността. Например, „Според скорошно проучване, проведено през 2002 г., Земята е плоска и слънцето се върти около нея.“
Логически несъответствия и грешки , които са просто неудобни за четене. Например „Джон вечеряше вечерта, когато пристигна сутрешната поща.“
Текстът като цяло създава усещане за безжизненост.

Generative AI продължава да се подобрява, както и програмите за проверка. Никой не знае кой в крайна сметка ще спечели състезанието. Може би най-добрият начин засега е да разчитате на собственото си внимание.