Изследователите са открили , че големите езикови модели са способни не само да пишат текстове, но и да намаляват размера на данните. Например, големият езиков модел Chinchilla 70B на DeepMind, обучен да работи с текст, също се справя с компресията на снимки и аудио – често по-добре от алгоритмите, предназначени за това.

Това показа експериментът.
  • Chinchilla 70B може да компресира изображения до 43,4% от оригиналния размер, докато PNG алгоритъмът може да компресира изображения до 58,5%.
  • Невронната мрежа също успя да намали аудиото до 16,4% от оригиналния размер, а предназначеният за това FLAC метод – до 30,3%.

Компресията без загуба предполага, че в процеса не се губят данни. Колкото по-малко е количеството компресирани данни в сравнение с оригинала, толкова по-компресиран е файлът.

Някои учени смятат, че компресирането на данни е форма на общ AI, тъй като процесът, под една или друга форма, включва идентифициране на модели и разбиране на сложността.

DeepMind казва, че това не е еднопосочна връзка и добър алгоритъм за компресиране може да се използва за създаване на нови данни. В експеримента обаче gzip, за разлика от Chinchilla, генерира безсмислени резултати.

Изследователската статия на DeepMind все още не е рецензирана, но предлага нови приложения за големи езикови модели. Връзката между компресията и интелигентността остава обект на дебат и изследване и може да бъде получена повече информация по тази тема.