Нейросеть выучилась понимать язык без использования текстовых данных

1 июля 2024

Большие языковые модели — нейросети, способные порождать тексты на естественном языке, — обычно обучаются на текстах. Ключевое отличие обучения таких программ от обучения людей заключается в том, что люди овладевают языком, не прибегая к использованию таких колоссальных объемов однородных данных. При этом программы еще и допускают нелепые (с нашей точки зрения) ошибки.

Один из альтернативных подходов — позволить машинам учиться так, как учатся дети. А именно используя разные типы данных, между которыми изначально есть очевидные связи (например, видеоряд и звуковая дорожка, которая относится к нему). В голове у детей естественным образом формируются связи, причем у слова возникает целый спектр ассоциаций.

По этому пути пошли исследователи из Массачусетского технологического института, Оксфордского университета и компаний Google и Microsoft. Они разработали модель, получившую название DenseAV. Ее обучили «понимать» на основании аудиоинформации, о чем идет речь, и искать соответствующие видеофрагменты — и наоборот, при просмотре беззвучного видео находить возможные звуковые соответствия.

При чем же тут язык? Например, когда мы слышим фразу Испеките торт при температуре 180 градусов, мы, скорее всего, видим на экране торт и духовку. Чтобы добиться успеха в этой игре на поиск соответствий между аудио и видео среди миллионов фрагментов, модель должна сформировать единое понятие, которое связывает спектр визуальных образов и спектр звуков.

Перед тестированием DenseAV обучили с использованием двух миллионов видеороликов с YouTube, а также других видео. Причем данные не были предварительно размечены — модель сама «догадывалась», как связать видео и звук в единый сюжет. Модель также не была предварительно обучена на каких-либо текстовых данных; она сама выделяла слова из массива аудиоданных.

Авторы работы могли наблюдать, какие детали видеоряда модель выделяет в ответ на предъявленные ей звуки. Например, при слове собака она выделяла изображения собак и связывала их с произносимым словом. Интересно, что модель «опознавала» собаку и в звуках собачьего лая, показывая, что ей под силу создавать ассоциации на основе признаков, которые отсылают к понятию.

По словам ведущего автора работы Марка Хэмилтона, на проведение опыта его команду вдохновил фильм «Марш пингвинов». В одной из сцен пингвин идет по льду и падает, после чего издает короткий прерывистый крик. «Почти очевидно, что этот крик означает слово из четырех букв на английском», — иронизирует Хэмилтон. Шутки шутками, однако подобные опыты могут открыть дорогу и к пониманию разных способов общения между животными.

Портал «Грамота.ру»

Нейросеть выучилась понимать язык без использования текстовых данных

Еще на эту тему

Искусственный интеллект помог создать фонетический «алфавит» кашалотов

Искусственный интеллект научился частично понимать птичий язык

Нейросеть научилась распознавать задуманные слова по активности мозга

все публикации

Как правильно произносится это слово? Отвечают орфоэпические словари

Лучшие программы-корректоры на основе ИИ

Горячая десятка заимствований: что тут сложного?

Язык тела: как жесты помогают нам общаться

Елочки или лапки? Как правильно использовать кавычки

Какие новые жанры научно-популярных текстов о языке появились в новейшее время?

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

Кто эффективнее в изучении языка — человек или нейросеть?

Не только люди: с кем еще мы разговариваем по душам?

Нейтральный язык эсперанто: благородная попытка объединить человечество

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Как пишутся сложные топонимы: правила и исключения

Попадает в самое сердечко... Почему теперь так говорят?

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

«Слова года» полгода спустя: кто продолжает забег

Под Пушкиным или под Пушкином? Как склонять города-фамилии

Как устроены языковые манипуляции

Что значит это региональное слово?