Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Нейросеть выучилась понимать язык без использования текстовых данных

Большие языковые модели — нейросети, способные порождать тексты на естественном языке, — обычно обучаются на текстах. Ключевое отличие обучения таких программ от обучения людей заключается в том, что люди овладевают языком, не прибегая к использованию таких колоссальных объемов однородных данных. При этом программы еще и допускают нелепые (с нашей точки зрения) ошибки.

Один из альтернативных подходов — позволить машинам учиться так, как учатся дети. А именно используя разные типы данных, между которыми изначально есть очевидные связи (например, видеоряд и звуковая дорожка, которая относится к нему). В голове у детей естественным образом формируются связи, причем у слова возникает целый спектр ассоциаций.

По этому пути пошли исследователи из Массачусетского технологического института, Оксфордского университета и компаний Google и Microsoft. Они разработали модель, получившую название DenseAV. Ее обучили «понимать» на основании аудиоинформации, о чем идет речь, и искать соответствующие видеофрагменты — и наоборот, при просмотре беззвучного видео находить возможные звуковые соответствия.

При чем же тут язык? Например, когда мы слышим фразу Испеките торт при температуре 180 градусов, мы, скорее всего, видим на экране торт и духовку. Чтобы добиться успеха в этой игре на поиск соответствий между аудио и видео среди миллионов фрагментов, модель должна сформировать единое понятие, которое связывает спектр визуальных образов и спектр звуков.

Перед тестированием DenseAV обучили с использованием двух миллионов видеороликов с YouTube, а также других видео. Причем данные не были предварительно размечены — модель сама «догадывалась», как связать видео и звук в единый сюжет. Модель также не была предварительно обучена на каких-либо текстовых данных; она сама выделяла слова из массива аудиоданных.

Авторы работы могли наблюдать, какие детали видеоряда модель выделяет в ответ на предъявленные ей звуки. Например, при слове собака она выделяла изображения собак и связывала их с произносимым словом. Интересно, что модель «опознавала» собаку и в звуках собачьего лая, показывая, что ей под силу создавать ассоциации на основе признаков, которые отсылают к понятию.

По словам ведущего автора работы Марка Хэмилтона, на проведение опыта его команду вдохновил фильм «Марш пингвинов». В одной из сцен пингвин идет по льду и падает, после чего издает короткий прерывистый крик. «Почти очевидно, что этот крик означает слово из четырех букв на английском», — иронизирует Хэмилтон. Шутки шутками, однако подобные опыты могут открыть дорогу и к пониманию разных способов общения между животными.

Портал «Грамота.ру»

Еще на эту тему

Искусственный интеллект помог создать фонетический «алфавит» кашалотов

Исследователи вычислили базовые звуки, из которых киты составляют большой репертуар фраз

Искусственный интеллект научился частично понимать птичий язык

Исследователи смогут объяснить фермерам, как улучшить условия выращивания домашних кур

Нейросеть научилась распознавать задуманные слова по активности мозга

Это может помочь пациентам с речевыми расстройствами

все публикации

Влияние государственных решений на судьбу родных языков

Эксперты обсуждают принятую Концепцию языковой политики и ждут результатов ее реализации




Ошибочные употребления предлогов могут стать частью нормы

Предлоги-захватчики приобретают новые значения, вытесняют другие способы выражения синтаксических связей и вообще много себе позволяют


Вышло новое издание научно-популярной книги Стивена Пинкера «Язык как инстинкт»

Ее можно использовать как пособие по курсу «Введение в языкознание»



Константин Деревянко: «Необходима национальная стратегия развития речевой культуры»

Руководитель Грамоты о том, как владение языком влияет на учебу, карьеру и состояние общества


Откуда берутся и какую функцию выполняют бранные слова

Ругательства — нормальная часть языка, хотя не все они относятся к литературной норме


Вышел обновленный учебник для вузов «Введение в науку о языке»

В первый том вошли разделы «Теория языка» и «Язык и познание»


Что такое векторные модели и как можно их использовать

Компьютерный лингвист Борис Орехов умеет превращать значение слова в последовательность чисел


Сколько падежей в русском языке на самом деле

Сторонники идеи «чем больше, тем лучше» ищут и находят скрытые падежи


Как современные технологии помогают оценить сложность текста

Инструменты компьютерной лингвистики лучше всего работают с учебными материалами


В языке все уже изучено или ученым есть чем заняться?

В телепередаче «Наблюдатель» члены Российской академии наук обсуждали самое интересное в науке о языке


Новый толковый словарь — источник точной и интересной информации для школьника

Авторы рассказывают, как устроен словарь и как его можно использовать на уроках и дома


Как разное понимание языковой нормы приводит к коммуникативным неудачам

Выступление научного консультанта Грамоты Владимира Пахомова на конференции «Медиатекст: векторы развития и перспективы изучения» 


Наш человек! Как появились и что значат названия народов — этнонимы

От имен легендарных прародителей до прозвищ, данных соседями


Шепот на ухо и бесконечный пазл: две истории о переводе с турецкого

Тюрколог Аполлинария Аврутина переводила не только Орхана Памука, но и суфийскую поэзию XIII века


Вышел в свет второй выпуск журнала «Русская речь» за 2024 год

В нем анализируют такие языковые единицы, как «босяки», «верги» и «зеленые береты»


Как отличить текст, написанный нейросетью? Ряд критериев предложен на «Хабре»

ИИ не способен к оригинальному мышлению и творческому осмыслению информации


Мягенький заинька у плохонькой березоньки: по каким правилам пишутся уменьшительно-ласкательные суффиксы?

Каждый месяц мы выбираем и комментируем три вопроса, на которые ответила наша справочная служба