Мозг и ChatGPT задействуют похожие механизмы при понимании речи
Нейросети часто называют «черным ящиком»: их внутренние механизмы остаются загадкой даже для их создателей. Однако недавнее исследование, опубликованное в журнале Nature Communications, позволяет заглянуть в этот «ящик»: между большими языковыми моделями и человеческим мозгом обнаружилось поразительное сходство.
Выяснилось, что архитектура больших языковых моделей, таких как GPT или Llama, в определенном смысле повторяет работу нейробиологических процессов, происходящих в нашей голове, когда мы воспринимаем речь. Ученые выяснили, что иерархия слоев в нейросети напрямую соответствует временны́м этапам обработки языка в мозге: от распознавания звуков до понимания смыслов.
Исследователи провели эксперимент с участием девяти добровольцев, которым по медицинским показаниям в мозг были вживлены электроды. Это позволило записывать активность их мозга в реальном времени. Пока участники слушали получасовой аудиорассказ, ученые фиксировали их нейронные реакции с точностью до миллисекунд. Ту же аудиозапись пропустили через нейросети GPT-2 XL и Llama-2, извлекая данные из каждого их слоя — от самых первых, «поверхностных», до глубоких, отвечающих за сложный контекст и логические связи.
Современные нейросети состоят из десятков слоев (у GPT-2 XL их 48). На первом слое модель анализирует самые простые связи между словами. На десятом — начинает «понимать» грамматику.
На сороковом — улавливает тонкий контекст и сюжет. Авторы работы останавливали процесс на каждом из этих слоев и записывали, как именно этот слой «видит» конкретное слово в данный момент. Промежуточные результаты сохраняли для каждого слоя. Получилась своего рода покадровая съемка того, как ИИ постепенно осознает смысл услышанного.
Далее исследователи проверяли: похож ли «цифровой слепок» слова на десятом слое нейросети на то, что происходит в мозгу человека через 100 миллисекунд после того, как он услышал это слово? А сороковой слой — похож он на то, что происходит через 400 миллисекунд?
Результаты показали, что «конвейер» обработки языка в обеих системах работает схожим образом. Первые слои нейросети лучше всего предсказывают активность мозга в первые мгновения после того, как прозвучало слово, — в этот момент мозг занят первичным анализом сигналов. Чем глубже информация уходит в недра искусственной модели, тем точнее она описывает состояние мозга на более поздних этапах, когда мы начинаем осознавать грамматическую структуру и общий смысл фразы.
Наиболее четко эта параллель проявилась в зоне Брокá — ключевом лингвистическом центре человеческого мозга, который отвечает за построение предложений. Любопытно, что современные нейросети справляются с предсказанием работы мозга гораздо лучше, чем классические лингвистические теории, основанные на строгих правилах грамматики.
Возможно, современные технологии случайно или намеренно «нащупали» те же принципы обработки информации, которые эволюция оттачивала в человеческом мозге миллионы лет.
Еще на
эту тему
Понимают ли языковые модели игру слов?
Для эксперимента использовались заголовки российских изданий
Люди и ChatGPT одинаково «видят» структуру предложений
Нейросеть, вероятно, способна понимать синтаксис, а не только генерировать частотные сочетания слов
Нейросеть выучилась понимать язык без использования текстовых данных
Она смогла самостоятельно установить смысловую связь между звуками и образами, просматривая миллионы видеороликов