Подсказки для поиска

Люди и ChatGPT одинаково «видят» структуру предложений

Международная группа исследователей обнаружила, что большие языковые модели, такие как ChatGPT, обрабатывают предложения почти так же, как человеческий мозг, — разбивая их на иерархически упорядоченные блоки-составляющие, а не просто анализируя цепочку слов.

Классическая лингвистика со времен Ноама Хомского утверждает, что мозг превращает линейную последовательность слов в иерархическую структуру — дерево, где слова объединяются в группы (именные, глагольные, предложные...), те — в более крупные блоки, и так далее. Большие языковые модели не проектировались специально для построения таких деревьев, и до недавнего времени не было уверенности, что они способны использовать ту же языковую логику, что и человек.

В ходе эксперимента люди и нейросети выполняли необычное задание: им показывали пример удаления фрагмента из предложения, а затем просили применить такое же «правило» к новому предложению.

Оказалось, что и люди, и все протестированные модели (ChatGPT, GPT-4, Claude-3, Gemini-1, Llama-3) в подавляющем большинстве случаев удаляли именно полные лингвистические составляющие — например, целиком именную группу вроде большой красный дом, а не случайный набор слов. Частота таких «правильных» удалений была значительно выше случайного уровня (p<0,001).

Для контроля ученые использовали простую нейросеть LSTM, которая обрабатывает текст линейно и не обучалась на огромных массивах данных, — она справилась с задачей не лучше, чем если бы действовала наугад. Это означает, что наблюдаемое сходство в поведении людей и языковых моделей нельзя объяснить статистическими закономерностями, описывающими порядок слов.

Еще одно открытие: выбор стратегии зависел от языка. При работе с английским текстом и люди, и модели фокусировались на типе «родительского» узла в синтаксическом дереве, а с китайским — на типе той составляющей, которую они удаляли. Билингвы, для которых английский был вторым языком, переключались на «английское» правило при работе с английскими предложениями.

Авторы приходят к выводу о том, что нейросети, как и люди, не просто имеют представление о скрытой иерархической структуре предложения, но и применяют его на практике. Несмотря на принципиально разные механизмы работы и обучения, человеческий мозг и современные языковые модели анализируют и строят предложения схожим образом.

Предложенный метод, по мнению авторов, может стать новым диагностическим инструментом, позволяющим понять, действительно ли языковая модель усвоила абстрактные синтаксические представления или только запомнила статистические паттерны.

Портал «Грамота.ру»

Еще на эту тему

ChatGPT не справился с пониманием метафор в речах Трампа

Модель дала неверную интерпретацию слов в трети случаев

Кто эффективнее в изучении языка — человек или нейросеть?

«Язык опирается на врожденную систему знаний», — объясняет лингвист Наталия Слюсарь

Чем сгенерированные тексты отличаются от написанных человеком

Большие языковые модели «выдают себя» аномально частым использованием определенных языковых конструкций

все публикации

Система TALK: как общаться легче и эффективнее

Вышел перевод на русский язык книги Элисон Вуд Брукс «Простой сложный разговор»

Почему князь Святослав пил «синее вино»?

Разгадка этой и других словесных тайн — в новой книге филолога Марии Елифёровой

Оскорбление как искусство, ритуал и путь к просветлению

Рискованные речевые акты могут приносить пользу, если они встроены в традиционную культуру

Нетудашка, сердцежмяк и другие новые слова в книге Бориса Иомдина

Русский язык постоянно пополняется не только заимствованиями 

Как животные обрели свои имена: семь детективных историй о зоонимах

Водяная лошадь из Библии, загадочная страна Лемурия и слон, ставший верблюдом

Думать вредно? Чем наивная дурочка лучше продуманной твари

Лингвист Ирина Левонтина описала новое значение старого прилагательного

Способы выражения вежливости в русском и других языках

«Вежливыми» могут быть местоимения, глаголы и даже приставки и суффиксы

Катавасия, близорукость и блины для медведей: когда слова сбивают нас с толку

Народная этимология предлагает фантастические объяснения вместо научных фактов

В чем вопрос? Юбилейный тест для новичков и ветеранов Грамоты

Мы проанализировали ваши вопросы и запросы, чтобы понять, что вас волнует больше всего

Словарь аббревиатур русского языка как государственного определит нормы для разных типов сокращений

Главные трудности связаны с определением рода, склонением и произношением

Дислексия и дисграфия могут быть связаны не только с речевыми нарушениями, но и с недостатком самоконтроля

Ольга Величенкова о разных ошибках в письме, прогнозировании школьной неуспешности и умении сосредоточиться на главном

Плеоназмы со смыслом, неологизмы для мужчин и всякие штуки: вышел новый номер «Трудов ИРЯ РАН»

Кое-что о современной русской лексике в сборнике статей к 90-летию Леонида Крысина

Владимир Гиляровский, «король репортеров»

К 170-летию со дня рождения писателя и журналиста Музей Москвы показывает документы из найденного недавно архива 

Он или она? Как языки обходятся без указания на пол

Есть разные способы избежать уточнения или, наоборот, внести ясность

Могут ли нейросети написать «Войну и мир» и куда они заведут человечество

На форуме «Территория будущего. Москва 2030» рассказали о возможностях ИИ

Слова на карте: как лексика объединяет и разделяет страны

Лингвистические карты показывают родство языков и языковые контакты

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!