Подсказки для поиска

Исследование: внутренний язык больших языковых моделей ближе всего к английскому

Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют английский в качестве языка-посредника. Но это чревато искажениями — как в деталях, так и на уровне языковых концептов.

Исследователи из Федеральной политехнической школы Лозанны провели эксперимент. Языковая модель Llama-2 с открытым исходным кодом должна была решать разные задачи (например, перевести серию французских слов на китайский), а исследователи пытались разобраться, как именно она это делает. Авторы работы пришли к выводу, что в значительной части случаев в последовательности состояний, ведущей от французского «входа» к китайскому «выходу», возникало английское слово, хотя английский язык вообще не фигурировал в задаче. Это связано с тем, что внутреннее пространство модели, которое представляет собой область абстрактных семантических понятий (концептов), сформировано преимущественно на основе данных английского языка. Иными словами, как пишут исследователи, внутренним языком модели следует считать не английский язык, а язык понятий, у которых есть явный перекос в сторону английского, а «английский язык играет роль посредника не столько на лексическом уровне, сколько на семантическом». 

Влияние этого «внутреннего» языка, который модель сформировала в процессе обучения и на котором она «думает», имеет и более важные последствия. Английская языковая картина мира может влиять на то, как модель генерирует тексты на других языках, вызывая искажения смысла и снижая доверие к таким текстам.

Портал «Грамота.ру»

Еще на эту тему

Приличное поведение больших языковых моделей может быть обманчивым

Попытки перевоспитать «спящих агентов» только ухудшают ситуацию

Нейросети проиграли людям при поиске грамматических ошибок

Это открытие ставит под сомнение языковые компетенции моделей

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Способы выражения вежливости в русском и других языках

«Вежливыми» могут быть местоимения, глаголы и даже приставки и суффиксы

Катавасия, близорукость и блины для медведей: когда слова сбивают нас с толку

Народная этимология предлагает фантастические объяснения вместо научных фактов

В чем вопрос? Юбилейный тест для новичков и ветеранов Грамоты

Мы проанализировали ваши вопросы и запросы, чтобы понять, что вас волнует больше всего

Словарь аббревиатур русского языка как государственного определит нормы для разных типов сокращений

Главные трудности связаны с определением рода, склонением и произношением

Дислексия и дисграфия могут быть связаны не только с речевыми нарушениями, но и с недостатком самоконтроля

Ольга Величенкова о разных ошибках в письме, прогнозировании школьной неуспешности и умении сосредоточиться на главном

Плеоназмы со смыслом, неологизмы для мужчин и всякие штуки: вышел новый номер «Трудов ИРЯ РАН»

Кое-что о современной русской лексике в сборнике статей к 90-летию Леонида Крысина

Владимир Гиляровский, «король репортеров»

К 170-летию со дня рождения писателя и журналиста Музей Москвы показывает документы из найденного недавно архива 

Он или она? Как языки обходятся без указания на пол

Есть разные способы избежать уточнения или, наоборот, внести ясность

Могут ли нейросети написать «Войну и мир» и куда они заведут человечество

На форуме «Территория будущего. Москва 2030» рассказали о возможностях ИИ

Слова на карте: как лексика объединяет и разделяет страны

Лингвистические карты показывают родство языков и языковые контакты

Сергей Ожегов, борец за самобытность родного языка

К 125-летию со дня рождения лексикографа рассказываем о десяти фактах его биографии

Калеб Эверетт написал книгу о языковом многообразии

Научный редактор книги Валерий Шульгинов представляет ее читателям Грамоты

Как эвфемизмы в рекламе влияют на наше поведение

«Спецпредложение» звучит более заманчиво, чем «скидка»

А и Б сидели на трубе: семь детских книг о буквах и знаках

Иногда А, Я и даже точка могут стать главными героями поучительных историй

Опять запятые! Сложный пунктуационный тест

Десять цитат из русской классики, которые нужно написать без ошибок

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!