Подсказки для поиска

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках.

Этот пример отражает более широкую проблему: языковые технологии сосредоточены преимущественно на популярных языках с широким присутствием в Интернете и игнорируют языки с небольшим числом носителей и дефицитом оцифрованных текстов. Такой перекос мешает сохранению и возрождению исчезающих языков.

Ранее в моделях вроде LangID преобладал универсальный подход для всех языков; в результате технологические компании создавали централизованные системы, в которых не учитывались языки, не имеющие коммерческого потенциала. Для навахо и других языков коренных американцев существовал серьезный дефицит цифровых ресурсов и корпусов текстов, необходимых для обучения нейросетевых моделей.

Это создавало замкнутый круг: нет данных — нет моделей — нет возможности создавать инструменты — нет мотивации создавать больше цифрового контента.

Исследователи из Дартмутского колледжа (США) разработали метод решения этой проблемы, используя алгоритм-классификатор Random Forest (‘случайный лес’). Он позволяет получать адекватные результаты на небольших объемах данных. Модель Random Forest относительно проста и устойчива к эффекту переобучения (при котором модель хорошо обрабатывает примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении) благодаря агрегированию результатов множества деревьев решений.

Исследователи собрали два набора данных. Основной набор включал навахо и еще 20 языков, которые LangID ошибочно определял при анализе текстов на навахо. Дополнительный набор содержал тексты на родственных языках атабаскской семьи: западный апаче, мескалеро-апаче, хикарилья-апаче и липан-апаче.

Модель достигла впечатляющих результатов: общая точность 97–100% при распознавании навахо. Кроме того, она сумела увидеть родство атабаскских языков и собрать их в одну группу.

Авторы подчеркивают, что для решения задач идентификации языков не всегда нужны сверхсложные масштабные модели; такие задачи могут быть решены даже при ограниченных ресурсах. Вместо того чтобы ждать, когда крупные компании включат малые языки в свои модели, местные сообщества и исследователи могут создавать инструменты для конкретных языков, применяя относительно простые модели машинного обучения.

Портал «Грамота.ру»

Еще на эту тему

В России создали систему распознавания речи для диалекта карельского языка

В перспективе технология может помочь автоматизировать лингвистические исследования культур коренных народов РФ

Сотни представителей народов Севера и Дальнего Востока привлекут к исследованию их языков

Такое исследование входит в программу экспедиций «Чистая Арктика — Восток-77» и «Россия 360»

Для языков народов России создадут онлайн-переводчик

Устранять цифровое неравенство языков будет рабочая группа, созданная ФАДН

все публикации

Названия стран и народов: реальность меняется, а языковая норма остается?

Бирма стала Мьянмой, но нас больше волнуют Беларусь и Кыргызстан

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

О речи школьников, понимании Пушкина и о том, как владение языком становится новой ценностью

Семантические сдвиги: почему слова меняют смысл

Новые значения возникают не только в соответствии с языковыми законами, но и в результате ошибок

Пять мифов о том, как устроены естественные языки

Владимир Плунгян отделяет распространенные заблуждения от данных лингвистической науки

Должен ли извиняться этичный ИИ?

Лингвист Валерий Шульгинов готов прощать ботов только на определенных условиях

«Моя мама — копия ее мама»: что случилось с падежом

Лингвист Ирина Левонтина о причудах не генетики, но грамматики

Как используется слово «фидбэк» в современном русском языке

Вышел второй номер журнала «Русская речь» за 2026 год

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась

Про гимназическое прошлое многих слов мы даже не догадываемся

Как редполитика помогает Госуслугам оставаться понятными для всех

Интервью с Анастасией Баевой — ответственным редактором портала и ведущей канала «Редполитика Госуслуг»

10 слов, в которых нам наконец разрешили привычные варианты ударений

«Большой словарь ударений» признает влияние узуса на норму

Курс Владимира Плунгяна поможет разобраться в основах лингвистики

Уникальное свойство языка — делать мысль материальной

«Обязательная программа»: что общего есть у разных языков

Олег Беляев объясняет, как сравнение непохожих языков помогает понять логику их развития

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!