Подсказки для поиска

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках.

Этот пример отражает более широкую проблему: языковые технологии сосредоточены преимущественно на популярных языках с широким присутствием в Интернете и игнорируют языки с небольшим числом носителей и дефицитом оцифрованных текстов. Такой перекос мешает сохранению и возрождению исчезающих языков.

Ранее в моделях вроде LangID преобладал универсальный подход для всех языков; в результате технологические компании создавали централизованные системы, в которых не учитывались языки, не имеющие коммерческого потенциала. Для навахо и других языков коренных американцев существовал серьезный дефицит цифровых ресурсов и корпусов текстов, необходимых для обучения нейросетевых моделей.

Это создавало замкнутый круг: нет данных — нет моделей — нет возможности создавать инструменты — нет мотивации создавать больше цифрового контента.

Исследователи из Дартмутского колледжа (США) разработали метод решения этой проблемы, используя алгоритм-классификатор Random Forest (‘случайный лес’). Он позволяет получать адекватные результаты на небольших объемах данных. Модель Random Forest относительно проста и устойчива к эффекту переобучения (при котором модель хорошо обрабатывает примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении) благодаря агрегированию результатов множества деревьев решений.

Исследователи собрали два набора данных. Основной набор включал навахо и еще 20 языков, которые LangID ошибочно определял при анализе текстов на навахо. Дополнительный набор содержал тексты на родственных языках атабаскской семьи: западный апаче, мескалеро-апаче, хикарилья-апаче и липан-апаче.

Модель достигла впечатляющих результатов: общая точность 97–100% при распознавании навахо. Кроме того, она сумела увидеть родство атабаскских языков и собрать их в одну группу.

Авторы подчеркивают, что для решения задач идентификации языков не всегда нужны сверхсложные масштабные модели; такие задачи могут быть решены даже при ограниченных ресурсах. Вместо того чтобы ждать, когда крупные компании включат малые языки в свои модели, местные сообщества и исследователи могут создавать инструменты для конкретных языков, применяя относительно простые модели машинного обучения.

Портал «Грамота.ру»

Еще на эту тему

В России создали систему распознавания речи для диалекта карельского языка

В перспективе технология может помочь автоматизировать лингвистические исследования культур коренных народов РФ

Сотни представителей народов Севера и Дальнего Востока привлекут к исследованию их языков

Такое исследование входит в программу экспедиций «Чистая Арктика — Восток-77» и «Россия 360»

Для языков народов России создадут онлайн-переводчик

Устранять цифровое неравенство языков будет рабочая группа, созданная ФАДН

все публикации

Как словарные пометы помогают лучше узнать «характер» слова

Разговорное или просторечное? Книжное или высокое?

Чем сгенерированные тексты (пока еще) выдают себя

От шаблонной лексики до «любимых» синтаксических конструкций

«Они его отволохали»: русские приставки иногда важнее для семантики, чем корень слова

Максим Кронгауз — о приставках, обращениях, искусственном интеллекте и новоязе Оруэлла

Ольга Антонова: «Непринужденное общение перестало считаться фамильярным»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Игорь Исаев: «Диалекты продолжают жить вопреки мрачным прогнозам»

Если хочешь записать диалектную речь, главное — не наткнуться на дачника

Владимир Плунгян: «В русском языке произойдет радикальное обновление словаря»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Мне откликается шашлычинг: русские неологизмы в прошлом и настоящем

Вышел в свет шестой номер журнала «Русская речь» за 2025 год

Тире: функции и правила постановки в русском языке

Как определять уместность постановки тире, сочетать его с запятыми и не путать с двоеточием

Ирина Левонтина: «Каждый живет в своем пузыре и не знает, что происходит в других изводах языка»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Почувствуйте себя консультантом справочной службы Грамоты

Мы предлагаем вам ответить на вопросы, которые задавали пользователи в 2025 году

Максим Кронгауз: «Разграничить язык интернета и язык вне интернета стало невозможно»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Зачем нам нужен язык на самом деле?

Лингвист Валерий Шульгинов — о коммуникативной и символической функциях языка

Система TALK: как общаться легче и эффективнее

Вышел перевод на русский язык книги Элисон Вуд Брукс «Простой сложный разговор»

Почему князь Святослав пил «синее вино»?

Разгадка этой и других словесных тайн — в новой книге филолога Марии Елифёровой

Оскорбление как искусство, ритуал и путь к просветлению

Рискованные речевые акты могут приносить пользу, если они встроены в традиционную культуру

Нетудашка, сердцежмяк и другие новые слова в книге Бориса Иомдина

Русский язык постоянно пополняется не только заимствованиями 

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!