Подсказки для поиска

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках.

Этот пример отражает более широкую проблему: языковые технологии сосредоточены преимущественно на популярных языках с широким присутствием в Интернете и игнорируют языки с небольшим числом носителей и дефицитом оцифрованных текстов. Такой перекос мешает сохранению и возрождению исчезающих языков.

Ранее в моделях вроде LangID преобладал универсальный подход для всех языков; в результате технологические компании создавали централизованные системы, в которых не учитывались языки, не имеющие коммерческого потенциала. Для навахо и других языков коренных американцев существовал серьезный дефицит цифровых ресурсов и корпусов текстов, необходимых для обучения нейросетевых моделей.

Это создавало замкнутый круг: нет данных — нет моделей — нет возможности создавать инструменты — нет мотивации создавать больше цифрового контента.

Исследователи из Дартмутского колледжа (США) разработали метод решения этой проблемы, используя алгоритм-классификатор Random Forest (‘случайный лес’). Он позволяет получать адекватные результаты на небольших объемах данных. Модель Random Forest относительно проста и устойчива к эффекту переобучения (при котором модель хорошо обрабатывает примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении) благодаря агрегированию результатов множества деревьев решений.

Исследователи собрали два набора данных. Основной набор включал навахо и еще 20 языков, которые LangID ошибочно определял при анализе текстов на навахо. Дополнительный набор содержал тексты на родственных языках атабаскской семьи: западный апаче, мескалеро-апаче, хикарилья-апаче и липан-апаче.

Модель достигла впечатляющих результатов: общая точность 97–100% при распознавании навахо. Кроме того, она сумела увидеть родство атабаскских языков и собрать их в одну группу.

Авторы подчеркивают, что для решения задач идентификации языков не всегда нужны сверхсложные масштабные модели; такие задачи могут быть решены даже при ограниченных ресурсах. Вместо того чтобы ждать, когда крупные компании включат малые языки в свои модели, местные сообщества и исследователи могут создавать инструменты для конкретных языков, применяя относительно простые модели машинного обучения.

Портал «Грамота.ру»

Еще на эту тему

В России создали систему распознавания речи для диалекта карельского языка

В перспективе технология может помочь автоматизировать лингвистические исследования культур коренных народов РФ

Сотни представителей народов Севера и Дальнего Востока привлекут к исследованию их языков

Такое исследование входит в программу экспедиций «Чистая Арктика — Восток-77» и «Россия 360»

Для языков народов России создадут онлайн-переводчик

Устранять цифровое неравенство языков будет рабочая группа, созданная ФАДН

все публикации

Что значит «залететь в реки»?

Лингвист Ирина Левонтина изучила новые употребления русского приставочного глагола

Зачем нужно сохранять исчезающие языки

Лингвист Ольга Казакевич — о ценности языкового разнообразия для человека и общества

Псевдо, квази, эрзац и другие: пять способов указать на неполное сходство

Чем отличаются разные виды «фейков» с лингвистической точки зрения

Русский язык не сводится к его литературной форме. Лекция Максима Кронгауза

Субстандарт: питательная среда или испытательный полигон?

Откуда берутся разные варианты произношения?

Вышла книга Марии Каленчук об орфоэпических словарях

Одушевленное и неодушевленное в языке: как в этом разобраться

Почему мы встречаем важного клиента, но на компьютер устанавливаем клиент

Изоляты — языки без «родственников»

Как получилось, что им не нашлось места ни в одной языковой семье?

Берестяные грамоты находят даже в вечной мерзлоте

Алексей Гиппиус рассказал об итогах раскопок 2025 года

Лингвист Наталья Брагина о вежливости и конфликтной коммуникации в XXI веке

В выпуске программы «Говорим по-русски!» рассказали о том, как интонация и частицы могут сделать вежливое высказывание грубым

Местный для местных: секретный падеж русского языка

Почему мы говорим «о шкафе», но храним вещи «в шкафу»?

Еще раз про любовь

Лингвист Ирина Левонтина изучает оттенки современного языка для отношений

От торговцев до сидельцев: история тайного языка коробейников

Кем были офени, зачем они меняли слова и как стали «отцами» воровского арго

Бог: как правильно писать и произносить

Для орфографии имеет значение, о каком божестве мы говорим

Ирина Фуфаева об истории феминитивов и о том, чем они бывают полезны

Негативное восприятие специальных наименований для женских профессий связано с языком бюрократии

Почему нельзя сказать «напишомое»?

Самые неожиданные вопросы справочной службе

Авторский стиль и манера общения: что показывает анализ сгенерированных текстов

Вышел четвертый номер журнала «Коммуникативные исследования» за 2025 год

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!