Подсказки для поиска

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках.

Этот пример отражает более широкую проблему: языковые технологии сосредоточены преимущественно на популярных языках с широким присутствием в Интернете и игнорируют языки с небольшим числом носителей и дефицитом оцифрованных текстов. Такой перекос мешает сохранению и возрождению исчезающих языков.

Ранее в моделях вроде LangID преобладал универсальный подход для всех языков; в результате технологические компании создавали централизованные системы, в которых не учитывались языки, не имеющие коммерческого потенциала. Для навахо и других языков коренных американцев существовал серьезный дефицит цифровых ресурсов и корпусов текстов, необходимых для обучения нейросетевых моделей.

Это создавало замкнутый круг: нет данных — нет моделей — нет возможности создавать инструменты — нет мотивации создавать больше цифрового контента.

Исследователи из Дартмутского колледжа (США) разработали метод решения этой проблемы, используя алгоритм-классификатор Random Forest (‘случайный лес’). Он позволяет получать адекватные результаты на небольших объемах данных. Модель Random Forest относительно проста и устойчива к эффекту переобучения (при котором модель хорошо обрабатывает примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении) благодаря агрегированию результатов множества деревьев решений.

Исследователи собрали два набора данных. Основной набор включал навахо и еще 20 языков, которые LangID ошибочно определял при анализе текстов на навахо. Дополнительный набор содержал тексты на родственных языках атабаскской семьи: западный апаче, мескалеро-апаче, хикарилья-апаче и липан-апаче.

Модель достигла впечатляющих результатов: общая точность 97–100% при распознавании навахо. Кроме того, она сумела увидеть родство атабаскских языков и собрать их в одну группу.

Авторы подчеркивают, что для решения задач идентификации языков не всегда нужны сверхсложные масштабные модели; такие задачи могут быть решены даже при ограниченных ресурсах. Вместо того чтобы ждать, когда крупные компании включат малые языки в свои модели, местные сообщества и исследователи могут создавать инструменты для конкретных языков, применяя относительно простые модели машинного обучения.

Портал «Грамота.ру»

Еще на эту тему

В России создали систему распознавания речи для диалекта карельского языка

В перспективе технология может помочь автоматизировать лингвистические исследования культур коренных народов РФ

Сотни представителей народов Севера и Дальнего Востока привлекут к исследованию их языков

Такое исследование входит в программу экспедиций «Чистая Арктика — Восток-77» и «Россия 360»

Для языков народов России создадут онлайн-переводчик

Устранять цифровое неравенство языков будет рабочая группа, созданная ФАДН

все публикации

Почувствуйте себя консультантом справочной службы Грамоты

Мы предлагаем вам ответить на вопросы, которые задавали пользователи в 2025 году

Максим Кронгауз: «Разграничить язык интернета и язык вне интернета стало невозможно»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Зачем нам нужен язык на самом деле?

Лингвист Валерий Шульгинов — о коммуникативной и символической функциях языка

Система TALK: как общаться легче и эффективнее

Вышел перевод на русский язык книги Элисон Вуд Брукс «Простой сложный разговор»

Почему князь Святослав пил «синее вино»?

Разгадка этой и других словесных тайн — в новой книге филолога Марии Елифёровой

Оскорбление как искусство, ритуал и путь к просветлению

Рискованные речевые акты могут приносить пользу, если они встроены в традиционную культуру

Нетудашка, сердцежмяк и другие новые слова в книге Бориса Иомдина

Русский язык постоянно пополняется не только заимствованиями 

Как животные обрели свои имена: семь детективных историй о зоонимах

Водяная лошадь из Библии, загадочная страна Лемурия и слон, ставший верблюдом

Думать вредно? Чем наивная дурочка лучше продуманной твари

Лингвист Ирина Левонтина описала новое значение старого прилагательного

Способы выражения вежливости в русском и других языках

«Вежливыми» могут быть местоимения, глаголы и даже приставки и суффиксы

Катавасия, близорукость и блины для медведей: когда слова сбивают нас с толку

Народная этимология предлагает фантастические объяснения вместо научных фактов

В чем вопрос? Юбилейный тест для новичков и ветеранов Грамоты

Мы проанализировали ваши вопросы и запросы, чтобы понять, что вас волнует больше всего

Словарь аббревиатур русского языка как государственного определит нормы для разных типов сокращений

Главные трудности связаны с определением рода, склонением и произношением

Дислексия и дисграфия могут быть связаны не только с речевыми нарушениями, но и с недостатком самоконтроля

Ольга Величенкова о разных ошибках в письме, прогнозировании школьной неуспешности и умении сосредоточиться на главном

Плеоназмы со смыслом, неологизмы для мужчин и всякие штуки: вышел новый номер «Трудов ИРЯ РАН»

Кое-что о современной русской лексике в сборнике статей к 90-летию Леонида Крысина

Владимир Гиляровский, «король репортеров»

К 170-летию со дня рождения писателя и журналиста Музей Москвы показывает документы из найденного недавно архива 

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!