Подсказки для поиска

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках.

Этот пример отражает более широкую проблему: языковые технологии сосредоточены преимущественно на популярных языках с широким присутствием в Интернете и игнорируют языки с небольшим числом носителей и дефицитом оцифрованных текстов. Такой перекос мешает сохранению и возрождению исчезающих языков.

Ранее в моделях вроде LangID преобладал универсальный подход для всех языков; в результате технологические компании создавали централизованные системы, в которых не учитывались языки, не имеющие коммерческого потенциала. Для навахо и других языков коренных американцев существовал серьезный дефицит цифровых ресурсов и корпусов текстов, необходимых для обучения нейросетевых моделей.

Это создавало замкнутый круг: нет данных — нет моделей — нет возможности создавать инструменты — нет мотивации создавать больше цифрового контента.

Исследователи из Дартмутского колледжа (США) разработали метод решения этой проблемы, используя алгоритм-классификатор Random Forest (‘случайный лес’). Он позволяет получать адекватные результаты на небольших объемах данных. Модель Random Forest относительно проста и устойчива к эффекту переобучения (при котором модель хорошо обрабатывает примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении) благодаря агрегированию результатов множества деревьев решений.

Исследователи собрали два набора данных. Основной набор включал навахо и еще 20 языков, которые LangID ошибочно определял при анализе текстов на навахо. Дополнительный набор содержал тексты на родственных языках атабаскской семьи: западный апаче, мескалеро-апаче, хикарилья-апаче и липан-апаче.

Модель достигла впечатляющих результатов: общая точность 97–100% при распознавании навахо. Кроме того, она сумела увидеть родство атабаскских языков и собрать их в одну группу.

Авторы подчеркивают, что для решения задач идентификации языков не всегда нужны сверхсложные масштабные модели; такие задачи могут быть решены даже при ограниченных ресурсах. Вместо того чтобы ждать, когда крупные компании включат малые языки в свои модели, местные сообщества и исследователи могут создавать инструменты для конкретных языков, применяя относительно простые модели машинного обучения.

Портал «Грамота.ру»

Еще на эту тему

В России создали систему распознавания речи для диалекта карельского языка

В перспективе технология может помочь автоматизировать лингвистические исследования культур коренных народов РФ

Сотни представителей народов Севера и Дальнего Востока привлекут к исследованию их языков

Такое исследование входит в программу экспедиций «Чистая Арктика — Восток-77» и «Россия 360»

Для языков народов России создадут онлайн-переводчик

Устранять цифровое неравенство языков будет рабочая группа, созданная ФАДН

все публикации

Как редполитика помогает Госуслугам оставаться понятными для всех

Интервью с Анастасией Баевой — ответственным редактором портала и ведущей канала «Редполитика Госуслуг»

10 слов, в которых нам наконец разрешили привычные варианты ударений

«Большой словарь ударений» признает влияние узуса на норму

Курс Владимира Плунгяна поможет разобраться в основах лингвистики

Уникальное свойство языка — делать мысль материальной

«Обязательная программа»: что общего есть у разных языков

Олег Беляев объясняет, как сравнение непохожих языков помогает понять логику их развития

Смешенье языков: можно ли скрестить русский с китайским?

Лингвист Валерий Шульгинов описывает свойства этого гибрида, опираясь на данные реальных пиджинов

Как русский язык помогает осваивать другие школьные предметы

Рассказывают учителя — финалисты четвертого сезона проекта «Классная тема!»

Что значит «залететь в реки»?

Лингвист Ирина Левонтина изучила новые употребления русского приставочного глагола

Зачем нужно сохранять исчезающие языки

Лингвист Ольга Казакевич — о ценности языкового разнообразия для человека и общества

Псевдо, квази, эрзац и другие: пять способов указать на неполное сходство

Чем отличаются разные виды «фейков» с лингвистической точки зрения

Русский язык не сводится к его литературной форме. Лекция Максима Кронгауза

Субстандарт: питательная среда или испытательный полигон?

Откуда берутся разные варианты произношения?

Вышла книга Марии Каленчук об орфоэпических словарях

Одушевленное и неодушевленное в языке: как в этом разобраться

Почему мы встречаем важного клиента, но на компьютер устанавливаем клиент

Изоляты — языки без «родственников»

Как получилось, что им не нашлось места ни в одной языковой семье?

Берестяные грамоты находят даже в вечной мерзлоте

Алексей Гиппиус рассказал об итогах раскопок 2025 года

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!