Подсказки для поиска

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»
В коллаже использованы материалы фотобанка Unsplash

В современном мире, чтобы язык сохранялся и полноценно функционировал, он должен быть представлен в интернете и на нем должен регулярно создаваться новый контент. Участники сессии обсудили разные способы реализации государственной политики в сфере поддержки языков коренных народов России в киберпространстве. Грамота выделила самое интересное.

Александр Антонов, руководитель группы оценки качества переводов в «Яндексе», рассказал о внедрении в «Яндекс Переводчик» языков народов России. На первых этапах развития машинного перевода лингвисты и программисты ориентировались на двуязычные словари и базовые правила перевода, а по мере развития технологий стали использовать языковые модели, фразовые таблицы и перевод с помощью нейросетей. Перевод, сделанный нейросетью, гораздо больше похож на выполненный человеком. 

Для внедрения в онлайн-переводчик нового языка нужны данные, прежде всего параллельные корпусы: чем больше корпус параллельных предложений, тем выше качество перевода. Для среднего корпуса нужно хотя бы 600–700 тыс. предложений. Для популярных языков вроде английского и французского есть миллионы предложений и фраз. 

В «Яндекс Переводчике» сто языков, из них несколько — языки народов России (включая башкирский, татарский, удмуртский, чувашский и якутский).

Основное «топливо» для переводных пар с новыми языками составляют корпусы активистов. Еще одно важное усовершенствование — контрастное дообучение, когда носитель языка проверяет и исправляет переводы, чтобы потом показать программе, какой перевод хороший, а какой плохой. 

Старший менеджер продукта в НКРЯ Ирина Виноградова отметила, что в Национальном корпусе представлены такие языки народов России, как башкирский, бурятский и хакасский (в работе чувашский и карельский). НКРЯ — это 49 корпусов, в том числе 28 параллельных. В НКРЯ представлены новые технологии разметки, пять видов поиска, полезные инструменты для исследователей и преподавателей. 

Тексты, попадающие в корпус, проходят оцифровку, вычитку, токенизацию (разбивку на слова), нейроразметку морфологии и синтаксиса, морфологический анализ, разметку семантики и в самом конце объединение модели и индексацию. Одна из уникальных возможностей — поиск сразу на двух языках с параллельной выдачей. 

Как цифровизация помогает сохранить языки коренных народов РоссииГолосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой средыАйгиз Кунафин, разработчик умной колонки на башкирском языке «Һомай»1, поделился личной историей: старший сын хорошо говорит по-башкирски, а младшая дочь уже только понимает, но не говорит на нем, из-за чего разрывается цепочка передачи языка. Большая проблема — отсутствие в достаточном количестве контента на родном для детей этническом языке. 

Так как умная колонка «Алиса» от «Яндекса» пока не поддерживает башкирский язык, Айгиз решил создать свое устройство со схожими функциональными возможностями. Башкирская колонка умеет отвечать на вопросы, поддерживать диалог, сказать, который час, дать прогноз погоды и поставить таймер.

В будущем колонка «Һомай» сможет выполнять функции домашнего репетитора, помогая ребенку найти решение самостоятельно, а не давая ему готовый ответ. 

Айгиз Кунафин получил грант (6 млн рублей) от правительства Республики Башкортостан, который позволит развивать продукт. Отдельные команды в рамках общей платформы будут работать над созданием колонок на татарском, марийском, казахском и чувашском языках. 

Заместитель руководителя сервиса «Яндекс Поиск по архивам» Андрей Михеев объяснил, как с помощью этого инструмента найти информацию о своих предках, если они жили на территории Российской империи. В архиве можно искать по фамилии, имени, отчеству и месту жительства, поиск выдаст оригинальный документ и расшифровку текста. 

Нейросеть помогает работать с церковнославянскими рукописямиЭлектронные издания старых книг могут заменить архивыСамая большая проблема для разработчиков — распознавание рукописного текста. Нейросеть может распознать даже трудночитаемые печатные тексты (на это она натренирована), но не всегда рукописные — каждый почерк уникален, над этой задачей еще предстоит работать. 

В архиве есть материалы не только на русском, но и на языках, которые использовали народы Российской империи: иврите, немецком, польском, латинском, есть данные из Центрального государственного архива Республики Дагестан. Такие тексты пока тоже распознаю́тся плохо, но не исключено, что в перспективе каждый житель России сможет узнать, кто были его предки вплоть до XVIII века. 

Портал «Грамота.ру»

Еще на эту тему

Лучшего учителя родного языка и родной литературы выберут в Москве

Победители регионального этапа конкурса отправятся в сентябре в Казань

Российская онлайн-энциклопедия «Рувики» пополнилась статьями на языках народов России

Появились разделы на восьми языках и диалектах — в дополнение к уже поддерживаемым одиннадцати

В Улан-Удэ запустили реалити-шоу по изучению бурятского языка

Участникам предстоит за два месяца освоить основы разговорной речи

все публикации

От копирайта до копилефта: как менялось авторское право на тексты

Почему «Гамлет» при жизни Шекспира принадлежал театральной труппе и чем важен спор вокруг Микки Мауса

Модные слова добавляют ярких красок в палитру общения

Ими хочется щеголять, но лучше делать это аккуратно, считают гости программы «Наблюдатель»

Возможно ли дешифровать письменность острова Пасхи?

Лингвист Евгения Коровина о тайне дощечек ронго-ронго

«Это роли не играет»: какие устойчивые словосочетания мы используем в речи

В программе «Наблюдатель» лингвисты рассказали о фразеологизмах из разных языков и культур 

Названия стран и народов: реальность меняется, а языковая норма остается?

Бирма стала Мьянмой, но нас больше волнуют Беларусь и Кыргызстан

В Метасловаре Грамоты есть возможность проверять ударения при подготовке к ЕГЭ по русскому языку

Все слова, вошедшие в орфоэпический словник, отмечены специальной плашкой

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

О речи школьников, понимании Пушкина и о том, как владение языком становится новой ценностью

Семантические сдвиги: почему слова меняют смысл

Новые значения возникают не только в соответствии с языковыми законами, но и в результате ошибок

Пять мифов о том, как устроены естественные языки

Владимир Плунгян отделяет распространенные заблуждения от данных лингвистической науки

Должен ли извиняться этичный ИИ?

Лингвист Валерий Шульгинов готов прощать ботов только на определенных условиях

«Моя мама — копия ее мама»: что случилось с падежом

Лингвист Ирина Левонтина о причудах не генетики, но грамматики

Как используется слово «фидбэк» в современном русском языке

Вышел второй номер журнала «Русская речь» за 2026 год

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась

Про гимназическое прошлое многих слов мы даже не догадываемся

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!