В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

28 мая 2024

В коллаже использованы материалы фотобанка Unsplash

В современном мире, чтобы язык сохранялся и полноценно функционировал, он должен быть представлен в интернете и на нем должен регулярно создаваться новый контент. Участники сессии обсудили разные способы реализации государственной политики в сфере поддержки языков коренных народов России в киберпространстве. Грамота выделила самое интересное.

Александр Антонов, руководитель группы оценки качества переводов в «Яндексе», рассказал о внедрении в «Яндекс Переводчик» языков народов России. На первых этапах развития машинного перевода лингвисты и программисты ориентировались на двуязычные словари и базовые правила перевода, а по мере развития технологий стали использовать языковые модели, фразовые таблицы и перевод с помощью нейросетей. Перевод, сделанный нейросетью, гораздо больше похож на выполненный человеком.

Для внедрения в онлайн-переводчик нового языка нужны данные, прежде всего параллельные корпусы: чем больше корпус параллельных предложений, тем выше качество перевода. Для среднего корпуса нужно хотя бы 600–700 тыс. предложений. Для популярных языков вроде английского и французского есть миллионы предложений и фраз.

В «Яндекс Переводчике» сто языков, из них несколько — языки народов России (включая башкирский, татарский, удмуртский, чувашский и якутский).

Основное «топливо» для переводных пар с новыми языками составляют корпусы активистов. Еще одно важное усовершенствование — контрастное дообучение, когда носитель языка проверяет и исправляет переводы, чтобы потом показать программе, какой перевод хороший, а какой плохой.

Старший менеджер продукта в НКРЯ Ирина Виноградова отметила, что в Национальном корпусе представлены такие языки народов России, как башкирский, бурятский и хакасский (в работе чувашский и карельский). НКРЯ — это 49 корпусов, в том числе 28 параллельных. В НКРЯ представлены новые технологии разметки, пять видов поиска, полезные инструменты для исследователей и преподавателей.

Тексты, попадающие в корпус, проходят оцифровку, вычитку, токенизацию (разбивку на слова), нейроразметку морфологии и синтаксиса, морфологический анализ, разметку семантики и в самом конце объединение модели и индексацию. Одна из уникальных возможностей — поиск сразу на двух языках с параллельной выдачей.

Как цифровизация помогает сохранить языки коренных народов РоссииГолосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой средыАйгиз Кунафин, разработчик умной колонки на башкирском языке «Һомай»¹, поделился личной историей: старший сын хорошо говорит по-башкирски, а младшая дочь уже только понимает, но не говорит на нем, из-за чего разрывается цепочка передачи языка. Большая проблема — отсутствие в достаточном количестве контента на родном для детей этническом языке.

Так как умная колонка «Алиса» от «Яндекса» пока не поддерживает башкирский язык, Айгиз решил создать свое устройство со схожими функциональными возможностями. Башкирская колонка умеет отвечать на вопросы, поддерживать диалог, сказать, который час, дать прогноз погоды и поставить таймер.

В будущем колонка «Һомай» сможет выполнять функции домашнего репетитора, помогая ребенку найти решение самостоятельно, а не давая ему готовый ответ.

Айгиз Кунафин получил грант (6 млн рублей) от правительства Республики Башкортостан, который позволит развивать продукт. Отдельные команды в рамках общей платформы будут работать над созданием колонок на татарском, марийском, казахском и чувашском языках.

Заместитель руководителя сервиса «Яндекс Поиск по архивам» Андрей Михеев объяснил, как с помощью этого инструмента найти информацию о своих предках, если они жили на территории Российской империи. В архиве можно искать по фамилии, имени, отчеству и месту жительства, поиск выдаст оригинальный документ и расшифровку текста.

Нейросеть помогает работать с церковнославянскими рукописямиЭлектронные издания старых книг могут заменить архивыСамая большая проблема для разработчиков — распознавание рукописного текста. Нейросеть может распознать даже трудночитаемые печатные тексты (на это она натренирована), но не всегда рукописные — каждый почерк уникален, над этой задачей еще предстоит работать.

В архиве есть материалы не только на русском, но и на языках, которые использовали народы Российской империи: иврите, немецком, польском, латинском, есть данные из Центрального государственного архива Республики Дагестан. Такие тексты пока тоже распознаю́тся плохо, но не исключено, что в перспективе каждый житель России сможет узнать, кто были его предки вплоть до XVIII века.

Портал «Грамота.ру»

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

Еще на эту тему

Лучшего учителя родного языка и родной литературы выберут в Москве

Российская онлайн-энциклопедия «Рувики» пополнилась статьями на языках народов России

В Улан-Удэ запустили реалити-шоу по изучению бурятского языка

все публикации

«Говорим по-русски!»: три рассказа о церковнославянском языке

Александр Потебня: «Язык есть средство не выражать уже готовую мысль, а создавать ее»

Скажи мне, кто твой друг? Опознайте слово по его поведению

От копирайта до копилефта: как менялось авторское право на тексты

Модные слова добавляют ярких красок в палитру общения

И стали они как боты? Человеческая речь может измениться под влиянием сгенерированных текстов

Возможно ли дешифровать письменность острова Пасхи?

Славист Афанасий Селищев о речевых особенностях первых лет советской власти

«Это роли не играет»: какие устойчивые словосочетания мы используем в речи

Названия стран и народов: реальность меняется, а языковая норма остается?

В Метасловаре Грамоты есть возможность проверять ударения при подготовке к ЕГЭ по русскому языку

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

Семантические сдвиги: почему слова меняют смысл

Вышел в свет словарь «Традиционная пища Среднего Урала» под редакцией Елены Березович

Пять мифов о том, как устроены естественные языки

«Мне не зашло, а ему откликается»: сленговые конструкции для выражения эмоций

Должен ли извиняться этичный ИИ?

«Моя мама — копия ее мама»: что случилось с падежом

Как используется слово «фидбэк» в современном русском языке

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась