Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»
В коллаже использованы материалы фотобанка Unsplash

В современном мире, чтобы язык сохранялся и полноценно функционировал, он должен быть представлен в интернете и на нем должен регулярно создаваться новый контент. Участники сессии обсудили разные способы реализации государственной политики в сфере поддержки языков коренных народов России в киберпространстве. Грамота выделила самое интересное.

Александр Антонов, руководитель группы оценки качества переводов в «Яндексе», рассказал о внедрении в «Яндекс Переводчик» языков народов России. На первых этапах развития машинного перевода лингвисты и программисты ориентировались на двуязычные словари и базовые правила перевода, а по мере развития технологий стали использовать языковые модели, фразовые таблицы и перевод с помощью нейросетей. Перевод, сделанный нейросетью, гораздо больше похож на выполненный человеком. 

Для внедрения в онлайн-переводчик нового языка нужны данные, прежде всего параллельные корпусы: чем больше корпус параллельных предложений, тем выше качество перевода. Для среднего корпуса нужно хотя бы 600–700 тыс. предложений. Для популярных языков вроде английского и французского есть миллионы предложений и фраз. 

В «Яндекс Переводчике» сто языков, из них несколько — языки народов России (включая башкирский, татарский, удмуртский, чувашский и якутский).

Основное «топливо» для переводных пар с новыми языками составляют корпусы активистов. Еще одно важное усовершенствование — контрастное дообучение, когда носитель языка проверяет и исправляет переводы, чтобы потом показать программе, какой перевод хороший, а какой плохой. 

Старший менеджер продукта в НКРЯ Ирина Виноградова отметила, что в Национальном корпусе представлены такие языки народов России, как башкирский, бурятский и хакасский (в работе чувашский и карельский). НКРЯ — это 49 корпусов, в том числе 28 параллельных. В НКРЯ представлены новые технологии разметки, пять видов поиска, полезные инструменты для исследователей и преподавателей. 

Тексты, попадающие в корпус, проходят оцифровку, вычитку, токенизацию (разбивку на слова), нейроразметку морфологии и синтаксиса, морфологический анализ, разметку семантики и в самом конце объединение модели и индексацию. Одна из уникальных возможностей — поиск сразу на двух языках с параллельной выдачей. 

Как цифровизация помогает сохранить языки коренных народов РоссииГолосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой средыАйгиз Кунафин, разработчик умной колонки на башкирском языке «Һомай»1, поделился личной историей: старший сын хорошо говорит по-башкирски, а младшая дочь уже только понимает, но не говорит на нем, из-за чего разрывается цепочка передачи языка. Большая проблема — отсутствие в достаточном количестве контента на родном для детей этническом языке. 

Так как умная колонка «Алиса» от «Яндекса» пока не поддерживает башкирский язык, Айгиз решил создать свое устройство со схожими функциональными возможностями. Башкирская колонка умеет отвечать на вопросы, поддерживать диалог, сказать, который час, дать прогноз погоды и поставить таймер.

В будущем колонка «Һомай» сможет выполнять функции домашнего репетитора, помогая ребенку найти решение самостоятельно, а не давая ему готовый ответ. 

Айгиз Кунафин получил грант (6 млн рублей) от правительства Республики Башкортостан, который позволит развивать продукт. Отдельные команды в рамках общей платформы будут работать над созданием колонок на татарском, марийском, казахском и чувашском языках. 

Заместитель руководителя сервиса «Яндекс Поиск по архивам» Андрей Михеев объяснил, как с помощью этого инструмента найти информацию о своих предках, если они жили на территории Российской империи. В архиве можно искать по фамилии, имени, отчеству и месту жительства, поиск выдаст оригинальный документ и расшифровку текста. 

Нейросеть помогает работать с церковнославянскими рукописямиЭлектронные издания старых книг могут заменить архивыСамая большая проблема для разработчиков — распознавание рукописного текста. Нейросеть может распознать даже трудночитаемые печатные тексты (на это она натренирована), но не всегда рукописные — каждый почерк уникален, над этой задачей еще предстоит работать. 

В архиве есть материалы не только на русском, но и на языках, которые использовали народы Российской империи: иврите, немецком, польском, латинском, есть данные из Центрального государственного архива Республики Дагестан. Такие тексты пока тоже распознаю́тся плохо, но не исключено, что в перспективе каждый житель России сможет узнать, кто были его предки вплоть до XVIII века. 

Портал «Грамота.ру»

Еще на эту тему

Лучшего учителя родного языка и родной литературы выберут в Москве

Победители регионального этапа конкурса отправятся в сентябре в Казань

Российская онлайн-энциклопедия «Рувики» пополнилась статьями на языках народов России

Появились разделы на восьми языках и диалектах — в дополнение к уже поддерживаемым одиннадцати

В Улан-Удэ запустили реалити-шоу по изучению бурятского языка

Участникам предстоит за два месяца освоить основы разговорной речи

все публикации

Как подготовиться к Тотальному диктанту за 10 дней

Вспомнить всё и получить хорошую оценку (хотя это не главное)

Тест на внимательность: найдите предложение без ошибок

Сможете ли вы работать корректором в издательстве художественной литературы?

На что обратить внимание при подготовке к ЕГЭ по русскому языку в 2025 году? 

Методист и педагог Элина Стрейкмане объясняет, как избежать потери баллов

«Касаемо»: простонародное слово стали воспринимать как изысканное

Ольга Северская рассказывает об употреблениях одного нелитературного слова на канале «Говорим по-русски!»

Что удивляет иностранцев в русском языке

Для кого-то наши глаголы, падежи, буквы и звуки — китайская грамота

Переводчик Наталья Мавлевич: «Перевод — это гарантированное счастье в любых жизненных обстоятельствах»

Детство, учителя, любовь к профессии, совпадения и открытия — в монологе на «Арзамасе»

Вышла книга фонетиста Ольги Антоновой об истории и характерных чертах старомосковского произношения

Некоторые рефлексы старомосковского произношения сохраняются и в современной речи

«Лучшие корректоры — это люди с высоким интеллектом и умеренным самомнением»

Редактор-корректор легендарного еженедельника «Нью-Йоркер» Мэри Норрис, известная как «Королева запятых», — о своей профессии, языке и новых технологиях

«Денег нет, но вы держитесь»: устойчивые обороты со словом «деньги»

Мы прочитали для вас первый номер журнала «Русская речь» за 2025 год

Как это по-русски? Тест на понимание смысла иноязычных идиом

Что имеют в виду французы, называя человека «молочным супом»

«С уважением, редакция Грамоты»: нужна ли здесь запятая?

О знаках препинания в подписи размышляют авторы книги «О том, чего нет и что не так в словарях и грамматиках»

Презентация «Азбукваря» художника Родиона Китаева прошла в ГЭС-2

Там сейчас заканчивается книжная выставка «Не только буквы»

«Плакали наши денежки»: как русский язык решает финансовые вопросы

В русской языковой картине мира деньги могут заводиться, утекать, быть разумными и уподобляться маленьким животным

Русская страсть к составлению словарей: достижения прошлого и цифровое будущее

Лингвист Михаил Копотев рассказывает об основных этапах развития лексикографии в России

«Розенталь хотел, чтобы мы гибко подходили к языку»

Заведующий кафедрой стилистики русского языка факультета журналистики МГУ Владимир Славкин — о том, что отличало Дитмара Розенталя как автора, педагога и консультанта

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!