Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»
В коллаже использованы материалы фотобанка Unsplash

В современном мире, чтобы язык сохранялся и полноценно функционировал, он должен быть представлен в интернете и на нем должен регулярно создаваться новый контент. Участники сессии обсудили разные способы реализации государственной политики в сфере поддержки языков коренных народов России в киберпространстве. Грамота выделила самое интересное.

Александр Антонов, руководитель группы оценки качества переводов в «Яндексе», рассказал о внедрении в «Яндекс Переводчик» языков народов России. На первых этапах развития машинного перевода лингвисты и программисты ориентировались на двуязычные словари и базовые правила перевода, а по мере развития технологий стали использовать языковые модели, фразовые таблицы и перевод с помощью нейросетей. Перевод, сделанный нейросетью, гораздо больше похож на выполненный человеком. 

Для внедрения в онлайн-переводчик нового языка нужны данные, прежде всего параллельные корпусы: чем больше корпус параллельных предложений, тем выше качество перевода. Для среднего корпуса нужно хотя бы 600–700 тыс. предложений. Для популярных языков вроде английского и французского есть миллионы предложений и фраз. 

В «Яндекс Переводчике» сто языков, из них несколько — языки народов России (включая башкирский, татарский, удмуртский, чувашский и якутский).

Основное «топливо» для переводных пар с новыми языками составляют корпусы активистов. Еще одно важное усовершенствование — контрастное дообучение, когда носитель языка проверяет и исправляет переводы, чтобы потом показать программе, какой перевод хороший, а какой плохой. 

Старший менеджер продукта в НКРЯ Ирина Виноградова отметила, что в Национальном корпусе представлены такие языки народов России, как башкирский, бурятский и хакасский (в работе чувашский и карельский). НКРЯ — это 49 корпусов, в том числе 28 параллельных. В НКРЯ представлены новые технологии разметки, пять видов поиска, полезные инструменты для исследователей и преподавателей. 

Тексты, попадающие в корпус, проходят оцифровку, вычитку, токенизацию (разбивку на слова), нейроразметку морфологии и синтаксиса, морфологический анализ, разметку семантики и в самом конце объединение модели и индексацию. Одна из уникальных возможностей — поиск сразу на двух языках с параллельной выдачей. 

Как цифровизация помогает сохранить языки коренных народов РоссииГолосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой средыАйгиз Кунафин, разработчик умной колонки на башкирском языке «Һомай»1, поделился личной историей: старший сын хорошо говорит по-башкирски, а младшая дочь уже только понимает, но не говорит на нем, из-за чего разрывается цепочка передачи языка. Большая проблема — отсутствие в достаточном количестве контента на родном для детей этническом языке. 

Так как умная колонка «Алиса» от «Яндекса» пока не поддерживает башкирский язык, Айгиз решил создать свое устройство со схожими функциональными возможностями. Башкирская колонка умеет отвечать на вопросы, поддерживать диалог, сказать, который час, дать прогноз погоды и поставить таймер.

В будущем колонка «Һомай» сможет выполнять функции домашнего репетитора, помогая ребенку найти решение самостоятельно, а не давая ему готовый ответ. 

Айгиз Кунафин получил грант (6 млн рублей) от правительства Республики Башкортостан, который позволит развивать продукт. Отдельные команды в рамках общей платформы будут работать над созданием колонок на татарском, марийском, казахском и чувашском языках. 

Заместитель руководителя сервиса «Яндекс Поиск по архивам» Андрей Михеев объяснил, как с помощью этого инструмента найти информацию о своих предках, если они жили на территории Российской империи. В архиве можно искать по фамилии, имени, отчеству и месту жительства, поиск выдаст оригинальный документ и расшифровку текста. 

Нейросеть помогает работать с церковнославянскими рукописямиЭлектронные издания старых книг могут заменить архивыСамая большая проблема для разработчиков — распознавание рукописного текста. Нейросеть может распознать даже трудночитаемые печатные тексты (на это она натренирована), но не всегда рукописные — каждый почерк уникален, над этой задачей еще предстоит работать. 

В архиве есть материалы не только на русском, но и на языках, которые использовали народы Российской империи: иврите, немецком, польском, латинском, есть данные из Центрального государственного архива Республики Дагестан. Такие тексты пока тоже распознаю́тся плохо, но не исключено, что в перспективе каждый житель России сможет узнать, кто были его предки вплоть до XVIII века. 

Портал «Грамота.ру»

Еще на эту тему

Лучшего учителя родного языка и родной литературы выберут в Москве

Победители регионального этапа конкурса отправятся в сентябре в Казань

Российская онлайн-энциклопедия «Рувики» пополнилась статьями на языках народов России

Появились разделы на восьми языках и диалектах — в дополнение к уже поддерживаемым одиннадцати

В Улан-Удэ запустили реалити-шоу по изучению бурятского языка

Участникам предстоит за два месяца освоить основы разговорной речи

все публикации

Что вы думаете о речи молодежи?

Старшее поколение недовольно, а специалисты видят основания для оптимизма



Безударные гласные в некоторых словах могут редуцироваться до нуля

Вышел четвертый выпуск журнала «Русская речь» за 2024 год


Как в русском языке возникали названия для новых профессий

Ирина Фуфаева — о трех случаях, когда родное слово оттеснило иностранного конкурента


Для чего нужен язык в первую очередь

Нейробиологи пришли к выводу, что мышление может существовать и без языка


На полях манускрипта Войнича обнаружили полный латинский алфавит

Мультиспектральный анализ загадочной рукописи помог сделать открытие



В открытом доступе выложен «Словарь языковой экономии»

Филолог Василий Химик собрал блестящую коллекцию универбов от авиационки до ядовитки


Чем отличаются правила речевого этикета в русских и английских письменных текстах

Мария Елифёрова о том, почему «представители семейства кошачьих» требуют от переводчика аккуратности


Фекла Толстая: «Мы можем создать не 3D, а 10D-картинку Толстого»

Как цифровая форма приближает к нам тексты, события и обстоятельства




Художественный стиль речи использует всю палитру языковых средств

Творец может свободно обращаться со словами, если этого требует его замысел


Как научиться говорить грамотно и выразительно во взрослом возрасте

Развитие речевой культуры предполагает ликвидацию пробелов в знаниях и опору на сильные стороны говорящего




Школа игры на рояле без струн

Переводчик Наталья Мавлевич о преодолении интертекстуального малокровия и культурной глухоты


Вышел третий выпуск журнала «Слово.ру: Балтийский акцент» за 2024 год

«Мама» вытесняет «мать» как способ указания на родственную связь, а «чувак» обрел вторую жизнь благодаря молодежи


Хайп, кринж и краш на всю страну: зачем медиа используют молодежный язык

Просвещение, эксперименты и кодовый язык для тех, кто «в теме»



1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!