Подсказки для поиска

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»

В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России»
В коллаже использованы материалы фотобанка Unsplash

В современном мире, чтобы язык сохранялся и полноценно функционировал, он должен быть представлен в интернете и на нем должен регулярно создаваться новый контент. Участники сессии обсудили разные способы реализации государственной политики в сфере поддержки языков коренных народов России в киберпространстве. Грамота выделила самое интересное.

Александр Антонов, руководитель группы оценки качества переводов в «Яндексе», рассказал о внедрении в «Яндекс Переводчик» языков народов России. На первых этапах развития машинного перевода лингвисты и программисты ориентировались на двуязычные словари и базовые правила перевода, а по мере развития технологий стали использовать языковые модели, фразовые таблицы и перевод с помощью нейросетей. Перевод, сделанный нейросетью, гораздо больше похож на выполненный человеком. 

Для внедрения в онлайн-переводчик нового языка нужны данные, прежде всего параллельные корпусы: чем больше корпус параллельных предложений, тем выше качество перевода. Для среднего корпуса нужно хотя бы 600–700 тыс. предложений. Для популярных языков вроде английского и французского есть миллионы предложений и фраз. 

В «Яндекс Переводчике» сто языков, из них несколько — языки народов России (включая башкирский, татарский, удмуртский, чувашский и якутский).

Основное «топливо» для переводных пар с новыми языками составляют корпусы активистов. Еще одно важное усовершенствование — контрастное дообучение, когда носитель языка проверяет и исправляет переводы, чтобы потом показать программе, какой перевод хороший, а какой плохой. 

Старший менеджер продукта в НКРЯ Ирина Виноградова отметила, что в Национальном корпусе представлены такие языки народов России, как башкирский, бурятский и хакасский (в работе чувашский и карельский). НКРЯ — это 49 корпусов, в том числе 28 параллельных. В НКРЯ представлены новые технологии разметки, пять видов поиска, полезные инструменты для исследователей и преподавателей. 

Тексты, попадающие в корпус, проходят оцифровку, вычитку, токенизацию (разбивку на слова), нейроразметку морфологии и синтаксиса, морфологический анализ, разметку семантики и в самом конце объединение модели и индексацию. Одна из уникальных возможностей — поиск сразу на двух языках с параллельной выдачей. 

Как цифровизация помогает сохранить языки коренных народов РоссииГолосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой средыАйгиз Кунафин, разработчик умной колонки на башкирском языке «Һомай»1, поделился личной историей: старший сын хорошо говорит по-башкирски, а младшая дочь уже только понимает, но не говорит на нем, из-за чего разрывается цепочка передачи языка. Большая проблема — отсутствие в достаточном количестве контента на родном для детей этническом языке. 

Так как умная колонка «Алиса» от «Яндекса» пока не поддерживает башкирский язык, Айгиз решил создать свое устройство со схожими функциональными возможностями. Башкирская колонка умеет отвечать на вопросы, поддерживать диалог, сказать, который час, дать прогноз погоды и поставить таймер.

В будущем колонка «Һомай» сможет выполнять функции домашнего репетитора, помогая ребенку найти решение самостоятельно, а не давая ему готовый ответ. 

Айгиз Кунафин получил грант (6 млн рублей) от правительства Республики Башкортостан, который позволит развивать продукт. Отдельные команды в рамках общей платформы будут работать над созданием колонок на татарском, марийском, казахском и чувашском языках. 

Заместитель руководителя сервиса «Яндекс Поиск по архивам» Андрей Михеев объяснил, как с помощью этого инструмента найти информацию о своих предках, если они жили на территории Российской империи. В архиве можно искать по фамилии, имени, отчеству и месту жительства, поиск выдаст оригинальный документ и расшифровку текста. 

Нейросеть помогает работать с церковнославянскими рукописямиЭлектронные издания старых книг могут заменить архивыСамая большая проблема для разработчиков — распознавание рукописного текста. Нейросеть может распознать даже трудночитаемые печатные тексты (на это она натренирована), но не всегда рукописные — каждый почерк уникален, над этой задачей еще предстоит работать. 

В архиве есть материалы не только на русском, но и на языках, которые использовали народы Российской империи: иврите, немецком, польском, латинском, есть данные из Центрального государственного архива Республики Дагестан. Такие тексты пока тоже распознаю́тся плохо, но не исключено, что в перспективе каждый житель России сможет узнать, кто были его предки вплоть до XVIII века. 

Портал «Грамота.ру»

Еще на эту тему

Лучшего учителя родного языка и родной литературы выберут в Москве

Победители регионального этапа конкурса отправятся в сентябре в Казань

Российская онлайн-энциклопедия «Рувики» пополнилась статьями на языках народов России

Появились разделы на восьми языках и диалектах — в дополнение к уже поддерживаемым одиннадцати

В Улан-Удэ запустили реалити-шоу по изучению бурятского языка

Участникам предстоит за два месяца освоить основы разговорной речи

все публикации

Лучшие программы-корректоры на основе ИИ

Роботы уже могут исправить большинство ошибок, но сами добавляют новые

Горячая десятка заимствований: что тут сложного?

Пользователи Грамоты часто ищут информацию об этих заимствованиях, которые еще не освоились в русском языке

Язык тела: как жесты помогают нам общаться

Они дополняют, уточняют и даже заменяют слова

Елочки или лапки? Как правильно использовать кавычки

Они нужны для оформления прямой речи, цитат, названий, а также слов, использованных иронически

Мария Каленчук: «Да, мы ориентируемся на живую речь!»

В издательстве «Грамота» вышел Большой словарь ударений

Кто эффективнее в изучении языка — человек или нейросеть?

«Язык опирается на врожденную систему знаний», — объясняет лингвист Наталия Слюсарь

Не только люди: с кем еще мы разговариваем по душам?

Лингвист Валерий Шульгинов напоминает, что до появления чат-ботов люди охотно общались со стихиями, куклами и техникой

Нейтральный язык эсперанто: благородная попытка объединить человечество

Был ли шанс у этого проекта, на который доктор Заменгоф потратил многие годы?

Что было написано на яблоке раздора? Тест на знание истории крылатых слов

Часто мы используем устойчивые выражения, точный смысл которых от нас ускользает

Как пишутся сложные топонимы: правила и исключения

Ново-Огарево отличается от Новосибирска, как Соль-Илецк от Сольвычегодска

Попадает в самое сердечко... Почему теперь так говорят?

Лингвист Ирина Фуфаева ищет причины экспансии этого диминутива в современной речи

Лингвист Борис Орехов: «Корпус русской классики дает доступ в языковую лабораторию авторов»

В Национальном корпусе русского языка теперь можно изучать и сравнивать языки писателей XIX века

Всё о чувствах и отношениях: почему язык психологии стал так популярен

Лингвисты, социологи и психологи обсуждают вред и пользу психотерапевтической волны в русском языке

Запретные слова: что думают лингвисты о нецензурной лексике как части русского языка

В издательстве МИФ вышла научно-популярная книга двух докторов филологических наук

«Слова года» полгода спустя: кто продолжает забег

Насколько точным был прошлогодний выбор Грамоты и как чувствуют себя «наши» неологизмы сегодня

Как устроены языковые манипуляции

Эти приемы используют публицисты, политики, телефонные мошенники и даже родственники

Что значит это региональное слово?

Не только «поребрик» и «мультифора» выдают малую родину говорящего

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!