Как цифровизация помогает сохранить языки коренных народов России
21 февраля в мире отмечается Международный день родного языка. Его задача — напомнить о ценности всех тех языков, которые достались нам в наследство. Когда родной язык народа уходит из общественной жизни, ему грозит превращение в набор отдельных слов и обрывочных рассказов, интересующих лишь исследователей. Эта угроза существует и для языков некоторых коренных народов России. Но современные технологии дают таким языкам надежду.
Родные языки в опасности
Языки выходят из употребления по многим причинам. Но сохранять их важно — ведь язык хранит культуру своего народа: его опыт, знания, предания, особенности юмора, картину мира. Родной язык помогает носителям лучше понимать друг друга. Особенно это касается малых народов, которые живут традиционными занятиями, — для многих слов, которыми они привыкли пользоваться в быту, просто нет аналогов в других языках.
В 2022 году Генассамблея ООН объявила Международное десятилетие языков коренных народов (2022–2032). Обязательства по поддержке языков своих народов взяла на себя и Россия. По данным ЮНЕСКО на 2009 год, в нашей стране 136 языков находятся в опасности, 20 из них уже признаны мертвыми, 22 — в критическом состоянии, 29 — в серьезной опасности. Вряд ли ситуация за пятнадцать лет стала менее тревожной.
Опасность для языков исходит с двух сторон. Во-первых, они часто не востребованы у молодежи, которая предпочитает уезжать из родных мест в большие города.
Собственный язык проигрывает конкуренцию с государственным, а иногда и с иностранными. На родном языке общаются в основном в семье, но со временем знания стираются из памяти.
Во-вторых, не хватает ресурсов, которые бы поддерживали языковую среду, — пособий, сайтов, популярных медиаресурсов с новостями, образовательным и развлекательным контентом.
Это признают и эксперты, и сами носители. В 2022 году Федеральный институт родных языков народов РФ провел онлайн-анкетирование носителей и педагогов и выявил следующие причины, которые мешают распространению информационно-образовательной среды, которая бы поддерживала редкие языки России:
- низкая скорость интернета в сельской местности;
- отсутствие в школах технического оснащения;
- отсутствие ИКТ-компетенций учителей и педагогов;
- отсутствие электронных учебных пособий, ресурсов, платформ на языках коренных малочисленных народов Севера;
- нехватка учебных аудиовизуальных материалов;
- отсутствие электронных тестирующих комплектов, тренинговых компьютерных программ;
- отсутствие букв и символов родных языков коренных малочисленных народов Севера, Сибири и Дальнего Востока в раскладке клавиатур;
- проблема с поиском дидактических материалов для подготовки к урокам.
Сейчас в России действует масштабная программа цифровизации образования, в том числе — на языках коренных народов.
В этот процесс вовлечены не только государственные структуры, но и НКО, бизнес и местные энтузиасты. Работа идет в нескольких направлениях, которые в совокупности могут дать положительный эффект: это обучение детей и взрослых, размещение в интернете словарей, создание корпусов текстов и онлайн-переводчиков, умные колонки и цифровизация шрифтов. Грамота собрала некоторые примеры таких проектов.
Обучение
В 2018 году Ассоциация коренных малочисленных народов Чукотки выиграла президентский грант на создание пособий по чукотскому языку. Совместно с общественной организацией «Чычеткин вэтгав» (в переводе с чукотского — «Родное слово») команда создает видеоролики, которые включают практические занятия по языку. Руководит проектом знаток чукотского языка и культуры коренных жителей Чукотки Михаил Зеленский. Сейчас проект выпустил уже 13 видеоуроков. Они отправлены в школы и размещены на YouTube, где их может посмотреть каждый.
В 2020 году стартовал проект «Таежные сказки» (на данный момент вышло уже три сезона). Представители народов ханты и манси рассказывают сказки своих бабушек и дедушек, все произведения публикуются в формате видеороликов.
Записано уже больше ста сказок — как на русском, так и на разных диалектах хантыйского и мансийского языков. Это народные сказки о животных, бытовые сказки, а также легенды, сказания и потешки, произведения югорских писателей.
Есть и интерактивные форматы — например, в Мурманской области разработали приложение для мобильных телефонов «Самь килл», которое позволяет изучать кильдинский диалект языка коренного малочисленного народа Севера — саами. В приложении можно познакомиться с алфавитом и услышать правильное произношение слов, что особенно важно для поддержания разговорного языка. Есть разнообразные фразы и слова на кильдинском диалекте, которые используют оленеводы, кочующие по тундре. Всего в приложении более 800 звуковых файлов. Поскольку приложение было задумано для детей, оно само общается с пользователями. Например, в нем есть персонаж — девочка Марьяна, — который выступает в роли голосового помощника. Она озвучивает подсказки, объясняет, как пишутся и звучат различные слова, помогает составлять из них фразы.
В 2023 году в Якутии разработали мобильное приложение «Музыкальный веселый букварь» на юкагирском языке при поддержке Президентского фонда культурных инициатив. Юкагиры — это восточносибирский народ, аборигенное население Северо-Восточной Сибири. В России проживает 1597 представителей этого народа. Идея букваря появилась еще в 1991 году, но реализовать ее удалось только сейчас. В приложение вошли 40 стихотворений из букваря детского писателя Николая Курилова «Чэнчэ букварь» («Веселый букварь»), на них наложены мелодии Екатерины Тымкыл — носительницы языка и культуры тундренных юкагиров.
Онлайн-переводчики
Благодаря энтузиасту из Якутии Алексею Иванову и компании «Яндекс» весной 2020 года был запущен сервис «Яндекс.Переводчик» на якутском языке. Создать электронный переводчик гораздо сложнее, чем обычный словарь, отмечают эксперты. «Технология машинного перевода основана на параллельных корпусах текстов, то есть наборе одинаковых предложений, написанных на разных языках, — объясняет разработчик «Яндекс.Переводчика» Антон Дворкович. — С подбором пар для двух распространенных языков проблем не возникает — позаимствовать их можно из художественной литературы, научных статей, публицистики».
А вот у редких национальных языков часто нет готовых параллельных текстов, поэтому разработчикам приходится привлекать энтузиастов.
По словам Дворковича, в случаях с самыми редкими языками энтузиасты собирают больше половины всех текстов. Такие системы очень полезны для журналистов, редакторов и переводчиков. Носители языка могут использовать этот инструмент для работы с большими текстами — например, при переводе статей с русского на якутский язык с последующим редактированием. Кроме того, онлайн-ресурсы помогают людям, не владеющим языком (журналистам, писателям, ученым, даже друзьям и родственникам), общаться с носителями.
Есть и более масштабные проекты, которые пока находятся на стадии разработки. В начале 2020-х годов издательство и этноцентр «Кириллика», Центр арктических и сибирских исследований (ЦАСИ) Социологического института Российской академии наук и Совет общин КМНС при поддержке Международного Шуховского фонда разработали модель электронного словаря-глоссария для языков 19 коренных народов, на базе которого планируется создать и онлайн-переводчик.
В 2023 году руководитель Федерального агентства по делам национальностей (ФАДН) Игорь Баринов сообщил, что его ведомство приступило к созданию онлайн-переводчика для языков народов России. По его словам, на базе Дома народов России с этой целью сформирована рабочая группа, в которой представлены правительства различных регионов и научные учреждения.
Сейчас идет активная работа по созданию и обработке корпусов текстов — на них впоследствии можно обучить модели искусственного интеллекта, которые смогут не только переводить, но и генерировать тексты на языке.
Например, в феврале 2024 года в Якутии началась акция «Ийэ тылгын харыстаа» («Сохрани родной язык»), разработанная Национальной библиотекой РС (Я) совместно с Арктическим государственным институтом культуры и искусств. Волонтеры собирали голосовые записи на якутском языке у всех желающих — участникам требовалось прочитать тексты на якутском языке. Записи голосов сохраняются на специально разработанном сайте, на котором уже сформирована база из предложений на якутском языке. В дальнейшем они будут использоваться для обучения моделей. По мнению диалектолога Игоря Исаева, голосовые сообщения могут стать источником ценного материала для базы данных звучащего языка и будут способствовать сохранению малых языков.
А команда разработчиков SberDevices в 2022 году представила новейшую разработку — mGPT, способную генерировать тексты на 61 языке, в том числе башкирском, тувинском и чувашском. Сейчас модель выложена в открытом доступе на российской платформе ML. Ее могут использовать любые разработчики, в том числе и для создания собственных проектов.
Универсальные помощники
Следующий шаг в этом направлении — голосовые помощники, которые могут общаться с пользователем на языке на различные темы, давать советы, искать информацию в интернете.
Одна из первых таких разработок — AYANA, в переводе с эвенкийского «хорошая, добрая». Разработкой приложения для сохранения языка эвенков занимается потомок эвенкийского рода из Якутии Николай Апросимов. В феврале 2021 года появилась первая версия голосового переводчика. Он мог переводить речь, отвечать на простые вопросы, шутить, включать эвенкийские песни, рассказывать об эвенкийской кухне и национальной одежде. Способность приложения производить офлайн-перевод — одна из главных его особенностей. Ранее в мире не существовало подобного решения для перевода с эвенкийского языка в мобильном ПО, объясняет Апросимов.
Сейчас, по словам создателя проекта, переводчик используют учителя в кочевых родовых общинах и сельских школах в целях совершенствования качества образования в области национального языка и культуры эвенков. Планируется создание мобильного приложения с возможностью мгновенного перевода и его продвижение в онлайн-маркетах, а также создание на базе ИИ онлайн-переводчика с долганского языка, который также является языком одного из коренных малочисленных народов России.
В 2023 году в Башкортостане представили умную колонку, которая говорит на башкирском языке. Ее разработала группа программистов под руководством Айгиза Кунафина. В основе — чат-бот с искусственным интеллектом. 200 умных колонок уже переданы в школы и детские сады, устройства доступны и для предзаказа.
Колонка понимает башкирскую и русскую речь, может переводить с одного языка на другой, отвечать на вопросы, включать музыку и сказки, находить рецепты блюд башкирской кухни.
В том же году студенты Казанского университета заявили о создании аналогичного устройства для марийского языка. Однако пока проект остановился на стадии идеи: для разработки нужны технологии и вычислительные мощности, и разработчики планируют выйти на крупные технологические компании, чтобы получить помощь.
Цифровизация алфавита
Еще одна проблема — шрифты. У многих редких языков просто нет соответствующего «представительства» в системе «Юникод». По словам президента «Шуховского фонда» Леонида Штерна, в кодировку «Юникод» все еще не включены почти сорок символов, которые используются в языках народов России.
Пополнение базы символов необходимо для того, чтобы языки коренных народов можно было использовать в интернете, мобильных устройствах и онлайн-переводчиках. Пока же вместо необходимых символов при письме часто употребляют другие буквы, а это затрудняет понимание того, как произносятся те или иные слова.
В последние годы работу над созданием таких шрифтов вел этноцентр «Кириллика». К созданию общедоступных бесплатных шрифтов для языков КМНС подключились и ученые из Обско-угорского института научных исследований и разработок. Проект был анонсирован четыре года назад; предполагалось, что в 2021 году на сайте центра «Кириллика» начнет работать модуль доступа к бесплатным шрифтам на языках коренных малочисленных народов России. Однако до сих пор результаты работы неизвестны. В общем доступе базы шрифтов все еще нет.
В 2023 году вопрос о цифровизации шрифтов был поднят на более высоком уровне. Символы языков северных народов России планируется внести в кириллическую зону международного стандарта «Юникод», сообщила директор Дома народов России Анна Полежаева, выступая на Восточном экономическом форуме. Партнерами проекта, по ее словам, станут компании «Яндекс» и Google. Сейчас идет начальный этап работ, на котором должны появиться шрифты, отражающие символы языков.
Тем временем специалисты российской компании «Паратайп» выложили в общий доступ шрифты и раскладки на основе расширенной кириллицы для более чем 150 языков и диалектов, включая языки коренных малочисленных народов и национальных меньшинств России. Это позволяет поддерживать языки коренных народов и национальных меньшинств, даже если некоторые алфавитные символы не включены в формат «Юникод».
Среди доступных языков — долганский, ительменский, саамский кильдинский, корякский, мансийский, нанайский, нганасанский, эвенкийский, юкагирский и другие.
Возможно, часть языков не дождется «спасения» в цифре, — ведь каждый из них очень сложен, а для создания полноценных словарей и переводчиков нужны ресурсы. Необходимы записи живых носителей, оцифровка литературы, исследовательская работа. Но опыт существующих успешных проектов может стать примером для новых языковых активистов — и поощрит государство и крупные технологические компании поддерживать их.
Еще на
эту тему
Дети разговорчивых родителей лучше осваивают язык
Об этом говорят результаты нового масштабного исследования
В России появятся электронные учебники марийского языка
Цифровизация языков коренных народов — один из приоритетов языковой политики России
Заимствования из русского в языках народов России
Какие русские слова вошли в якутский, татарский, чеченский и коми-пермяцкий языки
Разные языки или разные диалекты?
Ответ больше зависит от истории и географии, чем от мнения лингвистов
В Чувашии запустили онлайн-курсы национального языка
Их сможет бесплатно пройти любой желающий