В Югре создают цифровые корпуса хантыйского и мансийского языков
В ХМАО — Югре ведется работа по созданию цифровых корпусов хантыйского и мансийского языков. Об этом сообщает правительство региона по итогам рабочего совещания.
Цифровые корпуса представляют собой масштабные текстовые базы данных, предназначенные для изучения и анализа структуры, лексики и грамматики языков коренных народов округа.
В рамках государственной программы осуществляется параллельный перевод предложений с русского на мансийский язык, создание аудиозаписей речи, оцифровка периодических изданий и произведений мансийских авторов.
Сейчас разработан портал мансийского языка, где размещены система автоматического перевода и словарь. В конце 2024 года корпус мансийского языка, содержащий 146 тысяч пар предложений, был передан в Федеральное агентство по делам национальностей и компанию «Яндекс» для интеграции в цифровые сервисы.
Презентация готового корпуса мансийского языка запланирована на конец 2025 года и будет приурочена к 95-летию автономного округа.
Одновременно формируется корпус хантыйского языка — на данный момент собрано более 10 тысяч пар параллельных предложений.
Создание цифровых корпусов позволит расширить присутствие языков ханты и манси в цифровом пространстве и обеспечить их интеграцию в современные технологические решения, включая онлайн-переводчики. Это создает новые возможности для изучения, использования и сохранения языков коренных народов региона для будущих поколений.
Еще на
эту тему
В доменной зоне «.рф» появятся адреса на языках народов России
Доменные имена можно будет создавать с использованием букв татарского, башкирского, якутского и других алфавитов
Как пришествие корпусов меняет лингвистику
Почему корпусная лингвистика не прижилась в 1960-х годах и почему переживает расцвет сейчас
Как цифровизация помогает сохранить языки коренных народов России
Голосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой среды