В Казахстане представили крупнейшую ИИ-модель для распознавания тюркских языков
Разработка стартапа Cybernet AI стала первым масштабным решением в области автоматического распознавания речи (ASR), созданным с нуля специально для тюркской языковой группы, а не адаптированным из англоязычных моделей.
Большинство систем, используемых в регионе, до недавнего времени базировались на архитектурах, изначально обученных на английском языке. Такие универсальные модели плохо справлялись с фонетикой, особенностями интонации и морфологической структурой тюркской языковой семьи.
С учетом этих трудностей модель Cybernet AI проектировалась с нуля и опиралась на живую артикуляцию и фонетическое разнообразие речи носителей тюркских языков. Это, по словам разработчиков, позволило сохранить точность распознавания даже при наличии шумов или региональных акцентов.
Одной из ключевых особенностей системы стала способность распознавать «смешанную» тюркско-русскую речь. В лингвистике этот феномен часто называют код-свитчингом (переключением кодов). В реальном общении жители Казахстана, Узбекистана и Киргизии часто используют лексемы из разных языков в рамках одной фразы.
Всего же модель способна распознавать шесть языков — казахский, турецкий, узбекский, кыргызский, азербайджанский и татарский языки. Проект реализован при поддержке технопарка Astana Hub и Министерства искусственного интеллекта и цифрового развития Казахстана.
Инструмент ориентирован прежде всего на сферы, где идет активная деловая коммуникация на разных языках: государственные сервисы, банковский сектор, связь, логистические и сервисные компании. Способность ИИ корректно интерпретировать запросы на родном языке (без необходимости переходить на «стерильный» литературный стандарт или английский) значительно упрощает доступ граждан к цифровым услугам.
Разработку планируют внедрить в государственные цифровые сервисы и корпоративные продукты.
Еще на
эту тему
Маргиналы цифрового мира: можно ли улучшить распознавание редких языков
Специалисты успешно применили новый подход к языкам коренных народов Америки
Как цифровизация помогает сохранить языки коренных народов России
Голосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой среды
Для языков народов России создадут онлайн-переводчик
Устранять цифровое неравенство языков будет рабочая группа, созданная ФАДН