Создан инструмент выбора текстов в помощь учителям малых языков России
К малоресурсным относятся те языки, которые имеют ограниченное количество данных, доступных для анализа и обработки. Это затрудняет обучение нейросетевых моделей работе с этими текстами. Для русского или английского языков давно существуют инструменты, которые автоматически оценивают сложность текстов. Но для малых языков их практически не было.
Психолингвисты НИУ ВШЭ разработали онлайн-инструмент, предназначенный для определения сложности малоресурсных языков. Оценка лингвистической сложности текстов очень важна не только для исследователей, но и для учителей — теперь они смогут легко подбирать учебные материалы по уровням, от простых к сложным.
Возьмем адыгейский язык. Он относится к числу полисинтетических: в нем одно слово может включать в себя то, что в русском выражается целым предложением, поэтому адыгейские слова в среднем гораздо длиннее русских или английских.
Если использовать стандартные коэффициенты, калькулятор будет считать абсолютно все адыгейские тексты «очень сложными» — и это исказит реальную оценку.
Команда Центра языка и мозга НИУ ВШЭ создала инструмент специально для работы с такими языками. Исследователи взяли за основу формулу удобочитаемости Флеша (он учитывает такие параметры, как длина, частотность слов, число «популярных» слов и т. д.) и адаптировали ее для каждого языка отдельно. Сейчас сервис позволяет работать с шестью малыми языками России — адыгейским, башкирским, бурятским, татарским, осетинским и удмуртским. Но, по словам создателей, его легко можно перенастраивать на другие малоресурсные языки.
Новая разработка пригодится и учителям (чтобы быстро отбирать тексты для разных классов), и авторам учебников (чтобы проверять, соответствует ли сложность текста заявленному уровню), и ученым-лингвистам (в экспериментах важно, чтобы тексты на разных языках были сопоставимы по сложности).
Сервис опирается на опыт лингвистов Антонины Лапошиной и Марии Лебедевой — авторов инструмента для оценки сложности русскоязычных текстов.
Еще на
эту тему
Как измерить сложность и сбалансированность языка в учебниках?
Об этом — статья Антонины Лапошиной и Марии Лебедевой в журнале «Русский язык в школе»
Как пришествие корпусов меняет лингвистику
Почему корпусная лингвистика не прижилась в 1960-х годах и почему переживает расцвет сейчас
Изучение русского языка: чем поможет Грамота
Руководитель образовательного направления Мария Лебедева делится идеями и планами