В Мурманском университете создали программу для анализа лексических изменений в русском языке
Ранее процесс выявления лексических изменений требовал от филологов значительных временных затрат и ручного анализа текстов. Новое цифровое решение (его создала доцент кафедры филологии и медиакоммуникаций Мурманского арктического университета, кандидат филологических наук Татьяна Рычкова) автоматизирует обработку данных — в результате специалисты могут быстрее реагировать на изменения в языке. Также это может ускорить сбор данных для обновления словарей.
В основу работы алгоритма заложен анализ больших массивов текстов (корпусов), который позволяет вычислять частотность использования тех или иных лексем в разные периоды. Система выявляет слова, которые только начинают входить в речевой обиход, а также фиксирует архаизмы, чье присутствие в современной речи становится минимальным.
Алгоритм лемматизирует (приводит к начальной форме) слова, подсчитывает все словоформы и сравнивает частоту употребления каждой леммы между выбранными периодами. Метод уже успешно опробован на диахронических (разновременных) корпусах Национального корпуса русского языка (НКРЯ) объемом более 250 млн слов.
Выяснилось, например, что слова вроде благоприятель, самодовольствие, вредительный, транссубъективный, ангельчик, трансформизм, малолётный существовали еще поколение назад, а в современных письменных текстах почти не встречаются. Также выяснилось, что в текстах увеличивается доля цифр.
Вопреки распространенному мнению, данные говорят о том, что новых слов в языке становится меньше, зато активный словарный запас (часто используемые в повседневной жизни слова) растет.
В перспективе новая разработка позволит строить более точные прогнозы языкового развития и даже учить искусственный интеллект анализировать и моделировать тенденции развития языка.
Еще на
эту тему
Чем речовка лучше речевки? Три переменчивых неологизма XX века
Раньше слова «речовка», «плащовка» и «мелочовка» писались по-другому
Как образуются новые слова: старые модели, новые потребности
Полуногав для турникмэна и улучшайзинг человейника
Устаревшие слова в лексике современного русского литературного языка
Николай Максимович Шанский о сложных процессах архаизации лексики