Подсказки для поиска

В НГУ создали систему распознавания сложных архивных текстов

Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета.

Магистрант факультета информационных технологий НГУ Степан Гудков под руководством профессора Владимира Барахнина создал программное обеспечение для автоматического распознавания книг решений волостных судов начала XX века. Эти толстые журналы, прошитые шнуром и скрепленные печатью, содержат записи о судебных разбирательствах среди крестьянского сословия России.

Эти документы — очень ценный материал по истории крестьянской жизни предреволюционной России. Они дают представление о повседневных заботах людей, их занятиях, характере, привычках. «Это фотографический портрет крестьянской России, которая потом ушла в течение XX века», — подчеркивает Алексей Кириллов, старший научный сотрудник Института истории СО РАН.

Обычные программы распознавания текста тут бессильны. Причин несколько, и все они связаны с особенностями языка того времени: дореволюционная орфография с ятями, ерами и фитами, которая отличается от современной; разнообразие почерков писарей в разных волостных книгах; многочисленные сокращения и диалектные особенности; низкая грамотность некоторых писарей, приводившая к нестандартным написаниям; сложная структура некоторых страниц, когда текст не следует разлиновке и заполняет страницу сплошным массивом.

Созданная в НГУ система работает поэтапно. Сначала алгоритмы машинного зрения разбивают изображение страницы на фрагменты и отдельные строки. Затем сверточные нейросети распознают символы и преобразуют их в текст. Но главная сложность начинается потом. Система должна научиться понимать контекст, сверять слова со словарями, предлагать варианты исправлений с учетом норм дореволюционного языка. Именно здесь необходимо участие специалистов-гуманитариев.

Планируется создать приложение, которое при встрече с незнакомыми словами будет подчеркивать их и предлагать наиболее вероятные варианты написания, а окончательное решение примет человек, знающий особенности языка эпохи.

Для понимания масштаба работы, которую новая разработка может оптимизировать, — по оценкам историков, в начале XX века волостные суды России выносили около миллиона решений в год. В архивах Сибири сохранилось несколько десятков тысяч таких документов, по всей стране — предположительно сотни тысяч.

По словам Алексея Кириллова, на подготовку двух книг с несколькими сотнями решений волостных судов ушло три года. Автоматизация способна ускорить процесс в несколько раз. В будущем планируется создать полноценную информационную систему с поисковыми интерфейсами, где каждый документ будет снабжен метаданными и доступен для контекстного поиска по селениям, персонам, категориям дел.

Разработка применима не только к судебным журналам, считают авторы. Ее можно адаптировать для распознавания любых рукописных архивных документов — писем, дневников, записей, созданных с середины XIX века до 1917 года, когда уже существовал современный русский язык, но действовала старая орфография.

Автоматизацией распознавания и обработки рукописей занимаются и другие коллективы. Владикавказский научный центр Российской академии наук (ВНЦ РАН) недавно сообщил, что начал сотрудничество с ведущими российскими ИТ-специалистами с целью расшифровки рукописей нартских сказаний с помощью искусственного интеллекта. А лаборатория цифровой лингвистики МИФИ работает над созданием машиночитаемой базы рукописей на церковнославянском языке.

Портал «Грамота.ру»

Еще на эту тему

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Специалисты успешно применили новый подход к языкам коренных народов Америки

О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»

Подлинную авторскую пунктуацию можно встретить только в рукописи

Отклонения от общепринятой пунктуации в печатных изданиях обычно не имеют отношения к воле автора

все публикации

Возможно ли дешифровать письменность острова Пасхи?

Лингвист Евгения Коровина о тайне дощечек ронго-ронго

«Это роли не играет»: какие устойчивые словосочетания мы используем в речи

В программе «Наблюдатель» лингвисты рассказали о фразеологизмах из разных языков и культур 

Названия стран и народов: реальность меняется, а языковая норма остается?

Бирма стала Мьянмой, но нас больше волнуют Беларусь и Кыргызстан

В Метасловаре Грамоты есть возможность проверять ударения при подготовке к ЕГЭ по русскому языку

Все слова, вошедшие в орфоэпический словник, отмечены специальной плашкой

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

О речи школьников, понимании Пушкина и о том, как владение языком становится новой ценностью

Семантические сдвиги: почему слова меняют смысл

Новые значения возникают не только в соответствии с языковыми законами, но и в результате ошибок

Пять мифов о том, как устроены естественные языки

Владимир Плунгян отделяет распространенные заблуждения от данных лингвистической науки

Должен ли извиняться этичный ИИ?

Лингвист Валерий Шульгинов готов прощать ботов только на определенных условиях

«Моя мама — копия ее мама»: что случилось с падежом

Лингвист Ирина Левонтина о причудах не генетики, но грамматики

Как используется слово «фидбэк» в современном русском языке

Вышел второй номер журнала «Русская речь» за 2026 год

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась

Про гимназическое прошлое многих слов мы даже не догадываемся

Как редполитика помогает Госуслугам оставаться понятными для всех

Интервью с Анастасией Баевой — ответственным редактором портала и ведущей канала «Редполитика Госуслуг»

10 слов, в которых нам наконец разрешили привычные варианты ударений

«Большой словарь ударений» признает влияние узуса на норму

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!