Подсказки для поиска

В НГУ создали систему распознавания сложных архивных текстов

Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета.

Магистрант факультета информационных технологий НГУ Степан Гудков под руководством профессора Владимира Барахнина создал программное обеспечение для автоматического распознавания книг решений волостных судов начала XX века. Эти толстые журналы, прошитые шнуром и скрепленные печатью, содержат записи о судебных разбирательствах среди крестьянского сословия России.

Эти документы — очень ценный материал по истории крестьянской жизни предреволюционной России. Они дают представление о повседневных заботах людей, их занятиях, характере, привычках. «Это фотографический портрет крестьянской России, которая потом ушла в течение XX века», — подчеркивает Алексей Кириллов, старший научный сотрудник Института истории СО РАН.

Обычные программы распознавания текста тут бессильны. Причин несколько, и все они связаны с особенностями языка того времени: дореволюционная орфография с ятями, ерами и фитами, которая отличается от современной; разнообразие почерков писарей в разных волостных книгах; многочисленные сокращения и диалектные особенности; низкая грамотность некоторых писарей, приводившая к нестандартным написаниям; сложная структура некоторых страниц, когда текст не следует разлиновке и заполняет страницу сплошным массивом.

Созданная в НГУ система работает поэтапно. Сначала алгоритмы машинного зрения разбивают изображение страницы на фрагменты и отдельные строки. Затем сверточные нейросети распознают символы и преобразуют их в текст. Но главная сложность начинается потом. Система должна научиться понимать контекст, сверять слова со словарями, предлагать варианты исправлений с учетом норм дореволюционного языка. Именно здесь необходимо участие специалистов-гуманитариев.

Планируется создать приложение, которое при встрече с незнакомыми словами будет подчеркивать их и предлагать наиболее вероятные варианты написания, а окончательное решение примет человек, знающий особенности языка эпохи.

Для понимания масштаба работы, которую новая разработка может оптимизировать, — по оценкам историков, в начале XX века волостные суды России выносили около миллиона решений в год. В архивах Сибири сохранилось несколько десятков тысяч таких документов, по всей стране — предположительно сотни тысяч.

По словам Алексея Кириллова, на подготовку двух книг с несколькими сотнями решений волостных судов ушло три года. Автоматизация способна ускорить процесс в несколько раз. В будущем планируется создать полноценную информационную систему с поисковыми интерфейсами, где каждый документ будет снабжен метаданными и доступен для контекстного поиска по селениям, персонам, категориям дел.

Разработка применима не только к судебным журналам, считают авторы. Ее можно адаптировать для распознавания любых рукописных архивных документов — писем, дневников, записей, созданных с середины XIX века до 1917 года, когда уже существовал современный русский язык, но действовала старая орфография.

Автоматизацией распознавания и обработки рукописей занимаются и другие коллективы. Владикавказский научный центр Российской академии наук (ВНЦ РАН) недавно сообщил, что начал сотрудничество с ведущими российскими ИТ-специалистами с целью расшифровки рукописей нартских сказаний с помощью искусственного интеллекта. А лаборатория цифровой лингвистики МИФИ работает над созданием машиночитаемой базы рукописей на церковнославянском языке.

Портал «Грамота.ру»

Еще на эту тему

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Специалисты успешно применили новый подход к языкам коренных народов Америки

О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»

Подлинную авторскую пунктуацию можно встретить только в рукописи

Отклонения от общепринятой пунктуации в печатных изданиях обычно не имеют отношения к воле автора

все публикации

Как используется слово «фидбэк» в современном русском языке

Вышел второй номер журнала «Русская речь» за 2026 год

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась

Про гимназическое прошлое многих слов мы даже не догадываемся

Как редполитика помогает Госуслугам оставаться понятными для всех

Интервью с Анастасией Баевой — ответственным редактором портала и ведущей канала «Редполитика Госуслуг»

10 слов, в которых нам наконец разрешили привычные варианты ударений

«Большой словарь ударений» признает влияние узуса на норму

Курс Владимира Плунгяна поможет разобраться в основах лингвистики

Уникальное свойство языка — делать мысль материальной

«Обязательная программа»: что общего есть у разных языков

Олег Беляев объясняет, как сравнение непохожих языков помогает понять логику их развития

Смешенье языков: можно ли скрестить русский с китайским?

Лингвист Валерий Шульгинов описывает свойства этого гибрида, опираясь на данные реальных пиджинов

Как русский язык помогает осваивать другие школьные предметы

Рассказывают учителя — финалисты четвертого сезона проекта «Классная тема!»

Что значит «залететь в реки»?

Лингвист Ирина Левонтина изучила новые употребления русского приставочного глагола

Зачем нужно сохранять исчезающие языки

Лингвист Ольга Казакевич — о ценности языкового разнообразия для человека и общества

Псевдо, квази, эрзац и другие: пять способов указать на неполное сходство

Чем отличаются разные виды «фейков» с лингвистической точки зрения

Русский язык не сводится к его литературной форме. Лекция Максима Кронгауза

Субстандарт: питательная среда или испытательный полигон?

Откуда берутся разные варианты произношения?

Вышла книга Марии Каленчук об орфоэпических словарях

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!