Подсказки для поиска
Новогодняя игра: Грамота предсказывает будущее. Хочу погадать!
Хочу погадать!

В НГУ создали систему распознавания сложных архивных текстов

Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета.

Магистрант факультета информационных технологий НГУ Степан Гудков под руководством профессора Владимира Барахнина создал программное обеспечение для автоматического распознавания книг решений волостных судов начала XX века. Эти толстые журналы, прошитые шнуром и скрепленные печатью, содержат записи о судебных разбирательствах среди крестьянского сословия России.

Эти документы — очень ценный материал по истории крестьянской жизни предреволюционной России. Они дают представление о повседневных заботах людей, их занятиях, характере, привычках. «Это фотографический портрет крестьянской России, которая потом ушла в течение XX века», — подчеркивает Алексей Кириллов, старший научный сотрудник Института истории СО РАН.

Обычные программы распознавания текста тут бессильны. Причин несколько, и все они связаны с особенностями языка того времени: дореволюционная орфография с ятями, ерами и фитами, которая отличается от современной; разнообразие почерков писарей в разных волостных книгах; многочисленные сокращения и диалектные особенности; низкая грамотность некоторых писарей, приводившая к нестандартным написаниям; сложная структура некоторых страниц, когда текст не следует разлиновке и заполняет страницу сплошным массивом.

Созданная в НГУ система работает поэтапно. Сначала алгоритмы машинного зрения разбивают изображение страницы на фрагменты и отдельные строки. Затем сверточные нейросети распознают символы и преобразуют их в текст. Но главная сложность начинается потом. Система должна научиться понимать контекст, сверять слова со словарями, предлагать варианты исправлений с учетом норм дореволюционного языка. Именно здесь необходимо участие специалистов-гуманитариев.

Планируется создать приложение, которое при встрече с незнакомыми словами будет подчеркивать их и предлагать наиболее вероятные варианты написания, а окончательное решение примет человек, знающий особенности языка эпохи.

Для понимания масштаба работы, которую новая разработка может оптимизировать, — по оценкам историков, в начале XX века волостные суды России выносили около миллиона решений в год. В архивах Сибири сохранилось несколько десятков тысяч таких документов, по всей стране — предположительно сотни тысяч.

По словам Алексея Кириллова, на подготовку двух книг с несколькими сотнями решений волостных судов ушло три года. Автоматизация способна ускорить процесс в несколько раз. В будущем планируется создать полноценную информационную систему с поисковыми интерфейсами, где каждый документ будет снабжен метаданными и доступен для контекстного поиска по селениям, персонам, категориям дел.

Разработка применима не только к судебным журналам, считают авторы. Ее можно адаптировать для распознавания любых рукописных архивных документов — писем, дневников, записей, созданных с середины XIX века до 1917 года, когда уже существовал современный русский язык, но действовала старая орфография.

Автоматизацией распознавания и обработки рукописей занимаются и другие коллективы. Владикавказский научный центр Российской академии наук (ВНЦ РАН) недавно сообщил, что начал сотрудничество с ведущими российскими ИТ-специалистами с целью расшифровки рукописей нартских сказаний с помощью искусственного интеллекта. А лаборатория цифровой лингвистики МИФИ работает над созданием машиночитаемой базы рукописей на церковнославянском языке.

Портал «Грамота.ру»

Еще на эту тему

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Специалисты успешно применили новый подход к языкам коренных народов Америки

О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»

Подлинную авторскую пунктуацию можно встретить только в рукописи

Отклонения от общепринятой пунктуации в печатных изданиях обычно не имеют отношения к воле автора

все публикации

Леонид Крысин: «Это было изучение всех ипостасей русского языка»

Лингвист рассказал порталу Arzamas о своей жизни и о том, зачем заниматься наукой

Фекла Толстая: «Язык становится разнообразнее»

Как меняется русский язык? Наши друзья и партнеры рассказывают о главных трендах

«Вы» с прописной буквы — правило устарело?

За подчеркнутой вежливостью может скрываться пассивная агрессия

Слово как оружие: фэнтези о тайной библиотеке и волшебной печатной машинке

В издательстве «МИФ» вышел перевод книги Карстена Хенна «Золотая печатная машинка»

Проявленность: следующий шаг после «быть собой»

В языке поп-психологии у осознанности появилась пара

«Академос» — орфографический ресурс, а не словарь новых слов

Сотрудники Института русского языка имени В. В. Виноградова рассказали о задачах онлайн-ресурса

Сигма: независимый одиночка

Как песня в исполнении двух юных девушек прославила новый тип мужчины

Лингвист Игорь Мельчук вспоминает о жизни и науке середины XX века

Ведущие подкаста «Глагольная группа» анонсировали серию разговоров со знаменитым ученым

Слоп: низкокачественный ИИ-контент

Когда нейросети засоряют интернет-пространство бессмысленными «помоями»

Федор Успенский: «Меня раздражает, когда привычные вещи, на которых я вырос, начинают меняться»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Ред-флаг: предупреждение об опасности

Тревожные звоночки еще можно игнорировать, а от красных флагов лучше сразу бежать

Пупупу: новое междометие

Реакция на негатив, задумчивость и принятие неизбежного

Промпт: запрос к языковой модели

С новыми технологиями в нашем активном лексиконе появляются и новые слова

Топонимические легенды предлагают яркие истории вместо этимологии

Откуда куропатки на гербе Курска и кто стрелял из лука в Великих Луках?

Подсветить: смысловое выделение

Модный глагол позволяет расставлять нужные акценты и влиять на восприятие информации

Лимб: зависнуть в неопределенности

Слово с богословскими корнями стало обозначать подвешенное состояние

Русские отчества: как вас по батюшке?

Исторически Иванов и Иванович — одно и то же

Выгорание: остался только пепел

Как редкое слово с техническим смыслом стало популярным обозначением последствий стресса

Галина Кустова: «Есть участки, где грамматика развивается быстро и даже стремительно!»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Имба: крутизна, которой нет равных

Как жалоба на дисбаланс превратилась в похвалу

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!