В НГУ создали систему распознавания сложных архивных текстов
Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета.
Магистрант факультета информационных технологий НГУ Степан Гудков под руководством профессора Владимира Барахнина создал программное обеспечение для автоматического распознавания книг решений волостных судов начала XX века. Эти толстые журналы, прошитые шнуром и скрепленные печатью, содержат записи о судебных разбирательствах среди крестьянского сословия России.
Эти документы — очень ценный материал по истории крестьянской жизни предреволюционной России. Они дают представление о повседневных заботах людей, их занятиях, характере, привычках. «Это фотографический портрет крестьянской России, которая потом ушла в течение XX века», — подчеркивает Алексей Кириллов, старший научный сотрудник Института истории СО РАН.
Обычные программы распознавания текста тут бессильны. Причин несколько, и все они связаны с особенностями языка того времени: дореволюционная орфография с ятями, ерами и фитами, которая отличается от современной; разнообразие почерков писарей в разных волостных книгах; многочисленные сокращения и диалектные особенности; низкая грамотность некоторых писарей, приводившая к нестандартным написаниям; сложная структура некоторых страниц, когда текст не следует разлиновке и заполняет страницу сплошным массивом.
Созданная в НГУ система работает поэтапно. Сначала алгоритмы машинного зрения разбивают изображение страницы на фрагменты и отдельные строки. Затем сверточные нейросети распознают символы и преобразуют их в текст. Но главная сложность начинается потом. Система должна научиться понимать контекст, сверять слова со словарями, предлагать варианты исправлений с учетом норм дореволюционного языка. Именно здесь необходимо участие специалистов-гуманитариев.
Планируется создать приложение, которое при встрече с незнакомыми словами будет подчеркивать их и предлагать наиболее вероятные варианты написания, а окончательное решение примет человек, знающий особенности языка эпохи.
Для понимания масштаба работы, которую новая разработка может оптимизировать, — по оценкам историков, в начале XX века волостные суды России выносили около миллиона решений в год. В архивах Сибири сохранилось несколько десятков тысяч таких документов, по всей стране — предположительно сотни тысяч.
По словам Алексея Кириллова, на подготовку двух книг с несколькими сотнями решений волостных судов ушло три года. Автоматизация способна ускорить процесс в несколько раз. В будущем планируется создать полноценную информационную систему с поисковыми интерфейсами, где каждый документ будет снабжен метаданными и доступен для контекстного поиска по селениям, персонам, категориям дел.
Разработка применима не только к судебным журналам, считают авторы. Ее можно адаптировать для распознавания любых рукописных архивных документов — писем, дневников, записей, созданных с середины XIX века до 1917 года, когда уже существовал современный русский язык, но действовала старая орфография.
Автоматизацией распознавания и обработки рукописей занимаются и другие коллективы. Владикавказский научный центр Российской академии наук (ВНЦ РАН) недавно сообщил, что начал сотрудничество с ведущими российскими ИТ-специалистами с целью расшифровки рукописей нартских сказаний с помощью искусственного интеллекта. А лаборатория цифровой лингвистики МИФИ работает над созданием машиночитаемой базы рукописей на церковнославянском языке.
Еще на
эту тему
Маргиналы цифрового мира: можно ли улучшить распознавание редких языков
Специалисты успешно применили новый подход к языкам коренных народов Америки
О чем мы можем узнать из средневековых рукописных текстов
Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»
Подлинную авторскую пунктуацию можно встретить только в рукописи
Отклонения от общепринятой пунктуации в печатных изданиях обычно не имеют отношения к воле автора