В Турции создали цифровой сервис для работы с текстами на османском языке
В Турции запустили сервис на базе искусственного интеллекта, способный трансформировать практику изучения документов на османском турецком языке, который был государственным языком Османской империи вплоть до XX века. С его помощью исследователи могут читать документы, хранящиеся в библиотеках, в цифровом виде, а также осуществлять поиск по их содержанию.
Письменный язык на основе арабского алфавита, бытовавший в Османской империи, сегодня изучается в рамках истории, литературы и тюркологии. В 1928 году в рамках обширной языковой реформы Мустафы Кемаля Ататюрка была введена латиница. Новый инструмент позволяет транслитерировать на латиницу миллионы страниц текста с высокой точностью.
За разработкой программы стоит команда предпринимателей во главе с Абдуллой Тарыком Омероглу. Проект зародился в 2020 году, когда Омероглу, будучи студентом Босфорского университета, готовил книги для издательства. Вместе с другом-программистом он задумал создать инструмент, который облегчит доступ к этим текстам. Получив поддержку TÜBİTAK BİGG (программа индивидуальной поддержки молодых предпринимателей), они основали свою компанию в технопарке ITU.
После трех с половиной лет разработки команда успешно внеднила систему объединения документов из разных библиотек (в том числе тех, которые не дают прямой удаленный доступ к своим фондам). Она позволяет пользователям осуществлять поиск по семи миллионам страниц документов и получать транслитерированные версии необходимых текстов.
Омероглу и его команда планируют внедрить упрощенные турецкие версии текстов, добавить чат-боты и системы автоматического реферирования, чтобы сделать взаимодействие с архивами еще удобнее. Будущие обновления также помогут пользователям быстро получать ответы на вопросы о времени, авторе и ключевых идеях документов.
Основатели проекта отмечают, что исследователи могут получить доступ к программе за минимальную плату, что способствует доступности и широкому охвату новой системы.
Еще на
эту тему
Лингвистический пуризм: как в разных странах защищают государственный язык от внешнего влияния
Проблема заимствований обычно возникает по политическим причинам
Нейросеть помогает работать с церковнославянскими рукописями
Электронные издания старых книг могут заменить архивы
Исследователи расшифровали древнюю надпись с помощью искусственного интеллекта
Свиток с ней сильно обгорел в результате извержения Везувия почти 2000 лет назад