В метасловаре пользователь сначала видит общую картину, а потом может вникнуть в детали

4 октября 2023

Найти слово сразу в нескольких словарях, сравнить результаты, проверить свою версию написания, произношения или толкования — посетители Грамоты всегда охотно пользовались этой возможностью. Но в некоторых случаях детали не нужны, а требуется, наоборот, быстро получить самое общее представление о слове. Руководитель словарного направления Грамоты Анастасия Александровна Бонч-Осмоловская объясняет, каким образом в метасловаре объединены и структурированы данные о слове и какие преимущества новый формат дает пользователям.

Метасловарь как агрегатор

Задать вопрос справочной службе и поискать слово по словарям — это два главных повода зайти на Грамоту для большинства наших пользователей. До сих пор поиск по словарям на Грамоте по существу мало отличался от поиска в бумажных словарях. Конечно, листать десятки словарей, которые стоят на полке в библиотеке или в рабочем кабинете, очень долго и утомительно, к тому же потом из них нужно выписывать информацию руками. Когда словари загружены на портал в электронном виде, найти нужные сведения можно гораздо быстрее. Но все равно до сих пор результаты поиска выглядели как выписки из отдельных словарей, а про большинство словарей просто было сказано, что там слово не найдено.

Основная и очевидная функция, ради которой был создан метасловарь, — это функция агрегатора. Мы показываем в одном месте все разнообразные сведения о слове, которые у нас есть в данный момент: написание, ударение, грамматические формы, значения, происхождение и т. д. Только в отличие от новостных агрегаторов, которые собирают новости со всего интернета, мы собираем информацию о слове из всех имеющихся в нашей базе словарей. Соответственно, если мы пополняем нашу базу новыми размеченными словарями, в выдачу поиска сразу попадают новые данные. Если информация в разных словарях дублирует друг друга, мы убираем эти повторы.

Агрегатор — это когда все есть в одном месте, не надо искать, делать лишние клики, проверять, не упустили ли мы что-то важное. В итоге у пользователя есть возможность увидеть сразу большую картину, а уже потом решить, нужна ли ему более детальная информация или он узнал все, что хотел.

Карточная система

Другой мотив создания метасловаря — это понимание разницы между словарной информацией в бумажном виде и в электронном. Мы знаем, что пользователь по-разному воспринимает текст в книге и на экране. Настоящая цифровизация — это не просто взять бумажный словарь, отсканировать его и выложить в Сеть, это другой способ работы с данными.

Поэтому мы упаковали словарную информацию в универсальную структуру, которую мы показываем пользователю в виде карточки с разными зонами, где размещены разнообразные характеристики слова, от орфографического облика до синонимов и примеров. За звуковой облик слова отвечает бот, предоставленный нам Сбером: он озвучивает все слова. В отдельной зоне будут собраны сведения для продвинутых пользователей: о трудностях, которые может вызвать это слово, об особых правилах, которые к нему применимы, и ошибкоопасных контекстах.

Пример карточки метасловаря для слова «когорта»

Чтобы пользоваться метасловарем было удобно, мы отказались от сокращений, нам не жалко байтов. В бумажной книге расшифровка сокращений дается в специальном списке, в случае же с электронным форматом сокращения затрудняют чтение. В старых словарях слово, о котором идет речь, заменяли на его первую букву с точкой (например, вместо «ключ» будет «К.»), но так как слова в примерах могут быть в разных падежах, потребуется дополнительная работа для раскрытия таких сокращений.

Источники данных

В целом мы строим метасловарь, опираясь на нормативные словари. Основой словника стал «Русский орфографический словарь» под редакцией Лопатина. Пока что в метасловаре присутствуют только отдельные слова, словосочетания будут добавлены на следующем этапе. Далее мы берем информацию о единицах нашего словника из «Большого толкового словаря русского языка», «Словаря новых слов», «Большого словаря иностранных слов»… На подходе информация об этимологии из «Большого универсального словаря», позже также будут добавлены данные «Словаря синонимов» и «Словаря фразеологизмов».

Отдельную ценность метасловарю придаст включение информации из справочников, прежде всего из справочников самой Грамоты, которые устроены по словарному принципу, — там разобраны сложные случаи произношения или написания слов.

Существенное свойство метасловаря, как и любого электронного ресурса, заключается в том, что он никогда не может быть закончен. И плюс, и минус таких ресурсов том, что, в отличие от бумажных изданий, их не готовят и не выверяют годами и десятилетиями. Они создаются по принципам софта, а не книг. Есть придуманная нами общая схема, а дальше мы будем уточнять и дополнять наш метасловарь, он будет развиваться вширь и вглубь.

Что под капотом: семантическая разметка

В ходе подготовки метасловаря мы проделали невидимую глазу, но очень важную работу по машиночитаемой разметке. Каждый элемент, будь то грамматическая форма, толкование, стилистическая помета или пример, мы помечаем специальным машиночитаемым тегом, который позволяет категоризировать информацию. Например, тег может указывать язык-источник для заимствованных слов, может маркировать форму творительного падежа единственного числа и т. д. Это важный современный способ представления информации — TEI (Text Encoding Initiative, разработан в 1987 году) и его специальное подразделение TEI Lex-0. Внедрение этой технологии открывает совершенно новые возможности для поиска на Грамоте.

Семантическая разметка как бы переводит нас из двухмерного мира в трехмерный: помимо «плоского» текста словарных статей, у нас появляется дополнительное изменение, в котором располагаются теги.

Если мы хотим вынуть из текста отдельно слой примеров, слой связанных слов или слой значений, мы можем это легко сделать. Например, можно найти все русские междометия по тегу «часть речи», все заимствования из французского языка, все музыкальные термины, все словоформы конкретного слова или все однокоренные слова. Пока что эта функция доступна только лексикографам Грамоты, которые работают с метасловарем, но в дальнейшем можно будет часть такого рода возможностей открыть для пользователей. Тонкая настройка поиска будет полезна для сбора статистики и для составления разнообразных упражнений, что поможет преподавателям русского языка — особенно возможность поиска по словоформам.

Главные вызовы первого этапа

Полнота словника. Нам нужно сделать так, чтобы пользователю было удобно, и одновременно сохранить лингвистическую логику. Вспомним правило, известное как треугольник Хопкинса: невозможно сделать одновременно качественно, быстро и дешево, приходится чем-то одним пожертвовать. Применительно к нашей задаче мы отдали приоритет удобству и лингвистическому качеству, но пока жертвуем полнотой: метасловарь начал работать как прототип и постепенно пополняется.

Омонимы. Часто бывает довольно трудно провести четкое разграничение между отдельными словами и значениями одного слова. В разных словарях эта проблема решается по-разному. В сложных случаях мы отдаем предпочтение отдельным карточкам, так как слишком большое количество информации может запутать пользователя. Разумеется, мы не помещаем на одной карточке слова с разными ударениями: за́мок и замо́к, а́тлас и атла́с и т. п., тем более что у таких слов может отличаться парадигма. Когда пользователь пишет запрос, мы не знаем, какое ударение подразумевается, поэтому он должен увидеть в выдаче несколько результатов. Кроме того, важно различать слова, которые пишутся и произносятся одинаково, но относятся к разным частям речи: например, печь как существительное и как глагол, существительное про́пасть и глагол пропа́сть. Есть сложности с неизменяемыми словами, так как разные словари относят их к разным частям речи, похожая проблема касается различения причастий и прилагательных. Все эти моменты нужно учитывать при работе над метасловарем.

Автоматическая озвучка. Бот неплохо расставляет ударения, но есть места, где он не справляется. Например, мы по возможности перезаписывали случаи некорректного произношения согласного перед е в заимствованных словах: [тэмп], а не [т’емп], и т. п., ориентируясь на орфоэпический словарь. То же самое касается слов с двойными согласными, которые не произносятся: [абат], а не [аббат]. Здесь нам помог орфоэпический словарь, подготовленный коллегами из Института русского языка им. В. В. Виноградова, благодаря им мы сделали этот процесс полуавтоматическим. Такая работа, как мы надеемся, поможет обучать роботов и будет востребована нашими партнерами из Сбера.

Включение новых слов. Новые слова вроде краш или кринж очень быстро появляются на Грамоте, потому что пользователи начинают о них спрашивать. Но, к сожалению, прежде чем они попадут в толковый словарь, пройдет много времени, поэтому у них нет закрепленных словарных толкований. Иногда цикл такой длинный, что слово к моменту включения в словарь успевает выйти из употребления.

В перспективе мы хотим сотрудничать с лексикографами и специалистами по разговорной речи, чтобы понимать, какие слова закрепились в языке, разрабатывать для них толкования и оперативно обновлять нашу словарную базу.

Некоторые участки языковой системы меняются очень быстро, и тогда мы видим, что значения, зафиксированные в словарях XX века, уже успели устареть, а примеры воспринимаются современными пользователями как неполиткорректные. К примеру, в «Большом толковом словаре» для слова желтый указано в том числе значение ‘раса’, и подобных случаев не так мало. Если мы говорим о цифровом ресурсе, такие изменения нуждаются в корректировке или комментировании.

Контуры будущего

Новые инструменты работы со словарями не отменяют привычные пользователям сценарии. По-прежнему доступна возможность поиска по отдельным словарям, чтобы понять, как слово описано в конкретном издании, или по нескольким выбранным словарям.

Пример поиска по отдельному словарю, выбранному пользователем

Однако мы надеемся, что читатели Грамоты оценят наш подход к подаче словарной информации и будут в полной мере использовать новые возможности.

Какие перспективы есть у словарного направления, что мы планируем делать в ближайшем и более отдаленном будущем?

Расширять количество примеров и повышать их актуальность при поддержке НКРЯ.
Вырабатывать коллегиальные решения по спорным вопросам с помощью специалистов-лексикографов.
Сотрудничать с Национальным словарным фондом, уделять особое внимание нормативным словарям.
Создать рабочее место лексикографа, чтобы быстрее обновлять и пополнять нашу базу словарей; это позволит сократить временной разрыв между появлением нового слова в узусе и его фиксацией в словаре.
Работать над созданием собственных словарей Грамоты по востребованным тематикам с использованием технологий ИИ.
Использовать возможности метасловаря для лингвистического анализа данных и выявления тенденций в изменении состава лексики, в словообразовании, фразеологии и т. д.

Метасловарь — не просто красивая «упаковка» слова, но принципиально новый подход к хранению информации. Новые механизмы поиска позволяют давать более адекватные ответы на запросы пользователей, система карточек обеспечивает наглядность и удобство, а машиночитаемая разметка открывает широкие перспективы для сбора статистики и разработки упражнений на разнообразные правила и явления. Все эти свойства метасловаря будут полезны не только лингвистам и преподавателям, но и для всем, кто изучает русский язык и интересуется им.

Анастасия Бонч-Осмоловская

· руководитель словарного направления Грамоты, кандидат филологических наук, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН

Теги: грамота-2023 словари

В метасловаре пользователь сначала видит общую картину, а потом может вникнуть в детали

Метасловарь как агрегатор

Карточная система

Источники данных

Что под капотом: семантическая разметка

Главные вызовы первого этапа

Контуры будущего

Еще на эту тему

«Говорим по-русски!»: современная лексикография

В России появится знак качества для словарей

Какой толк от толковых словарей?

все публикации

«Говорим по-русски!»: три рассказа о церковнославянском языке

Александр Потебня: «Язык есть средство не выражать уже готовую мысль, а создавать ее»

Скажи мне, кто твой друг? Опознайте слово по его поведению

От копирайта до копилефта: как менялось авторское право на тексты

Модные слова добавляют ярких красок в палитру общения

И стали они как боты? Человеческая речь может измениться под влиянием сгенерированных текстов

Возможно ли дешифровать письменность острова Пасхи?

Славист Афанасий Селищев о речевых особенностях первых лет советской власти

«Это роли не играет»: какие устойчивые словосочетания мы используем в речи

Названия стран и народов: реальность меняется, а языковая норма остается?

В Метасловаре Грамоты есть возможность проверять ударения при подготовке к ЕГЭ по русскому языку

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

Семантические сдвиги: почему слова меняют смысл

Вышел в свет словарь «Традиционная пища Среднего Урала» под редакцией Елены Березович

Пять мифов о том, как устроены естественные языки

«Мне не зашло, а ему откликается»: сленговые конструкции для выражения эмоций

Должен ли извиняться этичный ИИ?

«Моя мама — копия ее мама»: что случилось с падежом

Как используется слово «фидбэк» в современном русском языке

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась