Подсказки для поиска
Назовите ваше слово года!
Кто станет кандидатом

Российские исследователи предложили новую модель генерации ключевых слов к научным текстам

Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь.

Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом случае классификация может быть неполной. Например, для слов и словосочетаний нейросеть, большая языковая модель и машинное обучение можно подобрать обобщающий термин искусственный интеллект. Однако в тексте его может и не быть. Другими словами, важно, чтобы алгоритм не только находил ключевые слова в тексте, но и добавлял слова, семантически связанные с содержанием текста.

Исследователи из Института проблем передачи информации им. Харкевича РАН и их коллеги с кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили новый подход к генерации ключевых слов для русскоязычных научных текстов. Они использовали модель mT5, которая хорошо зарекомендовала себя в автоматическом реферировании русскоязычных текстов.

Что нейросети умеют делать с текстами и чем предстоит заняться человекуЭксперты обсудили, как мы будем взаимодействовать с ИИВ результате использования модели список ключевых слов, относящихся к теме анализируемых текстов, расширился. В выбранном корпусе доля ключевых слов, не встречающихся в текстах в явном виде, составила 53,17% для обучающей выборки и 54,8% — для тестовой.  

При этом у примененного подхода есть ограничения. Использование mT5 для генерации ключевых слов потребовало дообучения на текстах из определенной предметной области. При использовании ее для текстов других предметных областей результаты могут быть не такими точными. Ведь чем более специфична обучающая выборка, тем более точными будут результаты генерации.

Портал «Грамота.ру»

Еще на эту тему

Научный стиль: точность не в ущерб понятности

Им пользуются авторы учебников, исследователи, лекторы, научные журналисты

Искусственный интеллект научили создавать конспекты научных статей

Разработчики надеются, что это поможет повысить доступность информации

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Как эвфемизмы в рекламе влияют на наше поведение

«Спецпредложение» звучит более заманчиво, чем «скидка»

А и Б сидели на трубе: семь детских книг о буквах и знаках

Иногда А, Я и даже точка могут стать главными героями поучительных историй

Опять запятые! Сложный пунктуационный тест

Десять цитат из русской классики, которые нужно написать без ошибок

Михаил Штудинер не спешит изгонять из языка то, что в нем еще живо

Автор «Словаря трудностей русского языка» — об объективном характере нормы и ее субъективной фиксации

Как менялись библиотеки?

История книжных коллекций от собраний табличек до храмов литературы в новой книге МИФа

Новое образование для «нового человека»: как учили грамоте в советской школе сто лет назад

31 августа исполняется сто лет декрету о всеобщем начальном обучении в РСФСР

Язык и пространство: что находится в центре мира?

Реки, горы и стороны света могут быть встроены в языковую систему координат, объясняет Валерий Шульгинов

Курсы лекций Ирины Кобозевой и Андрея Кибрика доступны на платформе Teach-in

Не нужно быть студентом, чтобы погрузиться в лексическую семантику и ареальную лингвистику

Как философы пытались создать идеальные языки

Продуманные, точные — но абсолютно непригодные для общения

Чем речовка лучше речевки? Три переменчивых неологизма XX века 

Раньше слова «речовка», «плащовка» и «мелочовка» писались по-другому

От пашни до веб-сайта: что верстает верстальщик?

В истории названия распространенной современной профессии разбиралась лингвист Ирина Фуфаева

В издательстве МИФ вышла книга о книгах

Как создавали, распространяли и запрещали книги

Андрей Кибрик о русскоязычных жителях Аляски и особенностях их диалекта

Сохранить аляскинский русский невозможно, но необходимо его документировать

Чем нас привлекает общение с языковыми моделями

Чат-бот может быть удобным собеседником, но для некоторых людей это удобство чревато проблемами

В научном сообществе исследование обсценных слов находится под запретом

Так считают авторы заметок о русском мате Анатолий Баранов и Дмитрий Добровольский

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше