Подсказки для поиска

Российские исследователи предложили новую модель генерации ключевых слов к научным текстам

Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь.

Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом случае классификация может быть неполной. Например, для слов и словосочетаний нейросеть, большая языковая модель и машинное обучение можно подобрать обобщающий термин искусственный интеллект. Однако в тексте его может и не быть. Другими словами, важно, чтобы алгоритм не только находил ключевые слова в тексте, но и добавлял слова, семантически связанные с содержанием текста.

Исследователи из Института проблем передачи информации им. Харкевича РАН и их коллеги с кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили новый подход к генерации ключевых слов для русскоязычных научных текстов. Они использовали модель mT5, которая хорошо зарекомендовала себя в автоматическом реферировании русскоязычных текстов.

Что нейросети умеют делать с текстами и чем предстоит заняться человекуЭксперты обсудили, как мы будем взаимодействовать с ИИВ результате использования модели список ключевых слов, относящихся к теме анализируемых текстов, расширился. В выбранном корпусе доля ключевых слов, не встречающихся в текстах в явном виде, составила 53,17% для обучающей выборки и 54,8% — для тестовой.  

При этом у примененного подхода есть ограничения. Использование mT5 для генерации ключевых слов потребовало дообучения на текстах из определенной предметной области. При использовании ее для текстов других предметных областей результаты могут быть не такими точными. Ведь чем более специфична обучающая выборка, тем более точными будут результаты генерации.

Портал «Грамота.ру»

Еще на эту тему

Научный стиль: точность не в ущерб понятности

Им пользуются авторы учебников, исследователи, лекторы, научные журналисты

Искусственный интеллект научили создавать конспекты научных статей

Разработчики надеются, что это поможет повысить доступность информации

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

Что значит это региональное слово?

Не только «поребрик» и «мультифора» выдают малую родину говорящего

Высок как гора, застенчив как барышня: что фразеология сообщает о культурно-языковой картине мире

Лингвокультуролог Мария Ковшова о разных способах символизации реальности

Таджики, негры и евреи: что исследует лингвистическая конфликтология

Сотрудники НИУ ВШЭ рассказали коллегам об этом научном направлении и о результатах своих экспериментов

Как склонять по-русски составные топонимы

В зависимости от происхождения и структуры могут склоняться обе части названия, одна из частей или ни одной

Слова-паразиты: откуда они берутся и какую роль выполняют

Они приходят без разрешения и «питаются» смыслом высказывания

«Набросал стишата», или О стратегии авторской скромности

Мое творчество, мои произведения... Ирина Фуфаева объясняет, почему нас смущают эти выражения

Кринж или не кринж? Лингвистический взгляд на чувство неловкости в коммуникации

Валерий Шульгинов пытается понять, какие ситуации мы описываем этим словом и почему

В Ухане или в Ухани? Как выяснить тип склонения иностранного топонима

Первый шаг — определить, насколько это название привычное и есть ли похожие на него русские слова

Как редакционная политика повышает качество текстов

Что в ней должно быть и кто заинтересован в том, чтобы она работала

Слово «пожалуйста» может быть избыточным

Представляем некоторые публикации в третьем номере журнала «Русская речь» за 2025 год

Свое среди чужих: попробуйте отличить исконно русское слово от заимствований

Десять примеров того, что разница между «местными» и «чужаками» со временем перестает быть заметной

Стенография: как поймать слова на лету

От мраморных плит до современных программ

Чем опасны «бесы орфографии»?

Не надо искать в приставке нечистую силу и злой умысел

Язык всегда найдет способ заполнить лакуны

Лингвист Мария Ровинская дала интервью каналу «Мослекторий»

Александр Пушкин, главный инфлюенсер русского языка

Его влияние на то, как мы говорим и пишем, сохраняется спустя двести лет

В среднем человек ругается 250 тысяч раз за жизнь — как к этому относиться?

Константин Деревянко, Ярослав Скворцов и Владимир Легойда обсудили ненормативную лексику

Тест: знаете ли вы значение этих устаревших слов?

Увраж, палаш, ажитация и еще семь слов, которые мы больше не используем

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!