Подсказки для поиска

Российские исследователи предложили новую модель генерации ключевых слов к научным текстам

Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь.

Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом случае классификация может быть неполной. Например, для слов и словосочетаний нейросеть, большая языковая модель и машинное обучение можно подобрать обобщающий термин искусственный интеллект. Однако в тексте его может и не быть. Другими словами, важно, чтобы алгоритм не только находил ключевые слова в тексте, но и добавлял слова, семантически связанные с содержанием текста.

Исследователи из Института проблем передачи информации им. Харкевича РАН и их коллеги с кафедры программного обеспечения Школы компьютерных наук ТюмГУ предложили новый подход к генерации ключевых слов для русскоязычных научных текстов. Они использовали модель mT5, которая хорошо зарекомендовала себя в автоматическом реферировании русскоязычных текстов.

Что нейросети умеют делать с текстами и чем предстоит заняться человекуЭксперты обсудили, как мы будем взаимодействовать с ИИВ результате использования модели список ключевых слов, относящихся к теме анализируемых текстов, расширился. В выбранном корпусе доля ключевых слов, не встречающихся в текстах в явном виде, составила 53,17% для обучающей выборки и 54,8% — для тестовой.  

При этом у примененного подхода есть ограничения. Использование mT5 для генерации ключевых слов потребовало дообучения на текстах из определенной предметной области. При использовании ее для текстов других предметных областей результаты могут быть не такими точными. Ведь чем более специфична обучающая выборка, тем более точными будут результаты генерации.

Портал «Грамота.ру»

Еще на эту тему

Научный стиль: точность не в ущерб понятности

Им пользуются авторы учебников, исследователи, лекторы, научные журналисты

Искусственный интеллект научили создавать конспекты научных статей

Разработчики надеются, что это поможет повысить доступность информации

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

все публикации

«Вы» с прописной буквы — правило устарело?

За подчеркнутой вежливостью может скрываться пассивная агрессия

Слово как оружие: фэнтези о тайной библиотеке и волшебной печатной машинке

В издательстве «МИФ» вышел перевод книги Карстена Хенна «Золотая печатная машинка»

Проявленность: следующий шаг после «быть собой»

В языке поп-психологии у осознанности появилась пара

«Академос» — орфографический ресурс, а не словарь новых слов

Сотрудники Института русского языка имени В. В. Виноградова рассказали о задачах онлайн-ресурса

Сигма: независимый одиночка

Как песня в исполнении двух юных девушек прославила новый тип мужчины

Лингвист Игорь Мельчук вспоминает о жизни и науке середины XX века

Ведущие подкаста «Глагольная группа» анонсировали серию разговоров со знаменитым ученым

Слоп: низкокачественный ИИ-контент

Когда нейросети засоряют интернет-пространство бессмысленными «помоями»

Федор Успенский: «Меня раздражает, когда привычные вещи, на которых я вырос, начинают меняться»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Ред-флаг: предупреждение об опасности

Тревожные звоночки еще можно игнорировать, а от красных флагов лучше сразу бежать

Пупупу: новое междометие

Реакция на негатив, задумчивость и принятие неизбежного

Промпт: запрос к языковой модели

С новыми технологиями в нашем активном лексиконе появляются и новые слова

Топонимические легенды предлагают яркие истории вместо этимологии

Откуда куропатки на гербе Курска и кто стрелял из лука в Великих Луках?

Подсветить: смысловое выделение

Модный глагол позволяет расставлять нужные акценты и влиять на восприятие информации

Лимб: зависнуть в неопределенности

Слово с богословскими корнями стало обозначать подвешенное состояние

Русские отчества: как вас по батюшке?

Исторически Иванов и Иванович — одно и то же

Выгорание: остался только пепел

Как редкое слово с техническим смыслом стало популярным обозначением последствий стресса

Галина Кустова: «Есть участки, где грамматика развивается быстро и даже стремительно!»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Имба: крутизна, которой нет равных

Как жалоба на дисбаланс превратилась в похвалу

Зумер: непонятная молодежь

Слово, которое полюбили социологи, маркетологи и рекрутеры

Брейнрот: контент, разлагающий мозг

Может ли потребление некачественного контента приводить к снижению когнитивных способностей?

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!