Что нейросети умеют делать с текстами и чем предстоит заняться человеку
Нейросети уже неплохо справляются с анализом и порождением текстов, они умеют многое из того, что раньше делали только люди. Какие возможности это дает? Участники круглого стола «Ай да AI. Нейросети и создание текстов: проблемы и перспективы генеративных моделей» обсудили, чем ИИ может помочь в научной работе и какие навыки понадобятся людям в цифровую эпоху. Грамота записала самое главное.
В дискуссии на Костомаровском форуме участвовали руководитель лаборатории «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ, доктор физико-математических наук Константин Воронцов, руководитель образовательной программы «Цифровые методы в гуманитарных науках» НИУ ВШЭ, кандидат филологических наук Борис Орехов и директор по стратегическим коммуникациям Brand Analytics Василий Черный. Модерировала встречу Мария Лебедева, кандидат филологических наук, руководитель образовательного направления Грамоты и заведующая лабораторией когнитивных и лингвистических исследований Института Пушкина.
Нейросеть как инструмент
Все желающие уже успели убедиться в том, что нейросети научились генерировать тексты: они редактируют, переводят, сокращают, пересказывают и составляют аннотации. Если еще недавно сообщение о том, что ученый написал статью совместно с нейросетью, было сенсацией, то сейчас одни исследователи делают это, не афишируя, а другие — открыто говорят об этом. Так, в статье «Способен ли ИИ написать статью в юридический журнал?» описан эксперимент по проверке гипотезы, вынесенной в заглавие: первая часть статьи была полностью сгенерирована искусственным интеллектом.
Как нейросети и генеративные модели помогают ученым работать с научными текстами? Массив таких текстов огромен, а их переработка требует времени и сил.
Нейросети могут помочь, в частности, в поиске релевантных статей, их упорядочивании, в создании аннотаций.
В Институте искусственного интеллекта МГУ под руководством Константина Воронцова работает проект «Мастерская знаний», где на основе нейросети SciRus-tiny создается поисково-рекомендательная система, призванная облегчить работу с результатами поисковой выдачи по научным текстам. С ее помощью можно создавать тематические подборки, структурировать и ранжировать информацию, а также получать сообщения о новых публикациях по выбранной теме. Тестирование этой системы началось в 2024 году; нейросеть и набор тестовых задач находятся в открытом доступе.
В античности знание было диалогичным, устным и не фиксировалось, напомнила Мария Лебедева. Затем произошла трансформация: устную речь научились записывать, стали хранить и распространять эти записи. Сейчас мы живем в парадигме, где научное знание скорее монологично и излагается в виде текста. Но наступает момент, когда текстов становится слишком много, и нейросеть помогает «выплыть» в этом море информации. С Марией Лебедевой согласен Константин Воронцов.
Слишком много букв — это не претензия неграмотной молодежи, а состояние современной цивилизации.
Человечество вплотную подошло к новому цивилизационному барьеру, и сегодня нужно использовать новые инструменты и навыки для того, чтобы выбирать самое главное.
Проблема авторства
Использование новых инструментов ставит вопросы: если создать тематическую подборку и выбрать из статей цитаты теперь можно с помощью ИИ, то в чем заключается роль исследователя? Сохранится ли, к примеру, реферат как форма проверки знаний студентов?
Ведущая роль в создании обзора принадлежит человеку, считает Константин Воронцов: у человека есть авторский замысел и цель; когда он пишет обзор для диссертации, статьи или заявки на грант, то в зависимости от цели ставит задачи своему ИИ-помощнику.
В какой момент исследования следует подключать технологии? Для кого они предназначены: мы помогаем автору писать обзор или читателю в нужном порядке осваивать информацию? Такой дилеммы никогда не было, но сейчас технологии подвели нас к тому моменту, когда нам придется дать ответ на этот вопрос.
Нейросети довольно быстро меняют и нашу повседневную жизнь. Например, уже существует немало инструментов, которые безошибочно транскрибируют видеоконференции, переводя голос сразу в текст.
ИИ-ассистенты могут подготовить в текстовом виде итоги любого совещания быстрее и лучше, чем это сделает человек.
Но тексты, сгенерированные с помощью ИИ, нуждаются в тщательной проверке. Ученые пока не смогли справиться с феноменом галлюцинаций нейросетей. Поэтому для пользователей важна верификация информации, а для специалистов — качество массива текстов, на которых проводится обучение ИИ.
Мария Лебедева привела пример таких рисков. Специалисты Грамоты попросили нейросеть ответить на вопросы о русском языке, которые поступают в справочную службу. Выяснилось, что нейросеть в большинстве случаев ошибалась, придумывая свои правила русского языка или ссылаясь на нерелевантные.
А вот материалы в интернете, посвященные искусственному интеллекту и нейросетям, чат BrandGPT анализирует вполне успешно, считает Василий Черный. Компания BransAnalitics разрабатывает системы анализа социальных медиа и классических СМИ, в том числе отслеживает тенденции в области ИИ. Например, анализ показывает, что количество контента, посвященного ИИ и нейросетям, за год выросло в два раза, а интерес к конкретным нейросетям, генерирующим изображения, сегодня выше, чем к генераторам текста.
Борис Орехов сравнил роль автора в естественных науках со вкладом автора в гуманитарных исследованиях и художественных текстах.
В гуманитарных науках отделить текст от знания невозможно. Индивидуальный стиль Гаспарова, Бахтина, Лотмана неотделим от содержания их работ.
Теоретически большая языковая модель со временем может заменить гуманитария. Возникает вопрос: чем человек как производитель текста лучше, чем генеративная модель? А что, если выяснится, что искусственный интеллект может генерировать художественные тексты? Будут ли такие тексты экспериментом или полноценным художественным произведением? И кто тогда будет автором?
Создание массовой развлекательной литературы может быть отдано ИИ, но место для писателя-человека в литературе безусловно останется. «Мне интересно, когда живой человек делится со мной своим жизненным опытом, мыслями о мире и так далее. Ради этого я читаю художественную литературу», — заметил Константин Воронцов.
Что делать людям в эпоху нейросетей
Выделять главное и строить схемы
Справиться с гигантским объемом данных нам поможет структуризация знаний. Константин Воронцов предлагает научить людей выделять главное и строить схемы, чтобы затем передать это умение следующей генерации больших языковых моделей. Важными навыками для людей в информационную эпоху становятся составление текстографических материалов, так называемых карт мыслей (интеллект-карт, ментальных карт) и питчинг — умение быстро рассказать о самом важном, чтобы завладеть вниманием аудитории.
Писать промпты и интерпретировать собранные данные
Василий Черный настроен скорее оптимистично. Он сравнивает автора, работающего в паре с ИИ, с колумнистом, который пишет свою колонку по материалам газеты за неделю и обладает для издания большей ценностью, чем любые новостники.
Роль человека в том, чтобы анализировать и интерпретировать полученные нейросетью результаты.
С другой стороны, написание текстового запроса пользователя (промпта), по которому нейросеть генерирует контент, имеет все шансы когда-нибудь стать отдельной отраслью и отдельной профессией. Никакой боязни остаться без работы в среде тех, кто имеет дело с ИИ, нет: работы все равно очень много. Если мы правильно обучаем ИИ, он многое может делать, но инноватором он пока не является.
Адаптироваться к цифровому миру
Год назад, когда нейросеть Midjourney доказала, что ИИ может создавать реалистичные изображения, это вызвало панику в стане фотографов, напомнил Василий Черный. Прошел год, страсти улеглись, и выяснилось, что человеческий глаз способен отличить сгенерированные изображения. Фешен-индустрия откликнулась трендом на реализм и отказом от обработки изображений, чтобы дистанцироваться от продукции ИИ. Таким образом, фотографы нашли свою нишу.
Вообще, вполне может быть, что модели станут полноправными акторами и нашими партнерами: сейчас мы помогаем этим сущностям работать, но мы на самом деле не знаем, что происходит у них внутри. Уже сейчас в исследовательской индустрии получили мощное развитие синтетические респонденты, потом будут синтетические исследователи, затем потребители будут виртуализироваться, и так возникнет параллельный виртуальный мир.
Борис Орехов назвал эту картину будущего прекрасной и суммировал ее так: одни нейросети будут генерировать тексты, другие нейросети будут их читать, а мы сможем «пойти на речку за червячками».
Заниматься тем, что интересно
Казалось бы, зачем вообще генерировать художественные тексты? В этом есть смысл, даже если пока непонятно, зачем это нужно, уверен Борис Орехов.
Если бы у Резерфорда спросили, зачем он изучает ядро атома, я не уверен, что его ответ убедил бы всех. Но через полвека ценность этих работ стала очевидна.
Практической ценности у сгененированной литературы может не быть, но это не значит, что надо немедленно прекратить этим заниматься. У людей должна быть возможность заниматься тем, что им интересно.
Создавать позитивные образы будущего
Люди должны не только прогнозировать будущее с учетом появления ИИ, но и активно конструировать его, считает Константин Воронцов. Например, легко представить себе, что персональный помощник, который слушает совещания, читает книги, ведет вашу переписку, работает с вами десятилетиями, постепенно становится слепком вашей личности. Он обладает сверхвозможностями и может продолжать работу после вашей смерти, стать суперсотрудником для вашего работодателя или ангелом-хранителем для ваших потомков, которые смогут обратиться к нему за советом. Подобные сценарии могут стать реальностью в цифровом будущем, их нужно разрабатывать и к ним готовиться.
Еще на
эту тему
Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей
Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей
В Институте Пушкина завершился IV Костомаровский форум
Участники обсудили не только преподавание и продвижение русского языка, но также медиатексты, вежливость, словари и нейросети
Машинный диалект: границы рефлексии
Взгляд лингвиста Бориса Орехова на язык нейросетей