Математик Константин Воронцов: «Текст становится тормозом развития цивилизации»

15 декабря 2024

Иллюстрация: Лиза Кравецкая

Революция нейросетей началась с текста. Но в будущем, вероятно, его роль как носителя знаний будет уменьшаться. На смену ему придут текстографические форматы, и это позволит людям быстрее понимать задачи и достигать взаимопонимания. Об этом в интервью Грамоте размышляет специалист по цифровой гуманитаристике, доктор физико-математических наук Константин Воронцов.

Грамота: В 2024 году Нобелевскую премию по физике присудили за открытия, связанные с нейросетями. Но ключевую роль в популяризации ИИ сыграли чат-боты, а значит, коммуникация на естественном языке. Почему именно языковые модели стали столь значимым этапом в развитии нейросетей?

Константин Воронцов: Именно в случае с языком искусственная нейронная сеть впервые достигла такого размера, что оказалась способна вобрать в себя все данные, какие есть, практически все тексты, написанные человечеством. Причем не просто запомнить, а выявить все закономерности, присущие такому сложному явлению, как язык, чтобы научиться поддерживать диалог.

Нейросетям проще работать с текстовыми данными, чем с какими-то другими?

К. В.: Проще как раз работать с изображениями, видео, речью. Там применяются сверточные нейронные сети, которые имеют более простую архитектуру по сравнению с языковыми моделями. Обучение такой сети по десятку миллионов изображений позволяет ей различать двадцать тысяч типов объектов не хуже человека. Это научное достижение 2015 года в компьютерном зрении. Но отсюда до понимания реального мира оказалось очень далеко. Мощные нейросетевые модели языка стали появляться примерно в то же время. Сначала это были модели внимания для машинного перевода, затем трансформеры для автоматической обработки текстов (BERT, 2018) и для генерации текста (GPT, 2018).

В марте 2023 года OpenAI выпустил модель GPT-4. Уже через пару недель команда исследователей из Microsoft написала о том, что эта модель демонстрирует проблески общего интеллекта. Что это за проблески? Оказалось, что она способна перефразировать тексты, переводить их на другие языки, рассуждать, составлять сценарии и планы изложения, решать несложные логические задачки и исправлять собственные ошибки после небольшой подсказки.

Самое удивительное, что никто не обучал модель этим навыкам в явном виде — в биологии и теории систем такие свойства называются эмерджентными, то есть неожиданно возникающими.

Как такое стало возможным? Размер модели позволил ей «вобрать в себя» практически весь интернет, все возможные ситуации языкового употребления. Текст оказался более полным хранилищем наших знаний о мире, чем любые другие данные сопоставимого размера.

Но язык — это не только письменные тексты. Это еще и то, как мы говорим — с какой интонацией, мимикой.

К. В.: Именно так! К тексту добавляется речь и видеоряд. Следующим этапом технологического развития станет обработка потока данных из реального мира, от любых датчиков или сенсоров, как воспринимаемых органами чувств человека, так и не воспринимаемых (радиосигналов, например). ИИ будет способен ориентироваться в реальном мире, исследовать его, решать нужные нам задачи и разговаривать с нами обо всем этом на естественном человеческом языке. Это наше ближайшее будущее — годы, максимум пара десятилетий.

Какие результаты в области работы с языком вы считаете особенно важными?

К. В.: Переход к мультимодальным моделям, в которых текстовые данные обрабатываются совместно с изображениями, аудио- и видеосигналами. Распознавание и синтез речи — уже решенная проблема. Синтез текста можно совместить с генерацией видео, в котором у диктора будут нужная интонация, мимика и жесты. Такие модели уже работают, позволяя сокращать время подготовки образовательных курсов в корпоративных университетах с двух-трех месяцев до нескольких дней. Переделка и обновление курсов обходятся еще дешевле.

Константин Воронцов

Фото: Андрей Луфт / Научная Россия

Кстати, мне больше нравятся видеокурсы, где остается только голос лектора, а на слайдах при этом что-то двигается, появляется, выделяется; говорящая голова меня отвлекает. Фокус в том, что один и тот же образовательный контент можно синтезировать в нескольких видах, для людей с разными особенностями восприятия, и человек сможет настроить его так, как ему удобнее.

Какие разработки и идеи сейчас задают перспективу?

К. В.: Актуальная научная проблема — как добавлять в большие языковые модели специальные навыки, например способность к логическим рассуждениям или к точному цитированию фактов из надежных источников. Другой полезный навык — обращаться к специализированным «решателям», детализируя для них задачу, которую человек поставил недостаточно четко, после чего объяснять человеку решение на естественном языке.

Очень перспективное, на мой взгляд, направление исследований — учить большие языковые модели правильно структурировать факты и идеи, раскладывать всё по полочкам. Так, как это делают опытные профессионалы, вызывая у нас уважение и доверие. Почему это сегодня особенно важно? Текст всегда был драйвером развития цивилизации, но сейчас он всё больше становится его тормозом.

Нам некогда читать все эти тысячи страниц, выуживать из них крупицы смыслов, связывать их воедино в своих головах. Объем накопленных знаний давно превысил пределы наших когнитивных возможностей.

Знания разбросаны в учебниках, книгах, статьях, в интернете, в миллионах слабо связанных друг с другом текстов. Как быть? Структурировать знания, научиться выделять главное. Переходить от линейного текста к текстографическому представлению, чтобы задействовать преимущества нашего зрительного восприятия для структурирования и аналитического мышления.

Что вы имеете в виду под текстографическим представлением?

К. В.: Например, интеллект-карты, или mind maps. Чтобы объяснить сложную идею, мы выделяем наиболее важные аспекты этой идеи. Не слишком много, не более семи, чтобы запомнить и не запутаться. Каждый аспект мы затем детализируем, разделяя на небольшое число наиболее существенных тем. И так далее.

Вырастает иерархия, которую можно нарисовать и разметить цветом, линии подписать, добавить схемы или картинки.

При этом важно, чтобы карта читалась целиком как связный текст, а линии проясняли смысловые связи, служили «полочками для раскладывания».

В чем преимущество текстографических методов и визуализации в сравнении с обычным текстом, особенно с учетом новых возможностей ИИ?

К. В.: Так гораздо легче понимать и запоминать. Наша память небольшая и ненадежная. Поэтому мы стараемся запоминать в первую очередь самое главное, затем второстепенное, а дальше сколько получится. В голове остаются фрагменты иерархии, образы, символы. Когда мы пытаемся эти фрагменты записать, мы частично восстанавливаем общую картину, а затем превращаем наше внутреннее представление знаний в текст. Другой человек, читая, переводит наш текст в свои внутренние структуры, тратит на это, как и мы, энергию и время, теряя по дороге часть информации. Суммарные потери в процессах кодирования и декодирования текста колоссальны в масштабах человечества.

Нельзя ли перейти от текста к более эффективному представлению знаний, более похожему на ту картину, которая есть у нас в голове? Есть гипотеза, что это представление похоже именно на интеллект-карты.

Многие мои знакомые из бизнес-среды, внедряя в свою практику интеллект-карты, говорят: «Раньше наши совещания занимали два-три часа. Теперь мы вместе рисуем карту, за 15–20 минут достигаем взаимопонимания и переходим к делу». Почему это работает? На карте мы сразу замечаем все нелогичности, неточности, неполноту. Визуальное мышление включается само, хотя и не сразу. Нужна некоторая практика, выработка навыка. Почти как в детстве книжки учиться читать, только еще быстрее.

Но это лишь первый шаг. В перспективе нужна единая карта всех знаний человечества со всеми их взаимосвязями. Глобальная цифровая энциклопедия, динамически структурируемая под информационные потребности пользователя. Попадая в любую точку или тему на этой карте, мы будем получать быстрый и ясный ответ на вопрос: «Что в этой теме главное в контексте нашей актуальной практической деятельности?» Большие языковые модели заметно приближают нас к этой цели.

Что нейросети умеют делать с текстами и чем предстоит заняться человекуЭксперты обсудили, как мы будем взаимодействовать с ИИСкажу больше. Массовую практику картирования знаний можно запускать хоть сейчас, начиная с небольших проектов, образовательных курсов, корпоративных баз знаний. Постепенно будет накапливаться выборка хорошо структурированных текстов — продукт коллективного человеческого визуального аналитического мышления. Обучая языковые модели по таким данным, мы сделаем их более человечными и заслуживающими доверия. Можно также надеяться, что объемы данных и вычислительных затрат, которые им потребуются, станут на несколько порядков меньше, ведь структурированные данные выверены коллективным разумом, очищены от избыточности и противоречий.

Как современные технологии скажутся на процессе обучения?

К. В.: Написание рефератов или курсовых, которые никто не читает, переходит в разряд контрпродуктивной имитации деятельности. Соответственно, должны меняться формы учебной работы и контроля знаний. Появляется возможность многое автоматизировать в процессе создания новых курсов, быстрее их обновлять. В дистанционном образовании можно автоматизировать обратную связь с учащимся, персонализировать образовательные траектории.

Появление языковых моделей, умеющих выделять и структурировать главное, приближает нас к автоматизации создания образовательного контента, основанного на последних достижениях науки.

Это не означает, что преподаватели и популяризаторы науки потеряют работу. Они лишь перестанут катастрофически отдаляться от переднего края науки.

Тогда какие ключевые компетенции имеет смысл прививать сегодня школьникам?

К. В.: В университетской гимназии МГУ у нас есть проектная группа из семи десятиклассников, которые учатся выделять главное, думать коллективно и использовать интеллект-карты для структурирования знаний из школьной программы. Они уже видят, насколько это удобно, и учителя тоже это оценили.

Следующим шагом будет работа с искусственным интеллектом. Но важно не торопиться: сначала мы должны научиться этому сами, по-человечески. Достижение единомыслия по карте во время мозгового штурма — это сильная эмоция, совместное переживание, укрепляющее социальные связи. На этом этапе ИИ не нужен. ИИ подключится позже, когда уже будет совершенно понятно, в чем именно и как именно он нам помогает в достижении наших человеческих целей.

Что в устройстве средней школы препятствует развитию тех навыков, о которых вы говорите?

К. В.: На мой взгляд, есть одна центральная беда. Массовая школа не дает ответа на вопрос, зачем нужны знания и почему именно такие. Более того, многим школа прививает отвращение к знаниям. У этой беды есть масса причин и масса следствий, на нее завязаны многие другие беды, «порочные круги» и «гордиевы узлы».

Учитель Сергей Волков: «А давайте сказку про репку перескажем гекзаметром!»Как учить детей русскому языку в эпоху торжества технологий и сглаживания иерархии культурПричины общеизвестны: низкие зарплаты учителей, бюрократическое давление, избыточная стандартизация, не оставляющая места ни для творческих экспериментов, ни для объяснения междисциплинарных связей и единства картины мира, в которую каждый урок по каждому предмету должен быть органично встроен. Если учитель не может объяснить ученикам, как знания, полученные на этом уроке, пригодятся им в жизни, то зачем нужен такой урок?

Недавний опрос фонда «Эмпатия» показал, что лишь треть учителей (даже самых творческих) использует искусственный интеллект в работе. При этом большинство либо не доверяет этим технологиям, либо не понимает, как их применять.

К. В.: Знаете, я ведь тоже не использую ИИ в своей работе, хотя более тридцати лет занимаюсь исследованиями и разработками технологий ИИ. По очень смешной причине: мне уже за пятьдесят. Мои коллеги помоложе используют. Я привык писать тексты сам, мне это нравится. Я умею рисовать, и мне это тоже нравится. Мне нечего спросить у чата GPT (или у Kandinsky). И мне неинтересно узнать, что они мне ответят, потому что это никакой не интеллект, а всего лишь нейросетевой интерфейс к знаниям человечества.

Если вернуться к учителям, то их консерватизм — это следствие социально-экономических проблем, которые копились десятилетиями. Пока мы их не решим, мы не шагнем в светлое будущее. А оно формируется в средней школе.

Константин Воронцов — профессор РАН, математик, специалист в области машинного обучения и анализа данных. Окончил МФТИ, заведует кафедрой машинного обучения и цифровой гуманитаристики МФТИ, кафедрой математических методов прогнозирования факультета ВМК МГУ им. М. В. Ломоносова и лабораторией машинного обучения и семантического анализа Института искусственного интеллекта МГУ им. М. В. Ломоносова.

Антон Солдатов, редактор Грамоты

Математик Константин Воронцов: «Текст становится тормозом развития цивилизации»

Еще на эту тему

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

«Говорим по-русски!»: ChatGPT и другие нейросети

Зачем ИТ-специалисту нужна филология, а филологу — информационные технологии?

все публикации

От копирайта до копилефта: как менялось авторское право на тексты

Модные слова добавляют ярких красок в палитру общения

И стали они как боты? Человеческая речь может измениться под влиянием сгенерированных текстов

Возможно ли дешифровать письменность острова Пасхи?

Славист Афанасий Селищев о речевых особенностях первых лет советской власти

«Это роли не играет»: какие устойчивые словосочетания мы используем в речи

Названия стран и народов: реальность меняется, а языковая норма остается?

В Метасловаре Грамоты есть возможность проверять ударения при подготовке к ЕГЭ по русскому языку

Учитель Сергей Валюгин: «Грамотный язык сближается с искусством»

Семантические сдвиги: почему слова меняют смысл

Вышел в свет словарь «Традиционная пища Среднего Урала» под редакцией Елены Березович

Пять мифов о том, как устроены естественные языки

«Мне не зашло, а ему откликается»: сленговые конструкции для выражения эмоций

Должен ли извиняться этичный ИИ?

«Моя мама — копия ее мама»: что случилось с падежом

Как используется слово «фидбэк» в современном русском языке

Школьный жаргон XIX века: бонсюжешки ушли, а ерунда осталась

Составители «Академоса» рассказали о выборе слов для орфографического словаря и их кодификации

Как редполитика помогает Госуслугам оставаться понятными для всех

10 слов, в которых нам наконец разрешили привычные варианты ударений