Подсказки для поиска

Математик Константин Воронцов: «Текст становится тормозом развития цивилизации»

Математик Константин Воронцов: «Текст становится тормозом развития цивилизации»
Иллюстрация: Лиза Кравецкая

Революция нейросетей началась с текста. Но в будущем, вероятно, его роль как носителя знаний будет уменьшаться. На смену ему придут текстографические форматы, и это позволит людям быстрее понимать задачи и достигать взаимопонимания. Об этом в интервью Грамоте размышляет специалист по цифровой гуманитаристике, доктор физико-математических наук Константин Воронцов.

Грамота: В 2024 году Нобелевскую премию по физике присудили за открытия, связанные с нейросетями. Но ключевую роль в популяризации ИИ сыграли чат-боты, а значит,  коммуникация на естественном языке. Почему именно языковые модели стали столь значимым этапом в развитии нейросетей?

Константин Воронцов: Именно в случае с языком искусственная нейронная сеть впервые достигла такого размера, что оказалась способна вобрать в себя все данные, какие есть, практически все тексты, написанные человечеством. Причем не просто запомнить, а выявить все закономерности, присущие такому сложному явлению, как язык, чтобы научиться поддерживать диалог. 

Нейросетям проще работать с текстовыми данными, чем с какими-то другими?

К. В.: Проще как раз работать с изображениями, видео, речью. Там применяются сверточные нейронные сети, которые имеют более простую архитектуру по сравнению с языковыми моделями. Обучение такой сети по десятку миллионов изображений позволяет ей различать двадцать тысяч типов объектов не хуже человека. Это научное достижение 2015 года в компьютерном зрении. Но отсюда до понимания реального мира оказалось очень далеко. Мощные нейросетевые модели языка стали появляться примерно в то же время. Сначала это были модели внимания для машинного перевода, затем трансформеры для автоматической обработки текстов (BERT, 2018) и для генерации текста (GPT, 2018). 

В марте 2023 года OpenAI выпустил модель GPT-4. Уже через пару недель команда исследователей из Microsoft написала о том, что эта модель демонстрирует проблески общего интеллекта. Что это за проблески? Оказалось, что она способна перефразировать тексты, переводить их на другие языки, рассуждать, составлять сценарии и планы изложения, решать несложные логические задачки и исправлять собственные ошибки после небольшой подсказки.

Самое удивительное, что никто не обучал модель этим навыкам в явном виде — в биологии и теории систем такие свойства называются эмерджентными, то есть неожиданно возникающими. 

Как такое стало возможным? Размер модели позволил ей «вобрать в себя» практически весь интернет, все возможные ситуации языкового употребления. Текст оказался более полным хранилищем наших знаний о мире, чем любые другие данные сопоставимого размера. 

Но язык — это не только письменные тексты. Это еще и то, как мы говорим — с какой интонацией, мимикой. 

К. В.: Именно так! К тексту добавляется речь и видеоряд. Следующим этапом технологического развития станет обработка потока данных из реального мира, от любых датчиков или сенсоров, как воспринимаемых органами чувств человека, так и не воспринимаемых (радиосигналов, например). ИИ будет способен ориентироваться в реальном мире, исследовать его, решать нужные нам задачи и разговаривать с нами обо всем этом на естественном человеческом языке. Это наше ближайшее будущее — годы, максимум пара десятилетий.

Какие результаты в области работы с языком вы считаете особенно важными? 

К. В.: Переход к мультимодальным моделям, в которых текстовые данные обрабатываются совместно с изображениями, аудио- и видеосигналами. Распознавание и синтез речи — уже решенная проблема. Синтез текста можно совместить с генерацией видео, в котором у диктора будут нужная интонация, мимика и жесты. Такие модели уже работают, позволяя сокращать время подготовки образовательных курсов в корпоративных университетах с двух-трех месяцев до нескольких дней. Переделка и обновление курсов обходятся еще дешевле.

Константин Воронцов
Константин Воронцов
Фото: Андрей Луфт / Научная Россия

Кстати, мне больше нравятся видеокурсы, где остается только голос лектора, а на слайдах при этом что-то двигается, появляется, выделяется; говорящая голова меня отвлекает. Фокус в том, что один и тот же образовательный контент можно синтезировать в нескольких видах, для людей с разными особенностями восприятия, и человек сможет настроить его так, как ему удобнее. 

Какие разработки и идеи сейчас задают перспективу?

К. В.: Актуальная научная проблема — как добавлять в большие языковые модели специальные навыки, например способность к логическим рассуждениям или к точному цитированию фактов из надежных источников. Другой полезный навык — обращаться к специализированным «решателям», детализируя для них задачу, которую человек поставил недостаточно четко, после чего объяснять человеку решение на естественном языке. 

Очень перспективное, на мой взгляд, направление исследований — учить большие языковые модели правильно структурировать факты и идеи, раскладывать всё по полочкам. Так, как это делают опытные профессионалы, вызывая у нас уважение и доверие. Почему это сегодня особенно важно? Текст всегда был драйвером развития цивилизации, но сейчас он всё больше становится его тормозом.

Нам некогда читать все эти тысячи страниц, выуживать из них крупицы смыслов, связывать их воедино в своих головах. Объем накопленных знаний давно превысил пределы наших когнитивных возможностей. 

Знания разбросаны в учебниках, книгах, статьях, в интернете, в миллионах слабо связанных друг с другом текстов. Как быть? Структурировать знания, научиться выделять главное. Переходить от линейного текста к текстографическому представлению, чтобы задействовать преимущества нашего зрительного восприятия для структурирования и аналитического мышления.

Что вы имеете в виду под текстографическим представлением?

К. В.: Например, интеллект-карты, или mind maps. Чтобы объяснить сложную идею, мы выделяем наиболее важные аспекты этой идеи. Не слишком много, не более семи, чтобы запомнить и не запутаться. Каждый аспект мы затем детализируем, разделяя на небольшое число наиболее существенных тем. И так далее.

Вырастает иерархия, которую можно нарисовать и разметить цветом, линии подписать, добавить схемы или картинки.

При этом важно, чтобы карта читалась целиком как связный текст, а линии проясняли смысловые связи, служили «полочками для раскладывания». 

В чем преимущество текстографических методов и визуализации в сравнении с обычным текстом, особенно с учетом новых возможностей ИИ?

К. В.: Так гораздо легче понимать и запоминать. Наша память небольшая и ненадежная. Поэтому мы стараемся запоминать в первую очередь самое главное, затем второстепенное, а дальше сколько получится. В голове остаются фрагменты иерархии, образы, символы. Когда мы пытаемся эти фрагменты записать, мы частично восстанавливаем общую картину, а затем превращаем наше внутреннее представление знаний в текст. Другой человек, читая, переводит наш текст в свои внутренние структуры, тратит на это, как и мы, энергию и время, теряя по дороге часть информации. Суммарные потери в процессах кодирования и декодирования текста колоссальны в масштабах человечества. 

Нельзя ли перейти от текста к более эффективному представлению знаний, более похожему на ту картину, которая есть у нас в голове? Есть гипотеза, что это представление похоже именно на интеллект-карты. 

Многие мои знакомые из бизнес-среды, внедряя в свою практику интеллект-карты, говорят: «Раньше наши совещания занимали два-три часа. Теперь мы вместе рисуем карту, за 15–20 минут достигаем взаимопонимания и переходим к делу». Почему это работает? На карте мы сразу замечаем все нелогичности, неточности, неполноту. Визуальное мышление включается само, хотя и не сразу. Нужна некоторая практика, выработка навыка. Почти как в детстве книжки учиться читать, только еще быстрее. 

Но это лишь первый шаг. В перспективе нужна единая карта всех знаний человечества со всеми их взаимосвязями. Глобальная цифровая энциклопедия, динамически структурируемая под информационные потребности пользователя. Попадая в любую точку или тему на этой карте, мы будем получать быстрый и ясный ответ на вопрос: «Что в этой теме главное в контексте нашей актуальной практической деятельности?» Большие языковые модели заметно приближают нас к этой цели. 

Что нейросети умеют делать с текстами и чем предстоит заняться человекуЭксперты обсудили, как мы будем взаимодействовать с ИИСкажу больше. Массовую практику картирования знаний можно запускать хоть сейчас, начиная с небольших проектов, образовательных курсов, корпоративных баз знаний. Постепенно будет накапливаться выборка хорошо структурированных текстов — продукт коллективного человеческого визуального аналитического мышления. Обучая языковые модели по таким данным, мы сделаем их более человечными и заслуживающими доверия. Можно также надеяться, что объемы данных и вычислительных затрат, которые им потребуются, станут на несколько порядков меньше, ведь структурированные данные выверены коллективным разумом, очищены от избыточности и противоречий. 

Как современные технологии скажутся на процессе обучения?

К. В.: Написание рефератов или курсовых, которые никто не читает, переходит в разряд контрпродуктивной имитации деятельности. Соответственно, должны меняться формы учебной работы и контроля знаний. Появляется возможность многое автоматизировать в процессе создания новых курсов, быстрее их обновлять. В дистанционном образовании можно автоматизировать обратную связь с учащимся, персонализировать образовательные траектории.

Появление языковых моделей, умеющих выделять и структурировать главное, приближает нас к автоматизации создания образовательного контента, основанного на последних достижениях науки.

Это не означает, что преподаватели и популяризаторы науки потеряют работу. Они лишь перестанут катастрофически отдаляться от переднего края науки. 

Тогда какие ключевые компетенции имеет смысл прививать сегодня школьникам?

К. В.: В университетской гимназии МГУ у нас есть проектная группа из семи десятиклассников, которые учатся выделять главное, думать коллективно и использовать интеллект-карты для структурирования знаний из школьной программы. Они уже видят, насколько это удобно, и учителя тоже это оценили. 

Следующим шагом будет работа с искусственным интеллектом. Но важно не торопиться: сначала мы должны научиться этому сами, по-человечески. Достижение единомыслия по карте во время мозгового штурма — это сильная эмоция, совместное переживание, укрепляющее социальные связи. На этом этапе ИИ не нужен. ИИ подключится позже, когда уже будет совершенно понятно, в чем именно и как именно он нам помогает в достижении наших человеческих целей. 

Что в устройстве средней школы препятствует развитию тех навыков, о которых вы говорите?

К. В.: На мой взгляд, есть одна центральная беда. Массовая школа не дает ответа на вопрос, зачем нужны знания и почему именно такие. Более того, многим школа прививает отвращение к знаниям. У этой беды есть масса причин и масса следствий, на нее завязаны многие другие беды, «порочные круги» и «гордиевы узлы». 

Учитель Сергей Волков: «А давайте сказку про репку перескажем гекзаметром!»Как учить детей русскому языку в эпоху торжества технологий и сглаживания иерархии культурПричины общеизвестны: низкие зарплаты учителей, бюрократическое давление, избыточная стандартизация, не оставляющая места ни для творческих экспериментов, ни для объяснения междисциплинарных связей и единства картины мира, в которую каждый урок по каждому предмету должен быть органично встроен. Если учитель не может объяснить ученикам, как знания, полученные на этом уроке, пригодятся им в жизни, то зачем нужен такой урок? 

Недавний опрос фонда «Эмпатия» показал, что лишь треть учителей (даже самых творческих) использует искусственный интеллект в работе. При этом большинство либо не доверяет этим технологиям, либо не понимает, как их применять. 

К. В.: Знаете, я ведь тоже не использую ИИ в своей работе, хотя более тридцати лет занимаюсь исследованиями и разработками технологий ИИ. По очень смешной причине: мне уже за пятьдесят. Мои коллеги помоложе используют. Я привык писать тексты сам, мне это нравится. Я умею рисовать, и мне это тоже нравится. Мне нечего спросить у чата GPT (или у Kandinsky). И мне неинтересно узнать, что они мне ответят, потому что это никакой не интеллект, а всего лишь нейросетевой интерфейс к знаниям человечества. 

Если вернуться к учителям, то их консерватизм — это следствие социально-экономических проблем, которые копились десятилетиями. Пока мы их не решим, мы не шагнем в светлое будущее. А оно формируется в средней школе.

Константин Воронцов — профессор РАН, математик, специалист в области машинного обучения и анализа данных. Окончил МФТИ, заведует кафедрой машинного обучения и цифровой гуманитаристики МФТИ, кафедрой математических методов прогнозирования факультета ВМК МГУ им. М. В. Ломоносова и лабораторией машинного обучения и семантического анализа Института искусственного интеллекта МГУ им. М. В. Ломоносова.

, редактор Грамоты

Еще на эту тему

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Впереди демократизация порождения текстов и большие риски злоупотреблений

Зачем ИТ-специалисту нужна филология, а филологу — информационные технологии?

Об этом говорили на пресс-конференции в международном мультимедийном пресс-центре «Россия сегодня».

все публикации

Способы выражения вежливости в русском и других языках

«Вежливыми» могут быть местоимения, глаголы и даже приставки и суффиксы

Катавасия, близорукость и блины для медведей: когда слова сбивают нас с толку

Народная этимология предлагает фантастические объяснения вместо научных фактов

В чем вопрос? Юбилейный тест для новичков и ветеранов Грамоты

Мы проанализировали ваши вопросы и запросы, чтобы понять, что вас волнует больше всего

Словарь аббревиатур русского языка как государственного определит нормы для разных типов сокращений

Главные трудности связаны с определением рода, склонением и произношением

Дислексия и дисграфия могут быть связаны не только с речевыми нарушениями, но и с недостатком самоконтроля

Ольга Величенкова о разных ошибках в письме, прогнозировании школьной неуспешности и умении сосредоточиться на главном

Плеоназмы со смыслом, неологизмы для мужчин и всякие штуки: вышел новый номер «Трудов ИРЯ РАН»

Кое-что о современной русской лексике в сборнике статей к 90-летию Леонида Крысина

Владимир Гиляровский, «король репортеров»

К 170-летию со дня рождения писателя и журналиста Музей Москвы показывает документы из найденного недавно архива 

Он или она? Как языки обходятся без указания на пол

Есть разные способы избежать уточнения или, наоборот, внести ясность

Могут ли нейросети написать «Войну и мир» и куда они заведут человечество

На форуме «Территория будущего. Москва 2030» рассказали о возможностях ИИ

Слова на карте: как лексика объединяет и разделяет страны

Лингвистические карты показывают родство языков и языковые контакты

Сергей Ожегов, борец за самобытность родного языка

К 125-летию со дня рождения лексикографа рассказываем о десяти фактах его биографии

Калеб Эверетт написал книгу о языковом многообразии

Научный редактор книги Валерий Шульгинов представляет ее читателям Грамоты

Как эвфемизмы в рекламе влияют на наше поведение

«Спецпредложение» звучит более заманчиво, чем «скидка»

А и Б сидели на трубе: семь детских книг о буквах и знаках

Иногда А, Я и даже точка могут стать главными героями поучительных историй

Опять запятые! Сложный пунктуационный тест

Десять цитат из русской классики, которые нужно написать без ошибок

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!