Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»

20 ноября 2023

Иллюстрация: Варвара Матвеева

Как изменилось наше представление о языке после появления корпусов текстов, в частности Национального корпуса русского языка? Использование корпуса в практике лингвистических исследований уже стало общепринятым, а что дают корпусные данные теоретикам? Какие явления следует изучать в первую очередь и почему лингвисты не должны опираться на интуицию? Об этом Грамота поговорила с академиком РАН, заместителем директора Института русского языка им. В. В. Виноградова Владимиром Александровичем Плунгяном.

Грамота: Все, кто работает с языком как исследователи и как практики, уже знают о существовании НКРЯ, многие к нему регулярно обращаются в поисках примеров. Но ведь корпус полезен лингвистам не только в этом качестве?

Владимир Плунгян: Конечно, корпус как собрание специальным образом обработанных текстов в электронном виде — это очень удобный современный инструмент лингвистических исследований. Раньше, когда лингвисту надо было искать примеры, он читал книги с карандашом и выписывал примеры на карточки. Это была сложная, трудоемкая, затратная работа, которую корпус колоссально упростил. Все, что нам нужно, можно легко и быстро найти.

Казалось бы, ну и что? Ну, еще один инструмент. Но когда корпусом стали пользоваться, то оказалось, что это не просто инструмент, а такой инструмент, который сильно меняет наши представления о том, чем мы занимаемся, что такое язык и как надо его изучать.

Мы как носители русского языка, и к тому же лингвисты, каждый день пользуемся родным языком, за свою жизнь прочли и услышали на нем массу текстов. Почему именно корпус сыграл такую существенную роль в изменении представлений о языке?

В. П.: Корпус позволил лингвистам получить быстрый доступ к огромным массивам разнообразных текстов. И тут выяснилось, что на самом деле лингвисты плохо себе представляли, что такое тексты, как они устроены. Когда мы начали работать с корпусными материалами, обнаружилось огромное количество того, что мне бы в голову не пришло сказать.

Первое желание, конечно, — отбросить все это как неправильное. Когда мы начинали внедрять корпус, нам говорили:
— У вас очень плохие примеры. Вот откуда у вас такое? Из газеты? Кто ж газету берет!
— Хорошо, а вот этот пример из художественной литературы…
— Ну, художественная литература! Писатели!
Получается, что шаг вправо, шаг влево, и все какой-то не тот русский язык.

На самом деле у любого человека языковой репертуар ограничен. Русский язык — это не пересечение, а объединение репертуаров 250 миллионов носителей, и у них у всех разный язык.

Да, писатели любят экспериментировать, но в рамках системы своего языка. Да, в газетах всякое бывает, но интересно, что именно бывает! Это был очень наглядный урок: не злоупотреблять нормализаторством, забыть про «правильно — неправильно», «плохой или хороший» язык. Приходилось себя переучивать: то, что есть, особенно то, что часто употребляется, — то и есть русский язык, нравится нам это или нет.

Значит, исследователь не может полагаться на свою интуицию?
В. П.: Не просто не может, а в определенных случаях и не должен. И учит этому именно корпус. Это был удар по самолюбию лингвистов: даже специалист не всегда знает, как можно по-русски сказать. Лингвистика в 1970–1980-х годах была полна утверждений типа «согласно моей интуиции такие-то наречия сочетаются с такими-то глаголами, а остальное невозможно». Такие утверждения корпус опровергает; тихо, аккуратно, но опровергает. И сейчас, мне кажется, так рассуждать уже перестали, и это правильно: где меньше субъективизма, там больше науки. Но это не единственный урок корпуса.

Отказаться от нормализаторства, не доверять интуиции, учитывать репертуар разных говорящих. А еще какой урок?

В. П.: Корпус меняет нашу теоретическую оптику. Если мы с этой новой точки зрения посмотрим на классические теории языка, мы увидим, что эти теории все немного странно устроены. Формат XX века — это мало примеров, тщательно отобранный материал и сложная красивая конструкция. Когда работаешь с корпусом, материала всегда много, слишком много. И этот материал к тому же сопротивляется красивым схемам.

Лингвисты XX века любили говорить о языке, что это стройная система правил (часто добавляли, что она врожденная), своего рода мощная компьютерная программа, которая работает без сбоев у любого обычного младенца, а теория языка должна вскрывать эту стройную систему. Конечно, бывают речевые ошибки, но это маргинальная вещь, которой вообще-то неприлично заниматься. Появление корпусов этот тип рассуждений подрывает, потому что не получается выдать язык за стройную систему правил. Когда примеров много, никакая теория их все не объяснит. Всегда будут два-три случая, которые в нее не укладываются.

Как тогда выглядит язык, если смотреть на него из корпуса?

В. П.: Если смотреть на язык из корпуса, то язык исчезает. Вместо него остаются тексты, речь. Нас всех учили, что лингвистика — это наука о языке. А почему не о речи? О текстах? Говорят, что тексты вторичны, потому что они построены по правилам языка. Но этих правил никто не видел, и мы даже не знаем, существуют ли они на самом деле, а тексты — вот они, перед нами. В корпусе.

Классики лингвистики сравнивали язык то с шахматными партиями, то с алгоритмами. Но, кажется, языку больше подходят другие метафоры. Это не строгие правила, а скорее слабо управляемый хаос.

Причем этот хаос еще и меняется со временем. При передаче от поколения к поколению он никогда не сохраняется в неизменном виде: дети, усваивая язык от родителей, обязательно что-то меняют. Кроме того, на синхронном уровне есть масса точек в языке, где мы сами не знаем, как сказать, ошибаемся, не уверены, говорим и так, и так. И это даже в языках типа русского, с богатой литературной традицией, со школой, с нормированием, где эти колебания не так заметны.

То есть для красивой, стройной системы правил язык ведет себя странно. Он и меняется, он и колеблется, и сами говорящие не знают, как правильно...

Вроде бы это все известные вещи. Почему они не попадали в поле зрения теоретической лингвистики?

В. П.: Про это просто не думали, вытесняли из сознания. Хотя и в лингвистике XX века, конечно, были теоретики, которые шли против течения. Они стали появляться в 1960-е, 1970-е годы, их было немного. Например, в 1960-е годы в Институте русского языка была придумана программа изучения разговорной речи. У ее истоков стоял Михаил Викторович Панов, потом эту работу продолжила Елена Андреевна Земская со своими сотрудниками. Это была тоже по-своему корпусная идея.

Когда устная речь носителей языка, причем высокообразованных носителей, была аккуратно и точно записана, люди не могли поверить, что это действительно русский язык — настолько он отличается от привычной письменной нормы. Вся повседневная жизнь пронизана этими репликами и диалогами, но их просто не замечали.

Появление корпусов производит переворот и в практике, и в теории. Корпус ставит перед лингвистами вопрос: «Точно ли вы понимаете, что именно вы изучаете?» Так корпус оказывается не просто инструментом, а источником нового теоретического поворота в современной лингвистике.

Какие теории оказались готовы двигаться в новом направлении?

В. П.: Теории эти называются по-разному. В самом широком смысле мы говорим о функциональной лингвистике, в более узком смысле — это так называемые модели, ориентированные на узус (usage-based theories), в синтаксисе к ним относят грамматику конструкций. Многие из них появились независимо друг от друга, но характерно, что приверженцы этих теорий много и охотно пользуются корпусами. С другой стороны, те, кто активно пользуется корпусами, скорее всего, выберут из большой палитры современных теорий именно эти.

В чем состоят главные постулаты таких теорий? Что они думают об устройстве языка, о том, как дети овладевают языком?

В. П.: Они отрицают существование жесткой грамматики, заранее заданных правил. Может быть, правил в школьном смысле в языке вообще нет. И, что самое важное, их нет у носителя в голове.

Как человек овладевает языком? Он слышит много всего и начинает говорить по аналогии… Примерно так же, как это делает нейросеть.

Известно, что успехи нейросетей в разных областях очень неравномерные, в каких-то случаях им доверять совершенно нельзя. Но что нейросеть делает прекрасно, так это строит лингвистические модели: она пишет стихи, плохие, но гладкие, сочиняет заявления об отпуске... Почему? Потому что у нейросети в распоряжении огромные корпуса. Конечно, никакой грамматики у нейросети нет и быть не может. Более того, она, естественно, не понимает содержание того, что порождает. Но наличие большого корпуса позволяет таким программам легко имитировать языковые образцы с высокой степенью совершенства.

Есть подозрение, что у человека в голове есть нечто вроде такой нейросети, а вовсе не глаголы третьего спряжения, не синтаксис падежей, вообще не то, что лингвисты тщательно придумывали. Даже если все это в каком-то виде есть, мы уж точно должны сместить акценты.

Функциональные теории в этом месте расходятся с формальными. В чем их главные противоречия?

В. П.: Формальная лингвистика говорит: не может ребенок овладеть языком, если у него нет в голове жесткой грамматики. С детьми очень мало говорят, но достаточно совсем небольшой порции языковых данных, чтобы у них сами собой активировались врожденные алгоритмы. Психолингвисты обычно на это возражают: нет, с детьми говорят много, причем в течение нескольких лет, и только после этого дети постепенно начинают говорить. Это не очень похоже на активацию врожденного механизма — больше похоже на постепенное обучение путем имитации.

Известно, что ребенок начинает с несовершенных образцов речи, но постепенно говорит все лучше и лучше, и к пяти — семи годам овладевает родным языком. За этот срок в него успевает загрузиться достаточный по объему корпус. Не только дети, но и вообще люди в целом так устроены. Мы легко говорим о том, что уже знаем, что у нас уже есть в голове.

Корпус дает нам целую философию: язык — это имитация, грамматики нет. Поэтому он так сильно меняется при межпоколенческой передаче. Поэтому мы так часто ошибаемся, поэтому в языке так много исключений.

Теоретическая лингвистика, я думаю, пришла бы к этим выводам все равно, но без корпуса это было бы гораздо дольше.

Значит ли это, что различение того, что в языке возможно и невозможно, перестает быть актуальным?

В. П.: Отличный вопрос. Как нас учили? Модель языка должна описывать не только то, что мы непосредственно зафиксировали в конкретном тексте, но и то, что в принципе может — или не может — быть в языке. И это казалось завораживающе глубокой мыслью. Но если посмотреть со стороны корпуса, то это очень странная идея: «Описывай не то, что видишь, а то, чего ты увидеть не можешь».

Владимир Плунгян

Источник: Wikimedia Commons

Представьте себе, человек делает указатели для города. Вот такая-то улица, вот такая-то площадь, а вот здесь должен быть знак поворота. Ему говорят: у тебя отличные указатели, но ты еще покажи, куда мы не сможем доехать, — какой-нибудь район, которого не существует на карте, дорогу, которую еще не построили. Человек говорит: а зачем? В моем указателе есть все, что нужно тем, кто ездит по этому городу здесь и сейчас. Ему отвечают: да, у тебя прекрасный указатель, но в нем нет теории езды по городу. Но ведь мой указатель работает — а тем, где будет «теория», никто пользоваться не захочет… Получается, что такая теория практически бесполезна, хотя она гордо приписывает себе «предсказательную силу». Но прежде чем предсказывать несуществующее, нужно по-настоящему понять и описать существующее! А то, как это существующее выглядит, мы понимаем благодаря корпусам.

В этом смысле, кстати, филологи-классики были стихийными корпусными лингвистами. Потому что для мертвых языков есть только тексты. Когда филолога-классика спрашивают, возможна ли такая-то конструкция в латинском языке, он отвечает единственное, что может ответить: в текстах известных нам авторов такого нет.

Вопрос не только в том, как можно сказать, но не говорят. Теория должна объяснять, как сказать нельзя и почему. Должны же быть какие-то ограничения?

В. П.: Корпус здесь может предложить другую повестку: язык нужен человеку для того, чтобы обеспечивать какие-то потребности этого социума. И люди непрерывно с помощью языка это делают. То есть язык нужен человеку, чтобы говорить о чем-то для него важном, существенном. Значит, если мы нечто находим в корпусе в большом количестве, мы должны именно это и описать.

Наше описание должно моделировать владение языком человека. А что такое владение языком? Эту умение говорить о важном. Значит, в первую очередь должна быть описана частотная, базовая часть, во вторую очередь — то, что в принципе есть, но маргинально. А если чего-то нет вовсе…

…то этим и не надо заниматься?

В. П.: А зачем? Конечно, язык — творческая вещь, с помощью языка можно говорить о чем угодно, в том числе о том, о чем никто никогда до этого не говорил. Но люди это делают крайне редко и с большим трудом. Наверное, про это тоже надо думать, но уж точно не в первую очередь.

Люди мыслят шаблонами, клише, фреймами, как говорят когнитивные лингвисты. И вообще, вот всем этим мусором, который просто у нас в голове застрял. 99% того, что мы делаем, когда пользуемся языком, это вспоминаем: как это было сказано? как это можно воспроизвести? Речевая деятельность — это извлечение: мы заглядываем в наш ментальный корпус и извлекаем оттуда то, что там уже есть.

Тогда получается, что очень много в том, как мы себе представляем язык и его описываем, зависит от качества корпуса. Может, мы какие-то группы населения вообще не учитываем, не знаем, как они говорят и пишут.

В. П.: Именно так, и в русистике таких проблем было много. Например, всем известная литературоцентричность. Для нас образцовый язык, тот, который надо изучать, — это язык писателей. Это связано с особенностями русской культуры, с тем, что весь нерв русской жизни был именно в художественной литературе. Корпус литературных текстов загружен в голову у большинства носителей русского языка, которые учились в школе. До сих пор считается, что важно прочитать Достоевского, Пушкина, Лермонтова, знать эти тексты. Но все-таки язык писателей, даже самых лучших, это не весь русский язык. И корпус, в котором все эти тексты будут (и есть), на это смотрит спокойно и дает место и другим текстам. Корпусный лингвист никогда не скажет: «Широк язык — я бы сузил!»

Корпус, так сказать, и Достоевского переварит, и какого-нибудь калужского мужика. Это все — русский язык со своим широким диапазоном.

Это непривычный взгляд и для традиционной русистики, и для нормативной грамматики, и для большинства теорий XX века — структурных, формальных теорий языка. И возник этот взгляд благодаря корпусам.

Хотя, надо сказать, появление больших корпусов — это не вполне наша заслуга, нам их подарила компьютерная революция, интернет. Если бы тексты оцифровывали лингвисты, они еще сто лет бы этим занимались. А тут мы буквально проснулись однажды утром, вошли в интернет, а там уже есть все. Мир как будто говорит нам: «Вы, лингвисты, изучайте тексты. Пусть у вас их будет много и пусть они будут разные». Лингвисты, мне кажется, должны прислушаться к миру. И, в общем, они уже идут этим путем.

Ксения Киселева

· главный редактор Грамоты, кандидат филологических наук, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН

Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»

Еще на эту тему

Владимир Плунгян: «Русистам смотреть на другие языки не всегда привычно»

Кому и зачем нужен Национальный корпус русского языка

Почему языки такие разные

все публикации

Ограничение избыточных заимствований: что и как придется менять

Курс Владимира Плунгяна поможет разобраться в основах лингвистики

«Морж», «сельдь» и другие финно-угорские и скандинавские заимствования в русском языке

«Обязательная программа»: что общего есть у разных языков

Этруски — не русские, или Как отличить псевдолингвистику от настоящей науки

Смешенье языков: можно ли скрестить русский с китайским?

Как русский язык помогает осваивать другие школьные предметы

Лгун и лжец, багровый и багряный: зачем языку похожие слова с похожим смыслом

Что значит «залететь в реки»?

Сезон, экран, каблук, голос, берег: какое слово лишнее?

Зачем нужно сохранять исчезающие языки

Псевдо, квази, эрзац и другие: пять способов указать на неполное сходство

Русский язык не сводится к его литературной форме. Лекция Максима Кронгауза

Откуда берутся разные варианты произношения?

Одушевленное и неодушевленное в языке: как в этом разобраться

Изоляты — языки без «родственников»

Берестяные грамоты находят даже в вечной мерзлоте

Лингвист Наталья Брагина о вежливости и конфликтной коммуникации в XXI веке

Местный для местных: секретный падеж русского языка

Еще раз про любовь