Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»

Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»
Иллюстрация: Варвара Матвеева

Как изменилось наше представление о языке после появления корпусов текстов, в частности Национального корпуса русского языка? Использование корпуса в практике лингвистических исследований уже стало общепринятым, а что дают корпусные данные теоретикам? Какие явления следует изучать в первую очередь и почему лингвисты не должны опираться на интуицию? Об этом Грамота поговорила с академиком РАН, заместителем директора Института русского языка им. В. В. Виноградова Владимиром Александровичем Плунгяном.

Грамота: Все, кто работает с языком как исследователи и как практики, уже знают о существовании НКРЯ, многие к нему регулярно обращаются в поисках примеров. Но ведь корпус полезен лингвистам не только в этом качестве?

Владимир Плунгян: Конечно, корпус как собрание специальным образом обработанных текстов в электронном виде — это очень удобный современный инструмент лингвистических исследований. Раньше, когда лингвисту надо было искать примеры, он читал книги с карандашом и выписывал примеры на карточки. Это была сложная, трудоемкая, затратная работа, которую корпус колоссально упростил. Все, что нам нужно, можно легко и быстро найти.

Казалось бы, ну и что? Ну, еще один инструмент. Но когда корпусом стали пользоваться, то оказалось, что это не просто инструмент, а такой инструмент, который сильно меняет наши представления о том, чем мы занимаемся, что такое язык и как надо его изучать. 

Мы как носители русского языка, и к тому же лингвисты, каждый день  пользуемся родным языком, за свою жизнь прочли и услышали на нем массу текстов. Почему именно корпус сыграл такую существенную роль в изменении представлений о языке?

В. П.: Корпус позволил лингвистам получить быстрый доступ к огромным массивам разнообразных текстов. И тут выяснилось, что на самом деле лингвисты плохо себе представляли, что такое тексты, как они устроены. Когда мы начали работать с корпусными материалами, обнаружилось огромное количество того, что мне бы в голову не пришло сказать. 

Первое желание, конечно, — отбросить все это как неправильное. Когда мы начинали внедрять корпус, нам говорили: 
— У вас очень плохие примеры. Вот откуда у вас такое? Из газеты? Кто ж газету берет!
— Хорошо, а вот этот пример из художественной литературы… 
— Ну, художественная литература! Писатели! 
Получается, что шаг вправо, шаг влево, и все какой-то не тот русский язык. 

На самом деле у любого человека языковой репертуар ограничен. Русский язык — это не пересечение, а объединение репертуаров 250 миллионов носителей, и у них у всех разный язык.

Да, писатели любят экспериментировать, но в рамках системы своего языка. Да, в газетах всякое бывает, но интересно, что именно бывает! Это был очень наглядный урок: не злоупотреблять нормализаторством, забыть про «правильно — неправильно», «плохой или хороший» язык. Приходилось себя переучивать: то, что есть, особенно то, что часто употребляется, — то и есть русский язык, нравится нам это или нет.

Значит, исследователь не может полагаться на свою интуицию?
В. П.:  Не просто не может, а в определенных случаях и не должен. И учит этому именно корпус. Это был удар по самолюбию лингвистов: даже специалист не всегда знает, как можно по-русски сказать. Лингвистика в 1970–1980-х годах была полна утверждений типа «согласно моей интуиции такие-то наречия сочетаются с такими-то глаголами, а остальное невозможно». Такие утверждения корпус опровергает; тихо, аккуратно, но опровергает. И сейчас, мне кажется, так рассуждать уже перестали, и это правильно: где меньше субъективизма, там больше науки. Но это не единственный урок корпуса. 

Отказаться от нормализаторства, не доверять интуиции, учитывать репертуар разных говорящих. А еще какой урок?

В. П.: Корпус меняет нашу теоретическую оптику. Если мы с этой новой точки зрения посмотрим на классические теории языка, мы увидим, что эти теории все немного странно устроены. Формат XX века — это мало примеров, тщательно отобранный материал и сложная красивая конструкция. Когда работаешь с корпусом, материала всегда много, слишком много. И этот материал к тому же сопротивляется красивым схемам. 

Лингвисты XX века любили говорить о языке, что это стройная система правил (часто добавляли, что она врожденная), своего рода мощная компьютерная программа, которая работает без сбоев у любого обычного младенца, а теория языка должна вскрывать эту стройную систему. Конечно, бывают речевые ошибки, но это маргинальная вещь, которой вообще-то неприлично заниматься. Появление корпусов этот тип рассуждений подрывает, потому что не получается выдать язык за стройную систему правил. Когда примеров много, никакая теория их все не объяснит. Всегда будут два-три случая, которые в нее не укладываются. 

Как тогда выглядит язык, если смотреть на него из корпуса?

В. П.: Если смотреть на язык из корпуса, то язык исчезает. Вместо него остаются тексты, речь. Нас всех учили, что лингвистика — это наука о языке. А почему не о речи? О текстах? Говорят, что тексты вторичны, потому что они построены по правилам языка. Но этих правил никто не видел, и мы даже не знаем, существуют ли они на самом деле, а тексты — вот они, перед нами. В корпусе. 

Классики лингвистики сравнивали язык то с шахматными партиями, то с алгоритмами. Но, кажется, языку больше подходят другие метафоры. Это не строгие правила, а скорее слабо управляемый хаос. 

Причем этот хаос еще и меняется со временем. При передаче от поколения к поколению он никогда не сохраняется в неизменном виде: дети, усваивая язык от родителей, обязательно что-то меняют. Кроме того, на синхронном уровне есть масса точек в языке, где мы сами не знаем, как сказать, ошибаемся, не уверены, говорим и так, и так. И это даже в языках типа русского, с богатой литературной традицией, со школой, с нормированием, где эти колебания не так заметны. 

То есть для красивой, стройной системы правил язык ведет себя странно. Он и меняется, он и колеблется, и сами говорящие не знают, как правильно... 

Вроде бы это все известные вещи. Почему они не попадали в поле зрения теоретической лингвистики? 

В. П.: Про это просто не думали, вытесняли из сознания. Хотя и в лингвистике XX века, конечно, были теоретики, которые шли против течения. Они стали появляться в 1960-е, 1970-е годы, их было немного. Например, в 1960-е годы в Институте русского языка была придумана программа изучения разговорной речи. У ее истоков стоял Михаил Викторович Панов, потом эту работу продолжила Елена Андреевна Земская со своими сотрудниками. Это была тоже по-своему корпусная идея. 

Когда устная речь носителей языка, причем высокообразованных носителей, была аккуратно и точно записана, люди не могли поверить, что это действительно русский язык — настолько он отличается от привычной письменной нормы. Вся повседневная жизнь пронизана этими репликами и диалогами, но их просто не замечали. 

Появление корпусов производит переворот и в практике, и в теории. Корпус ставит перед лингвистами вопрос: «Точно ли вы понимаете, что именно вы изучаете?» Так корпус оказывается не просто инструментом, а источником нового теоретического поворота в современной лингвистике. 

Какие теории оказались готовы двигаться в новом направлении?

В. П.: Теории эти называются по-разному. В самом широком смысле мы говорим о функциональной лингвистике, в более узком смысле — это так называемые модели, ориентированные на узус (usage-based theories), в синтаксисе к ним относят грамматику конструкций. Многие из них появились независимо друг от друга, но характерно, что приверженцы этих теорий много и охотно пользуются корпусами. С другой стороны, те, кто активно пользуется корпусами, скорее всего, выберут из большой палитры современных теорий именно эти. 

В чем состоят главные постулаты таких теорий? Что они думают об устройстве языка, о том, как дети овладевают языком?

В. П.: Они отрицают существование жесткой грамматики, заранее заданных правил. Может быть, правил в школьном смысле в языке вообще нет. И, что самое важное, их нет у носителя в голове. 

Как человек овладевает языком? Он слышит много всего и начинает говорить по аналогии… Примерно так же, как это делает нейросеть.

Известно, что успехи нейросетей в разных областях очень неравномерные, в каких-то случаях им доверять совершенно нельзя. Но что нейросеть делает прекрасно, так это строит лингвистические модели: она пишет стихи, плохие, но гладкие, сочиняет заявления об отпуске... Почему? Потому что у нейросети в распоряжении огромные корпуса. Конечно, никакой грамматики у нейросети нет и быть не может. Более того, она, естественно, не понимает содержание того, что порождает. Но наличие большого корпуса позволяет таким программам легко имитировать языковые образцы с высокой степенью совершенства. 

Есть подозрение, что у человека в голове есть нечто вроде такой нейросети, а вовсе не глаголы третьего спряжения, не синтаксис падежей, вообще не то, что лингвисты тщательно придумывали. Даже если все это в каком-то виде есть, мы уж точно должны сместить акценты. 

Функциональные теории в этом месте расходятся с формальными. В чем их главные противоречия? 

В. П.: Формальная лингвистика говорит: не может ребенок овладеть языком, если у него нет в голове жесткой грамматики. С детьми очень мало говорят, но достаточно совсем небольшой порции языковых данных, чтобы у них сами собой активировались врожденные алгоритмы. Психолингвисты обычно на это возражают: нет, с детьми говорят много, причем в течение нескольких лет, и только после этого дети постепенно начинают говорить. Это не очень похоже на активацию врожденного механизма — больше похоже на постепенное обучение путем имитации. 

Известно, что ребенок начинает с несовершенных образцов речи, но постепенно говорит все лучше и лучше, и к пяти — семи годам овладевает родным языком. За этот срок в него успевает загрузиться достаточный по объему корпус. Не только дети, но и вообще люди в целом так устроены. Мы легко говорим о том, что уже знаем, что у нас уже есть в голове. 

Корпус дает нам целую философию: язык — это имитация, грамматики нет. Поэтому он так сильно меняется при межпоколенческой передаче. Поэтому мы так часто ошибаемся, поэтому в языке так много исключений.

Теоретическая лингвистика, я думаю, пришла бы к этим выводам все равно, но без корпуса это было бы гораздо дольше. 

Значит ли это, что различение того, что в языке возможно и невозможно, перестает быть актуальным? 

В. П.: Отличный вопрос. Как нас учили? Модель языка должна описывать не только то, что мы непосредственно зафиксировали в конкретном тексте, но и то, что в принципе может — или не может — быть в языке. И это казалось завораживающе глубокой мыслью. Но если посмотреть со стороны корпуса, то это очень странная идея: «Описывай не то, что видишь, а то, чего ты увидеть не можешь». 

Владимир Плунгян
Источник: Wikimedia Commons

Представьте себе, человек делает указатели для города. Вот такая-то улица, вот такая-то площадь, а вот здесь должен быть знак поворота. Ему говорят: у тебя отличные указатели, но ты еще покажи, куда мы не сможем доехать, — какой-нибудь район, которого не существует на карте, дорогу, которую еще не построили. Человек говорит: а зачем? В моем указателе есть все, что нужно тем, кто ездит по этому городу здесь и сейчас. Ему отвечают: да, у тебя прекрасный указатель, но в нем нет теории езды по городу. Но ведь мой указатель работает — а тем, где будет «теория», никто пользоваться не захочет…  Получается, что такая теория практически бесполезна, хотя она гордо приписывает себе «предсказательную силу». Но прежде чем предсказывать несуществующее, нужно по-настоящему понять и описать существующее! А то, как это существующее выглядит, мы понимаем благодаря корпусам.

В этом смысле, кстати, филологи-классики были стихийными корпусными лингвистами. Потому что для мертвых языков есть только тексты. Когда филолога-классика спрашивают, возможна ли такая-то конструкция в латинском языке, он отвечает единственное, что может ответить: в текстах известных нам авторов такого нет. 

Вопрос не только в том, как можно сказать, но не говорят. Теория должна объяснять, как сказать нельзя и почему. Должны же быть какие-то ограничения?

В. П.: Корпус здесь может предложить другую повестку: язык нужен человеку для того, чтобы обеспечивать какие-то потребности этого социума. И люди непрерывно с помощью языка это делают. То есть язык нужен человеку, чтобы говорить о чем-то для него важном, существенном. Значит, если мы нечто находим в корпусе в большом количестве, мы должны именно это и описать. 

Наше описание должно моделировать владение языком человека. А что такое владение языком? Эту умение говорить о важном. Значит, в первую очередь должна быть описана частотная, базовая часть, во вторую очередь — то, что в принципе есть, но маргинально. А если чего-то нет вовсе… 

…то этим и не надо заниматься?

В. П.: А зачем? Конечно, язык — творческая вещь, с помощью языка можно говорить о чем угодно, в том числе о том, о чем никто никогда до этого не говорил. Но люди это делают крайне редко и с большим трудом. Наверное, про это тоже надо думать, но уж точно не в первую очередь. 

Люди мыслят шаблонами, клише, фреймами, как говорят когнитивные лингвисты. И вообще, вот всем этим мусором, который просто у нас в голове застрял. 99% того, что мы делаем, когда пользуемся языком, это вспоминаем: как это было сказано? как это можно воспроизвести? Речевая деятельность — это извлечение: мы заглядываем в наш ментальный корпус и извлекаем оттуда то, что там уже есть. 

Тогда получается, что очень много в том, как мы себе представляем язык и его описываем, зависит от качества корпуса. Может, мы какие-то группы населения вообще не учитываем, не знаем, как они говорят и пишут. 

В. П.: Именно так, и в русистике таких проблем было много. Например, всем известная литературоцентричность. Для нас образцовый язык, тот, который надо изучать, — это язык писателей. Это связано с особенностями русской культуры, с тем, что весь нерв русской жизни был именно в художественной литературе. Корпус литературных текстов загружен в голову у большинства носителей русского языка, которые учились в школе. До сих пор считается, что важно прочитать Достоевского, Пушкина, Лермонтова, знать эти тексты. Но все-таки язык писателей, даже самых лучших, это не весь русский язык. И корпус, в котором все эти тексты будут (и есть), на это смотрит спокойно и дает место и другим текстам. Корпусный лингвист никогда не скажет: «Широк язык — я бы сузил!»

Корпус, так сказать, и Достоевского переварит, и какого-нибудь калужского мужика. Это все — русский язык со своим широким диапазоном. 

Это непривычный взгляд и для традиционной русистики, и для нормативной грамматики, и для большинства теорий XX века — структурных, формальных теорий языка. И возник этот взгляд благодаря корпусам.

Хотя, надо сказать, появление больших корпусов — это не вполне наша заслуга, нам их подарила компьютерная революция, интернет. Если бы тексты оцифровывали лингвисты, они еще сто лет бы этим занимались. А тут мы буквально проснулись однажды утром, вошли в интернет, а там уже есть все. Мир как будто говорит нам: «Вы, лингвисты, изучайте тексты. Пусть у вас их будет много и пусть они будут разные». Лингвисты, мне кажется, должны прислушаться к миру. И, в общем, они уже идут этим путем.

· главный редактор Грамоты, кандидат филологических наук, старший научный сотрудник ИРЯ им. В. В. Виноградова РАН

Еще на эту тему

Кому и зачем нужен Национальный корпус русского языка

Получить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусов

Почему языки такие разные

Пять современных книг о словах и смыслах

все публикации


Коллекция «ПостНауки»: сколько в мире языков и какие самые сложные

Мнение лингвистов о языковом разнообразии, двух типах исследователей и пользе мертвых языков


Слово года по версии Грамоты. Как мы его выбираем?

От составления длинного списка до экспертного голосования


Как вы пользуетесь Грамотой? Пять рассказов от первого лица

Порталу исполняется 24 года! Отмечаем день рождения вместе с вами


Лингвист Олег Беляев об истории осетинского языка и его особенностях

«Один раз выучил окончание и везде его ставишь — это называется агглютинация»


Тест: в каком предложении нет ни одной ошибки?

Вам предстоит критически оценить сорок предложений из художественной литературы и найти десять безупречных


Категория рода в русской грамматике в сравнении с другими языками

«Лосось», «лебедь», «дитя», «невежда» и другие языковые сущности сложной судьбы


Пол Грэм: «Мир, разделенный на пишущих и не пишущих, опаснее, чем кажется»

Программист и предприниматель Пол Грэм описал будущее, в котором ИИ пишет тексты за человека


Слова-путешественники: каким образом русские слова оказались вдали от России

И насколько эти заимствования были изначально русскими? Разбирается лингвист Мария Елифёрова


Метапредметный подход в обучении русскому языку: один за всех, все за одного

Без знания лексики и умения извлекать смысл из текста страдают математика и другие школьные предметы


Словарный запас: как его оценить и на что он влияет

Хорошая новость состоит в том, что взрослые продолжают его расширять до 55 лет и даже дольше


Елена Березович: «Диалектологам становится все труднее работать»

Профессор Уральского университета обобщила результаты анкетирования коллег 


Учитель Сергей Волков: «А давайте сказку про репку перескажем гекзаметром!»

Как учить детей русскому языку в эпоху торжества технологий и сглаживания иерархии культур



О чем мы можем узнать из средневековых рукописных текстов

Интервью с медиевистом Олегом Воскобойниковым на канале «Основа»


Как лучше описывать разговорную лексику в словарях

Лингвисты обсуждают проблемы лексикографического представления диалектизмов, регионализмов, феминитивов и «жестовых» слов


Как лингвистическая экспертиза может повысить качество учебников

Главные критерии — понятность, интересность и тематический баланс


Общение в интернете происходит на особом устно-письменном языке

Его отличия от разговорного языка и от обычного письменного анализируются в статье Натальи Клушиной


Что такое старомосковское произношение

Говор стал престижным в тот момент, когда начал устаревать



1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!