Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»

Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»
Иллюстрация: Варвара Матвеева

Как изменилось наше представление о языке после появления корпусов текстов, в частности Национального корпуса русского языка? Использование корпуса в практике лингвистических исследований уже стало общепринятым, а что дают корпусные данные теоретикам? Какие явления следует изучать в первую очередь и почему лингвисты не должны опираться на интуицию? Об этом Грамота поговорила с академиком РАН, заместителем директора Института русского языка им. В. В. Виноградова Владимиром Александровичем Плунгяном.

Грамота: Все, кто работает с языком как исследователи и как практики, уже знают о существовании НКРЯ, многие к нему регулярно обращаются в поисках примеров. Но ведь корпус полезен лингвистам не только в этом качестве?

Владимир Плунгян: Конечно, корпус как собрание специальным образом обработанных текстов в электронном виде — это очень удобный современный инструмент лингвистических исследований. Раньше, когда лингвисту надо было искать примеры, он читал книги с карандашом и выписывал примеры на карточки. Это была сложная, трудоемкая, затратная работа, которую корпус колоссально упростил. Все, что нам нужно, можно легко и быстро найти.

Казалось бы, ну и что? Ну, еще один инструмент. Но когда корпусом стали пользоваться, то оказалось, что это не просто инструмент, а такой инструмент, который сильно меняет наши представления о том, чем мы занимаемся, что такое язык и как надо его изучать. 

Мы как носители русского языка, и к тому же лингвисты, каждый день  пользуемся родным языком, за свою жизнь прочли и услышали на нем массу текстов. Почему именно корпус сыграл такую существенную роль в изменении представлений о языке?

В. П.: Корпус позволил лингвистам получить быстрый доступ к огромным массивам разнообразных текстов. И тут выяснилось, что на самом деле лингвисты плохо себе представляли, что такое тексты, как они устроены. Когда мы начали работать с корпусными материалами, обнаружилось огромное количество того, что мне бы в голову не пришло сказать. 

Первое желание, конечно, — отбросить все это как неправильное. Когда мы начинали внедрять корпус, нам говорили: 
— У вас очень плохие примеры. Вот откуда у вас такое? Из газеты? Кто ж газету берет!
— Хорошо, а вот этот пример из художественной литературы… 
— Ну, художественная литература! Писатели! 
Получается, что шаг вправо, шаг влево, и все какой-то не тот русский язык. 

На самом деле у любого человека языковой репертуар ограничен. Русский язык — это не пересечение, а объединение репертуаров 250 миллионов носителей, и у них у всех разный язык.

Да, писатели любят экспериментировать, но в рамках системы своего языка. Да, в газетах всякое бывает, но интересно, что именно бывает! Это был очень наглядный урок: не злоупотреблять нормализаторством, забыть про «правильно — неправильно», «плохой или хороший» язык. Приходилось себя переучивать: то, что есть, особенно то, что часто употребляется, — то и есть русский язык, нравится нам это или нет.

Значит, исследователь не может полагаться на свою интуицию?
В. П.:  Не просто не может, а в определенных случаях и не должен. И учит этому именно корпус. Это был удар по самолюбию лингвистов: даже специалист не всегда знает, как можно по-русски сказать. Лингвистика в 1970–1980-х годах была полна утверждений типа «согласно моей интуиции такие-то наречия сочетаются с такими-то глаголами, а остальное невозможно». Такие утверждения корпус опровергает; тихо, аккуратно, но опровергает. И сейчас, мне кажется, так рассуждать уже перестали, и это правильно: где меньше субъективизма, там больше науки. Но это не единственный урок корпуса. 

Отказаться от нормализаторства, не доверять интуиции, учитывать репертуар разных говорящих. А еще какой урок?

В. П.: Корпус меняет нашу теоретическую оптику. Если мы с этой новой точки зрения посмотрим на классические теории языка, мы увидим, что эти теории все немного странно устроены. Формат XX века — это мало примеров, тщательно отобранный материал и сложная красивая конструкция. Когда работаешь с корпусом, материала всегда много, слишком много. И этот материал к тому же сопротивляется красивым схемам. 

Лингвисты XX века любили говорить о языке, что это стройная система правил (часто добавляли, что она врожденная), своего рода мощная компьютерная программа, которая работает без сбоев у любого обычного младенца, а теория языка должна вскрывать эту стройную систему. Конечно, бывают речевые ошибки, но это маргинальная вещь, которой вообще-то неприлично заниматься. Появление корпусов этот тип рассуждений подрывает, потому что не получается выдать язык за стройную систему правил. Когда примеров много, никакая теория их все не объяснит. Всегда будут два-три случая, которые в нее не укладываются. 

Как тогда выглядит язык, если смотреть на него из корпуса?

В. П.: Если смотреть на язык из корпуса, то язык исчезает. Вместо него остаются тексты, речь. Нас всех учили, что лингвистика — это наука о языке. А почему не о речи? О текстах? Говорят, что тексты вторичны, потому что они построены по правилам языка. Но этих правил никто не видел, и мы даже не знаем, существуют ли они на самом деле, а тексты — вот они, перед нами. В корпусе. 

Классики лингвистики сравнивали язык то с шахматными партиями, то с алгоритмами. Но, кажется, языку больше подходят другие метафоры. Это не строгие правила, а скорее слабо управляемый хаос. 

Причем этот хаос еще и меняется со временем. При передаче от поколения к поколению он никогда не сохраняется в неизменном виде: дети, усваивая язык от родителей, обязательно что-то меняют. Кроме того, на синхронном уровне есть масса точек в языке, где мы сами не знаем, как сказать, ошибаемся, не уверены, говорим и так, и так. И это даже в языках типа русского, с богатой литературной традицией, со школой, с нормированием, где эти колебания не так заметны. 

То есть для красивой, стройной системы правил язык ведет себя странно. Он и меняется, он и колеблется, и сами говорящие не знают, как правильно... 

Вроде бы это все известные вещи. Почему они не попадали в поле зрения теоретической лингвистики? 

В. П.: Про это просто не думали, вытесняли из сознания. Хотя и в лингвистике XX века, конечно, были теоретики, которые шли против течения. Они стали появляться в 1960-е, 1970-е годы, их было немного. Например, в 1960-е годы в Институте русского языка была придумана программа изучения разговорной речи. У ее истоков стоял Михаил Викторович Панов, потом эту работу продолжила Елена Андреевна Земская со своими сотрудниками. Это была тоже по-своему корпусная идея. 

Когда устная речь носителей языка, причем высокообразованных носителей, была аккуратно и точно записана, люди не могли поверить, что это действительно русский язык — настолько он отличается от привычной письменной нормы. Вся повседневная жизнь пронизана этими репликами и диалогами, но их просто не замечали. 

Появление корпусов производит переворот и в практике, и в теории. Корпус ставит перед лингвистами вопрос: «Точно ли вы понимаете, что именно вы изучаете?» Так корпус оказывается не просто инструментом, а источником нового теоретического поворота в современной лингвистике. 

Какие теории оказались готовы двигаться в новом направлении?

В. П.: Теории эти называются по-разному. В самом широком смысле мы говорим о функциональной лингвистике, в более узком смысле — это так называемые модели, ориентированные на узус (usage-based theories), в синтаксисе к ним относят грамматику конструкций. Многие из них появились независимо друг от друга, но характерно, что приверженцы этих теорий много и охотно пользуются корпусами. С другой стороны, те, кто активно пользуется корпусами, скорее всего, выберут из большой палитры современных теорий именно эти. 

В чем состоят главные постулаты таких теорий? Что они думают об устройстве языка, о том, как дети овладевают языком?

В. П.: Они отрицают существование жесткой грамматики, заранее заданных правил. Может быть, правил в школьном смысле в языке вообще нет. И, что самое важное, их нет у носителя в голове. 

Как человек овладевает языком? Он слышит много всего и начинает говорить по аналогии… Примерно так же, как это делает нейросеть.

Известно, что успехи нейросетей в разных областях очень неравномерные, в каких-то случаях им доверять совершенно нельзя. Но что нейросеть делает прекрасно, так это строит лингвистические модели: она пишет стихи, плохие, но гладкие, сочиняет заявления об отпуске... Почему? Потому что у нейросети в распоряжении огромные корпуса. Конечно, никакой грамматики у нейросети нет и быть не может. Более того, она, естественно, не понимает содержание того, что порождает. Но наличие большого корпуса позволяет таким программам легко имитировать языковые образцы с высокой степенью совершенства. 

Есть подозрение, что у человека в голове есть нечто вроде такой нейросети, а вовсе не глаголы третьего спряжения, не синтаксис падежей, вообще не то, что лингвисты тщательно придумывали. Даже если все это в каком-то виде есть, мы уж точно должны сместить акценты. 

Функциональные теории в этом месте расходятся с формальными. В чем их главные противоречия? 

В. П.: Формальная лингвистика говорит: не может ребенок овладеть языком, если у него нет в голове жесткой грамматики. С детьми очень мало говорят, но достаточно совсем небольшой порции языковых данных, чтобы у них сами собой активировались врожденные алгоритмы. Психолингвисты обычно на это возражают: нет, с детьми говорят много, причем в течение нескольких лет, и только после этого дети постепенно начинают говорить. Это не очень похоже на активацию врожденного механизма — больше похоже на постепенное обучение путем имитации. 

Известно, что ребенок начинает с несовершенных образцов речи, но постепенно говорит все лучше и лучше, и к пяти — семи годам овладевает родным языком. За этот срок в него успевает загрузиться достаточный по объему корпус. Не только дети, но и вообще люди в целом так устроены. Мы легко говорим о том, что уже знаем, что у нас уже есть в голове. 

Корпус дает нам целую философию: язык — это имитация, грамматики нет. Поэтому он так сильно меняется при межпоколенческой передаче. Поэтому мы так часто ошибаемся, поэтому в языке так много исключений.

Теоретическая лингвистика, я думаю, пришла бы к этим выводам все равно, но без корпуса это было бы гораздо дольше. 

Значит ли это, что различение того, что в языке возможно и невозможно, перестает быть актуальным? 

В. П.: Отличный вопрос. Как нас учили? Модель языка должна описывать не только то, что мы непосредственно зафиксировали в конкретном тексте, но и то, что в принципе может — или не может — быть в языке. И это казалось завораживающе глубокой мыслью. Но если посмотреть со стороны корпуса, то это очень странная идея: «Описывай не то, что видишь, а то, чего ты увидеть не можешь». 

Владимир Плунгян
Источник: Wikimedia Commons

Представьте себе, человек делает указатели для города. Вот такая-то улица, вот такая-то площадь, а вот здесь должен быть знак поворота. Ему говорят: у тебя отличные указатели, но ты еще покажи, куда мы не сможем доехать, — какой-нибудь район, которого не существует на карте, дорогу, которую еще не построили. Человек говорит: а зачем? В моем указателе есть все, что нужно тем, кто ездит по этому городу здесь и сейчас. Ему отвечают: да, у тебя прекрасный указатель, но в нем нет теории езды по городу. Но ведь мой указатель работает — а тем, где будет «теория», никто пользоваться не захочет…  Получается, что такая теория практически бесполезна, хотя она гордо приписывает себе «предсказательную силу». Но прежде чем предсказывать несуществующее, нужно по-настоящему понять и описать существующее! А то, как это существующее выглядит, мы понимаем благодаря корпусам.

В этом смысле, кстати, филологи-классики были стихийными корпусными лингвистами. Потому что для мертвых языков есть только тексты. Когда филолога-классика спрашивают, возможна ли такая-то конструкция в латинском языке, он отвечает единственное, что может ответить: в текстах известных нам авторов такого нет. 

Вопрос не только в том, как можно сказать, но не говорят. Теория должна объяснять, как сказать нельзя и почему. Должны же быть какие-то ограничения?

В. П.: Корпус здесь может предложить другую повестку: язык нужен человеку для того, чтобы обеспечивать какие-то потребности этого социума. И люди непрерывно с помощью языка это делают. То есть язык нужен человеку, чтобы говорить о чем-то для него важном, существенном. Значит, если мы нечто находим в корпусе в большом количестве, мы должны именно это и описать. 

Наше описание должно моделировать владение языком человека. А что такое владение языком? Эту умение говорить о важном. Значит, в первую очередь должна быть описана частотная, базовая часть, во вторую очередь — то, что в принципе есть, но маргинально. А если чего-то нет вовсе… 

…то этим и не надо заниматься?

В. П.: А зачем? Конечно, язык — творческая вещь, с помощью языка можно говорить о чем угодно, в том числе о том, о чем никто никогда до этого не говорил. Но люди это делают крайне редко и с большим трудом. Наверное, про это тоже надо думать, но уж точно не в первую очередь. 

Люди мыслят шаблонами, клише, фреймами, как говорят когнитивные лингвисты. И вообще, вот всем этим мусором, который просто у нас в голове застрял. 99% того, что мы делаем, когда пользуемся языком, это вспоминаем: как это было сказано? как это можно воспроизвести? Речевая деятельность — это извлечение: мы заглядываем в наш ментальный корпус и извлекаем оттуда то, что там уже есть. 

Тогда получается, что очень много в том, как мы себе представляем язык и его описываем, зависит от качества корпуса. Может, мы какие-то группы населения вообще не учитываем, не знаем, как они говорят и пишут. 

В. П.: Именно так, и в русистике таких проблем было много. Например, всем известная литературоцентричность. Для нас образцовый язык, тот, который надо изучать, — это язык писателей. Это связано с особенностями русской культуры, с тем, что весь нерв русской жизни был именно в художественной литературе. Корпус литературных текстов загружен в голову у большинства носителей русского языка, которые учились в школе. До сих пор считается, что важно прочитать Достоевского, Пушкина, Лермонтова, знать эти тексты. Но все-таки язык писателей, даже самых лучших, это не весь русский язык. И корпус, в котором все эти тексты будут (и есть), на это смотрит спокойно и дает место и другим текстам. Корпусный лингвист никогда не скажет: «Широк язык — я бы сузил!»

Корпус, так сказать, и Достоевского переварит, и какого-нибудь калужского мужика. Это все — русский язык со своим широким диапазоном. 

Это непривычный взгляд и для традиционной русистики, и для нормативной грамматики, и для большинства теорий XX века — структурных, формальных теорий языка. И возник этот взгляд благодаря корпусам.

Хотя, надо сказать, появление больших корпусов — это не вполне наша заслуга, нам их подарила компьютерная революция, интернет. Если бы тексты оцифровывали лингвисты, они еще сто лет бы этим занимались. А тут мы буквально проснулись однажды утром, вошли в интернет, а там уже есть все. Мир как будто говорит нам: «Вы, лингвисты, изучайте тексты. Пусть у вас их будет много и пусть они будут разные». Лингвисты, мне кажется, должны прислушаться к миру. И, в общем, они уже идут этим путем.

· главный редактор Грамоты, кандидат филологических наук, старший научный сотрудник ИРЯ им. В. В. Виноградова РАН

Еще на эту тему

Кому и зачем нужен Национальный корпус русского языка

Получить всю картотеку одним кликом и другие, менее очевидные возможности специальных корпусов

Почему языки такие разные

Пять современных книг о словах и смыслах

все публикации

Луи Брайль, человек-шрифт

Самый удобный тактильный алфавит изобрел двести лет назад незрячий подросток


Как искусственный интеллект изменит возможности Грамоты

Умный поиск, обновленная Справка и текстовый робот-ассистент


Как цифровизация помогает сохранить языки коренных народов России

Голосовые помощники, цифровые учебники и онлайн-переводчики вносят вклад в создание языковой среды


Лошадь, колесо и язык. Как наездники бронзового века сформировали современный мир

Распространению праиндоевропейского языка помогли верховая езда и боевые колесницы


Как к вам лучше обращаться?

Приключения дамы и господина в России


Темная тайна «дня»: куда убежали беглые гласные

Почему слова «сон» и «слон» склоняются по-разному



Поэтический перевод как прыжок в невозможное

Переводчик современной китайской поэзии Юлия Дрейзис хочет заставить русский язык передать не только смысл, но и форму оригинала


Что мешает специалистам писать понятные тексты

В книге «Чувство стиля» психолингвист Стивен Пинкер предлагает решения, основанные на данных когнитивной психологии


Миф о врожденной грамотности и правда о тех, кто пишет без ошибок

Как развить в себе орфографические суперспособности


На канале «Глагольная группа» вышел стрим о феминитивах

Что лингвисты думают об «авторках» и о влиянии волевых решений на развитие языка


Что такое академическая наука

Члены РАН ответили на наши вопросы перед юбилеем Академии


Юрист оценила последствия борьбы с иностранными заимствованиями

В результате запретов может пострадать бизнес, особенно торговля и реклама


В издательстве «Иллюминатор» вышла книга воспоминаний переводчика Григория Кружкова 

Как киплинговский паттеран превратился в кочевую звезду из «Жестокого романса»



На канале «Основа» вышел разговор с Александром Пиперски

Как устроены ударения в русском и на каком языке говорит ИИ


Сохранение авторского стиля при переводе: искусство грамотно спотыкаться

Как передать чужой синтаксис своими средствами, рассказывает переводчик Наталья Мавлевич


Нейросеть помогает работать с церковнославянскими рукописями

Электронные издания старых книг могут заменить архивы


Россия и Русь, россияне и русские: откуда пошли эти самоназвания

Как они возникли, почему раздвоились и при чем тут греки с римлянами


Вышел в свет шестой выпуск журнала «Русская речь» за 2023 год

Лингвистический ландшафт российских городов и глокая куздра, которая изначально была кудматой бокрой