Как современные технологии помогают оценить сложность текста
Как убедиться, что текст достаточно прост и понятен — например, для детей определенного возраста, иностранцев или людей с ментальными особенностями? Сегодня определить уровень доступности текста помогают не только разнообразные формулы читабельности, но и искусственный интеллект. О возможных подходах к оценке текстов разных типов Грамота расспросила кандидата педагогических наук Антонину Лапошину, специалиста по компьютерной лингвистике в лаборатории когнитивных и лингвистических исследований Института Пушкина.
Грамота: На что опираются системы оценки сложности/читабельности текста?
Антонина Лапошина: Формулы читабельности исходят из вполне очевидного предположения: чем длиннее предложения и слова в тексте, тем он, вероятно, сложнее.
Например, формула удобочитаемости Флеша, разработанная в США в середине XX века, опирается на среднюю длину предложения (в словах) и среднюю длину слова (в слогах). Эта формула приписывает тексту определенный балл; чем выше этот балл — тем текст удобнее читать, то есть он проще. Кстати, формула Флеша до сих пор есть в стандартном редакторе Word: нужно зайти во вкладку «Правописание» и найти раздел «Удобочитаемость».
Плюсы подобных базовых формул в том, что они построены на простом и понятном принципе и с их помощью можно быстро выделить в наборе текстов более сложные и менее сложные. Минусы вытекают из плюсов: простой количественный критерий оценивает тексты слишком грубо.
Длинные слова не обязательно будут сложными, а короткие не всегда будут понятными; сравним, например, слова здравствуйте и бор.
Текст может быть написан короткими словами и фразами, так что стандартные формулы читабельности оценивают его как простой, но при этом продраться сквозь незнакомые слова или стилистические особенности удается не всем.
В дальнейшем исследователи пытались найти более точные признаки сложности текста: например, некоторые формулы используют списки наиболее простых и понятных слов, учитывают грамматику языка, связность текста, дискурсивную сложность.
Как повлияли современные компьютерные технологии на эту область исследований?
А. Л.: С появлением алгоритмов машинного обучения картина сильно изменилась. Теперь у нас есть возможность собрать большую коллекцию текстов и выявить самые разные, далеко не всегда очевидные, признаки этих текстов.
Для любого текста можно подсчитать относительное количество имен в родительном падеже, причастий и деепричастий, прилагательных в превосходной степени, глаголов в третьем лице и сотни других параметров.
На основании этих признаков мы можем обучить модель определять уровень сложности незнакомого текста. По такому принципу работает наш сервис «Текстометр». Мы его обучили, загрузив в него почти три тысячи текстов, уровень сложности которых мы уже знаем, и около 150 лингвистических показателей.
Для любого нового текста, который пользователь загружает в систему и хочет оценить, «Текстометр» автоматически определяет значение каждого из 150 показателей, сравнивает по этим показателям новый текст с нашей базой текстов и находит похожие. Не все показатели мы выводим на экран: пользователю вряд ли интересно, какая доля существительных в родительном падеже есть в его тексте, но для алгоритма это важно.
На следующем шаге алгоритм анализирует, какой уровень сложности эксперты приписывали похожим текстам из базы, и приписывает такой же уровень новому тексту.
Для чего может пригодиться вычисление сложности текста?
А. Л.: Я бы выделила несколько областей практического применения. Первая связана с определением сложности учебных текстов для школьников и студентов. Здесь от уровня доступности текстов зависит качество усвоения материала, а порой, возможно, интерес и мотивация к дальнейшей учебе.
Второе направление — это создание текстов для иностранцев, которые учат русский язык.
Текст на иностранном языке — это не только источник информации, но и языковой материал для изучения.
То есть из текста про дельфинов читателю нужно не столько узнать что-то о дельфинах (хотя это тоже важно), сколько усвоить новую лексику, разобраться, как функционируют в тексте грамматические формы и т. п.
Третья большая группа вопросов связана с текстами, которые сложно воспринимать даже взрослому среднестатистическому читателю: это правовые тексты. Здесь избыточная сложность текста имеет социальные последствия: и государство, и граждане заинтересованы в том, чтобы хорошо понимать документы, определяющие их права и обязанности.
Что такое простой язык и как его освоитьНе «осуществили проведение данных мероприятий», а «сделали это»Со сложностью правовых текстов тесно связана проблема канцелярита. Думаю, многим знакомы подобные письма: Для предотвращения реализации угроз безопасности информации департамент цифрового развития обращает внимание на обязательное выполнение всеми сотрудниками следующих мер защиты... Эта проблема существует во всем мире, и сейчас везде уделяется большое внимание стилю изложения правовой информации, ее однозначности и доступности для понимания.
Наконец, есть еще одна область, где важно оценивать сложность текстов: это тексты, написанные для взрослых людей с ментальными особенностями или другими трудностями восприятия информации. Например, за рубежом издаются газеты, написанные ясным языком; у нас выпущен гайд Сбербанка, где объясняется, как описывать банковские продукты ясным языком.
Значит, в каждом случае будут действовать свои критерии? Простой текст для иностранца и простой текст для школьника будут отличаться?
А. Л.: Да, и очень сильно. Этот вопрос, кстати, связан с более глобальным вопросом: как мы осваиваем родной язык и как изучаем иностранные. Например, если нам нужно выбрать текст для первоклассника, что мы выберем? Наверняка сказку или рассказ с простым сюжетом. Здесь на первый план выходит простота сюжета и короткие предложения. Нас не смутят сложные слова (избушка, лукошко и т. п.), устаревшие обороты, необычный порядок слов (в домике том жили три медведя): что-то ребенок поймет из иллюстраций, что-то дофантазирует. И уж точно вы не будете переживать из-за грамматических конструкций:
А он поймет превосходную степень прилагательного и аналитическую форму будущего времени глагола?
Если же мы покажем эту сказку иностранцу с начальным уровнем знания языка, для него чтение может стать пыткой. Он увидит в нем непонятные и — что самое обидное — бесполезные слова (какова вероятность, что ему придется рассуждать о лукошке и избушке на первом году обучения?) и незнакомые грамматические конструкции.
Уровни сложности текста для иностранцев стандартизированы и задокументированы. Есть признанная система уровней владения языком CEFR, где A1 — элементарный уровень, A2 — базовый, и т. д. Для каждого уровня составлены списки необходимой лексики и грамматических тем. Учебники для иностранных учащихся тоже в подавляющем большинстве маркируются этими уровнями. Поэтому в технологическом смысле задача определения уровня сложности текста с позиции иностранного учащегося проще.
Русский язык за пределами России: как поддержать тех, кто его любит и хочет знатьК историческим связям необходимо добавить школы, учебники, культурные программыПалитра возможных причин сложности текста для школьника шире: это устаревшие и низкочастотные слова, термины без толкований, сложные синтаксические конструкции, отсутствие дискурсивных связок между предложениями, сложный художественный стиль.
Если мы хотим строить шкалу сложности текстов для носителей языка, то к чему мы будем привязывать эту шкалу? Чаще всего приходится оперировать возрастом и классом, но в одном классе или в одной возрастной группе могут быть люди с очень разными способностями и уровнем подготовки.
Вы считаете, что, когда школьник имеет дело со сложным текстом, это всегда плохо? А как же тогда научиться преодолевать сложности?
А. Л.: В идеальном мире текст должен находиться в зоне ближайшего развития ребенка: отбить познавательный интерес может как слишком сложный текст, так и слишком простой и очевидный. Причем связь интереса к теме и сложности текста работает, судя по всему, в обе стороны.
Ряд исследований говорит о том, что личный интерес ребенка к определенной теме помогает ему преодолеть языковую сложность текста на эту тему.
А с другой стороны, показана связь посильности текстового материала с дальнейшей активностью школьников на уроке: иногда доступность текста положительно влияет на интерес к теме и ее обсуждению.
Можно ли применять вашу технологию к художественной литературе?
А. Л.: Любопытный эксперимент недавно провела редакция «Системного Блока»: они посмотрели, какой художественный текст окажется сложнее по формальным признакам — «Котлован» Андрея Платонова или «Школа для дураков» Саши Соколова. А потом задали этот же вопрос своим подписчикам в соцсетях. По оценке «Текстометра», «Котлован» оказался сложнее. Он получил 72 балла сложности из 100, а вот «Школа для дураков» — только 38. Большинство подписчиков (61%) также посчитало текст Платонова более сложным.
Напомню, «Школа для дураков» — это внутренний монолог ученика спецшколы для детей с особенностями развития, поэтому формально этот язык действительно прост: короткие, рваные фразы, мысли и переживания мальчика, где-то услышанные диалоги, зарисовки бытовых ситуаций жизни в дачном поселке. Всю художественную прелесть и сложность текста составляют замысловатые ассоциативные ряды слов, иногда никак не связанных по смыслу. Вот, например, он едет на электричке на дачу:
Это пятая зона, стоимость билета тридцать пять копеек, поезд идет час двадцать, северная ветка, ветка акации или, скажем, сирени, цветет белыми цветами, пахнет креозотом, пылью тамбура, куревом, маячит вдоль полосы отчуждения, вечером на цыпочках возвращается в сад и вслушивается в движение электрических поездов, вздрагивает от шорохов <...>. Саша Соколов. Школа для дураков
Очевидно, сложность художественного произведения — это отдельная категория, которая далеко не всегда зависит от сложности языковой: она может определяться плотностью аллюзий, многозначностью слов, степенью связности текста, непредсказуемостью эпитетов и метафор, количеством сюжетных линий и многими другими характеристиками.
Такие эксперименты помогают нам более четко понимать границы возможностей нашего сервиса и перспективы его дальнейшего развития. Сейчас мы сфокусированы на учебных текстах, хотим научиться делать их посильными и в то же время вовлекающими, мотивирующими к учебе.
Какие открытые ресурсы вы можете порекомендовать для оценки сложности текста?
А. Л.: Тем, кто пишет тексты для широкой аудитории, будет полезен проект «Простым языком» Ивана Бегтина. Он оценивает текст по нескольким самым распространенным метрикам читабельности и выдает усредненный результат: возраст и уровень образования, на который текст рассчитан. Сервис «Главред» Максима Ильяхова определяет читаемость и информативность текста, помогает избежать канцеляризмов или излишней академичности.
Научный стиль: точность не в ущерб понятностиИм пользуются авторы учебников, исследователи, лекторы, научные журналистыА преподавателям предлагаю использовать «Текстометр». Он оценивает сложность учебных текстов в двух режимах: для иностранных учащихся и для русскоязычных школьников. Кроме того, он выдает много данных, полезных для преподавателей: количество уникальных слов, ключевые слова текста, редкие и устаревшие слова, примерное время чтения. Им очень нужен инструмент, который поможет посмотреть на текст беспристрастно:
О, вот тут я увлекся и слишком сложную конструкцию завернул! Здесь придется много лексики объяснять… А лексику из этого упражнения мои студенты уже знают, так что справятся.
Платформа RuLingva от коллег из Казанского федерального университета ориентирована на преподавателей начальной школы. Помимо метрик читабельности, система покажет, термины каких дисциплин встретились в тексте.
Ни один сервис нельзя воспринимать как волшебную палочку — это помощник и исследовательский инструмент, который надо использовать по назначению. У нас был случай, когда пользователи пытались определить, для какого возраста оптимальны матерные частушки. Выяснилось, что ученикам начальной школы эти тексты уже вполне по силам. Там действительно сложность низкая: и фразы короткие, и слова частотные, бытовые. Пришлось нам с коллегами писать алгоритмы защиты от ненормативной лексики.
Еще на
эту тему
Бумага или «цифра»? Влияние формата чтения на понимание текста
По некоторым данным, из старых добрых печатных книг мы усваиваем информацию лучше
Что мешает специалистам писать понятные тексты
В книге «Чувство стиля» психолингвист Стивен Пинкер предлагает решения, основанные на данных когнитивной психологии
В Институте имени Пушкина создали технологию лингвистической оценки учебников
В цифровом учебнике меньше агрономов и березок, зато больше программистов и бабушек