тексты | Журнал | Поиск по Грамоте

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они ...

...Википедии, а затем попросили модель сгенерировать тексты...

...Далее они включили эти сгенерированные тексты в ...

...представлять собой сгенерированные данные, а не тексты...

Заходите в наш портал!

Формы организации текстового материала в Интернете весьма разнообразны. Не претендуя на формирование понятий, связанных с Интернетом, попробуем разобраться в семантике тех слов, которые, используя Интернет, мы уже часто употребляем, хотя они еще не получили своего места в лексической системе русского языка.

...Формы организации текстового материала в Интернете...

...Условно виртуальные тексты по способу образования и...

...nbsp;отредактированные, то есть написанные заранее тексты...

...Вне зависимости от условий их появления в Сети, тексты...

Исследование: при слепом тестировании сгенерированные стихи понравились больше «человеческих»

Исследователи из Питтсбургского университета оценили, как воспринимаются стихи, созданные искусственным интеллектом, по сравнению с настоящей поэзией. Для этого они провели два эксперимента. Был создан пул из ста стихотворений, половина из которых была взята у таких классиков, как Уильям Шекспир, Джордж Байрон, Уолт Уитмен, Эмили Дикинсон и других. Вторая половина была сгенерирована ChatGPT 3.5 на основе стиля этих авторов. В первом эксперименте 1,6 тыс.

...Первой группе сообщили, что все тексты созданы ИИ (...

...то люди предпочитают настоящую поэзию, а не тексты...

...успехами нейросетей, а тем, что они создают простые тексты...

Маргиналы цифрового мира: можно ли улучшить распознавание редких языков

Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках. Этот пример отражает более ...

...Например, тексты на навахо — наиболее распространенном...

...американцев — система распознает неправильно, как тексты...

... Дополнительный набор содержал тексты на родственных...

Языковые модели хуже обрабатывают середину текста

Исследователи из Массачусетского технологического института (MIT) нашли объяснение так называемого U-образного эффекта, который характерен для больших языковых моделей вроде ChatGPT. Суть этого эффекта в том, что модели обрабатывают разные части текста с разной точностью. Чем дальше от центра текста, тем точность выше (отсюда и название — график точности имеет спад в центре, отчего становится похож на букву U). Что это означает? Например, если модели нужно ...

...же эффект возникает, когда модель обобщает большие тексты...

...Если тексты, которые вошли в обучающую выборку...

...nbsp;начале и в конце (например, обучающие тексты...

Владимир Плунгян: «Первый урок корпуса — не злоупотреблять нормализаторством»

Как изменилось наше представление о языке после появления корпусов текстов, в частности Национального корпуса русского языка? Использование корпуса в практике лингвистических исследований уже стало общепринятым, а что дают корпусные данные теоретикам? Какие явления следует изучать в первую очередь и почему лингвисты не должны опираться на интуицию? Об этом Грамота поговорила с академиком РАН, заместителем директора Института русского языка им. В. В. Виноградова Владимиром Александровичем Плунгяном.

...Как изменилось наше представление о языке после появления...

...деле лингвисты плохо себе представляли, что такое тексты...

...Вместо него остаются тексты, речь....

...Потому что для мертвых языков есть только тексты....

«Простое прилежное читание»

Учебная книга формирует наше мировоззрение, поддерживает связь поколений и укрепляет культурную традицию. Но в традициях обучения есть и различия, которые вносят время и культура региона. Особенно эти различия заметны в книгах, предназначенных для обучения языку.

...Учебная книга формирует наше мировоззрение, поддерживает...

...ориентировалось на канонические (богодухновенные) тексты...

...правила грамматики, а тот, кто много читает и знает тексты...

...и заучивая наизусть «богодухновенные» тексты...

Чат-боты GPT и другие: что думают лингвисты о больших языковых моделях

Со второй половины 2010-х годов компьютерные языковые модели совершили революцию в обработке текстов. Они научились осмысленно отвечать на вопросы, делать переводы, писать рассказы и даже романы. Лингвисты восприняли эту революцию неоднозначно: кто-то — с оптимизмом, а кто-то — со скепсисом.

...Со второй половины 2010-х годов компьютерные языковые...

...машина будет переводить, суммаризировать и порождать тексты...

...модель при ответе на вопрос выдает немного разные тексты...

...«От того, какого типа тексты к ним поступают,...

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Нейросети учатся на текстах, созданных человеком. Но...

...У нас есть тексты, написанные учащимися....

...Вообще, если есть хоть какие-то тексты, можно быстро...

...Нужно ли маркировать сгенерированные тексты?...

Создан инструмент выбора текстов в помощь учителям малых языков России

К малоресурсным относятся те языки, которые имеют ограниченное количество данных, доступных для анализа и обработки. Это затрудняет обучение нейросетевых моделей работе с этими текстами. Для русского или английского языков давно существуют инструменты, которые автоматически оценивают сложность текстов. Но для малых языков их практически не было. Психолингвисты НИУ ВШЭ разработали онлайн-инструмент, предназначенный для определения сложности малоресурсных ...

...калькулятор будет считать абсолютно все адыгейские тексты...

...пригодится и учителям (чтобы быстро отбирать тексты...

...ученым-лингвистам (в экспериментах важно, чтобы тексты...

Почитать на грамоте