Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Новогодняя игра: Грамота предсказывает будущее. Хочу погадать!
Хочу погадать!

Проект по изучению языка Wordfreq закрылся из-за загрязнения данных нейросетями

В середине сентября Робин Спир, создательница проекта Wordfreq, который анализировал использование языка в интернете, объявила о том, что размещенная на нем информация больше не будет обновляться. В своем посте на платформе для разработчиков GitHub она объяснила свое решение тем, что среди данных для анализа оказалось слишком много «мусорных», и обвинила крупные компании, разрабатывающие генеративные нейросетевые модели, в создании «беспорядка».

Проект Wordfreq фиксировал частоту употребления лексики сорока с лишним языков, изучая статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях. Система предназначалась для оценки языковых привычек людей, сленга и популярной культуры. Однако в последнее время присутствие сгенерированных искусственным интеллектом данных среди человеческих текстов стало настолько выраженным, что результаты перестали отражать языковое поведение человека.

Робин Спир утверждает, что «ни у кого нет надежной информации о том, как люди пользовались языком в период после 2021 года».

Спир отметила, что веб-скрейпинг (автоматизированный сбор данных с сайтов) был важным источником данных для проекта, но теперь интернет полон «мусора», который искажает сведения о частоте употребления слов. В качестве примера она привела «склонность» ChatGPT злоупотреблять словом delve (‘рыться’, ‘копать’), что повысило его частоту в общей выборке (хотя люди на самом деле не стали употреблять его чаще). Спир также отметила, что данные веб-скрейпинга стало сложнее добывать, так как платформы вроде Twitter (ныне носящий название X) и Reddit начали взимать плату за доступ к своим API. 

Спир признала, что в данных Wordfreq всегда был спам, но раньше его можно было отследить и вычистить. Теперь же большие языковые модели генерируют текст, который маскируется под человеческий, и он всплывает повсюду. Она добавила, что проект Wordfreq был связан с обработкой естественного языка, но теперь сама область сильно изменилась: «...генеративный ИИ получает все деньги. Редко можно увидеть исследование в области естественного языка, которое не зависело бы от закрытых данных, контролируемых OpenAI и Google, — двумя компаниями, которые я презираю», — заявила Спир.

Портал «Грамота.ру»

Еще на эту тему

В онлайн-продаже обнаружены книги о сборе грибов, сгенерированные нейросетями

Эта проблема может привести к трагедии, предупреждают специалисты

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

Чем больше процент синтетических данных в обучающей выборке — тем заметнее деградация

Языковые модели оказались хорошими помощниками в написании рассказов — но не для всех

В способности к творчеству моделям пока далеко до человека

все публикации

Чем нас удивляет японская языковая картина мира

На выбор речевых форм влияет статус, возраст, пол собеседников, степень их близости



Как измерить сложность и сбалансированность языка в учебниках?

Об этом — статья Антонины Лапошиной и Марии Лебедевой в журнале «Русский язык в школе»



Тест: в каком предложении правильно расставлены запятые?

Вспоминаем, как оформляются причастные обороты, однородные члены предложения и вводные слова


Шиликун в озере и постен на стене: как в разных регионах зовется хтонь 

Лингвист Ирина Фуфаева о происхождении названия одного псковского домового


Ненецкий счет, русское яканье и экзотический язык Новой Гвинеи на портале «Элементы»

Решение лингвистических задач позволяет нелингвистам больше узнать об устройстве языка


Необычные игры в слова: пять вариантов для интеллектуальной вечеринки

Одна из них родилась после визита Индиры Ганди, а другая вдохновлена корпусной лингвистикой



Что такое достаточно хорошая речь сегодня: главные критерии

Хорошая речь по-прежнему должна быть чистой, точной, ясной, но в первую очередь — уместной


Как чаще всего возникали неологизмы в коронавирусную эпоху

Словообразование и фразеология в шестом номере журнала «Русская речь» за 2024 год


Новогодний тест: где нужны прописные буквы?

Проверьте, хорошо ли вы помните правила правописания слов и выражений, которые нужны раз в году



Фантастические слова в поисковых запросах Грамоты: окказионализмы 2024 года

Омбомодор, пледовитая и мангобездарь ковшкручинятся из-за вырожжерика


Смех не без причины: лингвисты изучили языковые особенности «пирожков» и «порошков»

Новая книга Максима Кронгауза и Марии Ковшовой рассказывает об интернет-поэзии



Математик Константин Воронцов: «Текст становится тормозом развития цивилизации»

Специалист по цифровой гуманитаристике — о том, как нейросети меняют работу с языком и к чему стоит готовиться педагогам


Язык поколений: в чем разница между лексиконами зумеров, миллениалов, бумеров и иксеров

Поколенческие черты не ограничиваются лексиконом, но лингвисты не видят языковых препятствий для взаимопонимания



Тест: как правильно расставить ударения?

Двадцать не самых сложных и очень нужных слов, в которых лучше не ошибаться


1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!