Подсказки для поиска

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное.

Но запасы созданных человеком письменных текстов иссякают. Исследовательская компания Epoch AI прогнозирует, что дефицит «живых» текстовых данных может наступить уже в ближайшие пять лет. Эксперты представили экстраполяцию (прогнозы оценки значения переменной за пределами исходного диапазона наблюдений) тенденций в создании текстов людьми, а также потребностей нейросетей в обучающих данных, и пришли к выводу, что кризис наступит примерно между 2026 и 2032 годом.

В этих условиях все больше компаний рассматривают возможность использования синтетических данных — таких, которые порождены нейросетями по образу и подобию человеческих текстов. В 2021 году исследовательская фирма Gartner предполагала, что уже в нынешнем году 60% данных, используемых для тренировки нейросетей, будут иметь машинное происхождение.

Но синтетические данные создают другую проблему. В недавней статье, опубликованной группой исследователей из Оксфорда и Кембриджа, говорится, что введение в модель слишком большого объема сгенерированных данных в итоге приводит к ее деградации. В принципе использовать такие данные можно, но они должны быть сбалансированы «живыми», чтобы модель выдавала адекватные результаты.

Вероятно, компаниям-разработчикам придется менять подходы к созданию и обучению нейросетей, чтобы обеспечить их качественную работу. Ведь просто заставить всех людей круглосуточно производить новые уникальные тексты, чтобы удовлетворить растущие «аппетиты» моделей, не получится.

Портал «Грамота.ру»

Еще на эту тему

Создать себе подобных: как люди придумали чат-ботов

От первых программ с запрограммированными сценариями до современных моделей-трансформеров

Нейросеть выучилась понимать язык без использования текстовых данных

Она смогла самостоятельно установить смысловую связь между звуками и образами, просматривая миллионы видеороликов

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей

все публикации

Тире: функции и правила постановки в русском языке

Как определять уместность постановки тире, сочетать его с запятыми и не путать с двоеточием

Ирина Левонтина: «Каждый живет в своем пузыре и не знает, что происходит в других изводах языка»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Почувствуйте себя консультантом справочной службы Грамоты

Мы предлагаем вам ответить на вопросы, которые задавали пользователи в 2025 году

Максим Кронгауз: «Разграничить язык интернета и язык вне интернета стало невозможно»

Как меняется русский язык? Лингвисты по просьбе Грамоты рассказывают о главных трендах

Зачем нам нужен язык на самом деле?

Лингвист Валерий Шульгинов — о коммуникативной и символической функциях языка

Система TALK: как общаться легче и эффективнее

Вышел перевод на русский язык книги Элисон Вуд Брукс «Простой сложный разговор»

Почему князь Святослав пил «синее вино»?

Разгадка этой и других словесных тайн — в новой книге филолога Марии Елифёровой

Оскорбление как искусство, ритуал и путь к просветлению

Рискованные речевые акты могут приносить пользу, если они встроены в традиционную культуру

Нетудашка, сердцежмяк и другие новые слова в книге Бориса Иомдина

Русский язык постоянно пополняется не только заимствованиями 

Как животные обрели свои имена: семь детективных историй о зоонимах

Водяная лошадь из Библии, загадочная страна Лемурия и слон, ставший верблюдом

Думать вредно? Чем наивная дурочка лучше продуманной твари

Лингвист Ирина Левонтина описала новое значение старого прилагательного

Способы выражения вежливости в русском и других языках

«Вежливыми» могут быть местоимения, глаголы и даже приставки и суффиксы

Катавасия, близорукость и блины для медведей: когда слова сбивают нас с толку

Народная этимология предлагает фантастические объяснения вместо научных фактов

В чем вопрос? Юбилейный тест для новичков и ветеранов Грамоты

Мы проанализировали ваши вопросы и запросы, чтобы понять, что вас волнует больше всего

Словарь аббревиатур русского языка как государственного определит нормы для разных типов сокращений

Главные трудности связаны с определением рода, склонением и произношением

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!