Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное.

Но запасы созданных человеком письменных текстов иссякают. Исследовательская компания Epoch AI прогнозирует, что дефицит «живых» текстовых данных может наступить уже в ближайшие пять лет. Эксперты представили экстраполяцию (прогнозы оценки значения переменной за пределами исходного диапазона наблюдений) тенденций в создании текстов людьми, а также потребностей нейросетей в обучающих данных, и пришли к выводу, что кризис наступит примерно между 2026 и 2032 годом.

В этих условиях все больше компаний рассматривают возможность использования синтетических данных — таких, которые порождены нейросетями по образу и подобию человеческих текстов. В 2021 году исследовательская фирма Gartner предполагала, что уже в нынешнем году 60% данных, используемых для тренировки нейросетей, будут иметь машинное происхождение.

Но синтетические данные создают другую проблему. В недавней статье, опубликованной группой исследователей из Оксфорда и Кембриджа, говорится, что введение в модель слишком большого объема сгенерированных данных в итоге приводит к ее деградации. В принципе использовать такие данные можно, но они должны быть сбалансированы «живыми», чтобы модель выдавала адекватные результаты.

Вероятно, компаниям-разработчикам придется менять подходы к созданию и обучению нейросетей, чтобы обеспечить их качественную работу. Ведь просто заставить всех людей круглосуточно производить новые уникальные тексты, чтобы удовлетворить растущие «аппетиты» моделей, не получится.

Портал «Грамота.ру»

Еще на эту тему

Создать себе подобных: как люди придумали чат-ботов

От первых программ с запрограммированными сценариями до современных моделей-трансформеров

Нейросеть выучилась понимать язык без использования текстовых данных

Она смогла самостоятельно установить смысловую связь между звуками и образами, просматривая миллионы видеороликов

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей

все публикации

«Розенталь хотел, чтобы мы гибко подходили к языку»

Заведующий кафедрой стилистики русского языка факультета журналистики МГУ Владимир Славкин — о том, что отличало Дитмара Розенталя как автора, педагога и консультанта

Лингвист Борис Иомдин рассказал в подкасте «Покажи язык» про язык как средство разобщения

Коммуникативные неудачи могут возникать из-за различий в возрасте и опыте

Михаил Острогорский требует от технических текстов понятности, однозначности и четкой структуры

Технический писатель — о коммуникативной задаче и языковых особенностях хорошей документации

Лингвист Александр Летучий написал книгу о сложностях русского синтаксиса

Автор показывает на примерах, как синтаксис связан с интонацией и со значением слов

Галифе, макинтош и лошадь Пржевальского: какие бывают эпонимы

Мария Елифёрова рассказывает об именах, которые прошли путь из собственных в нарицательные

Как сохранить нивхский и другие малые языки? Интервью лингвиста Павла Гращенкова

Языки ценны не только как культурное наследие, но и как источник данных для науки

Тест: что значило это слово во времена Екатерины II?

Проверьте, насколько хорошо вы понимаете русский язык XVIII века

Как появилось табу на имена животных, растений, духов и колдунов

Вышло переиздание классического труда этнографа Дмитрия Зеленина

«Ужастно симпотичный»: что такое гиперкоррекция и к каким ошибкам она приводит

За каждой ошибкой от старательности лежит правило, которое применили не к месту

Как учат иноязычных детей в разных странах мира

Каждый ребенок имеет право на образование — даже если он пока не знает языка, на котором говорят в школе

День борьбы с ненормативной лексикой: можно ли обойтись без мата?

Обсценная лексика есть во всех языках, но в русском она сильнее табуирована

Тест: выберите правильный пароним!

Похожие слова часто становятся источником путаницы и ошибок

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!