Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное.

Но запасы созданных человеком письменных текстов иссякают. Исследовательская компания Epoch AI прогнозирует, что дефицит «живых» текстовых данных может наступить уже в ближайшие пять лет. Эксперты представили экстраполяцию (прогнозы оценки значения переменной за пределами исходного диапазона наблюдений) тенденций в создании текстов людьми, а также потребностей нейросетей в обучающих данных, и пришли к выводу, что кризис наступит примерно между 2026 и 2032 годом.

В этих условиях все больше компаний рассматривают возможность использования синтетических данных — таких, которые порождены нейросетями по образу и подобию человеческих текстов. В 2021 году исследовательская фирма Gartner предполагала, что уже в нынешнем году 60% данных, используемых для тренировки нейросетей, будут иметь машинное происхождение.

Но синтетические данные создают другую проблему. В недавней статье, опубликованной группой исследователей из Оксфорда и Кембриджа, говорится, что введение в модель слишком большого объема сгенерированных данных в итоге приводит к ее деградации. В принципе использовать такие данные можно, но они должны быть сбалансированы «живыми», чтобы модель выдавала адекватные результаты.

Вероятно, компаниям-разработчикам придется менять подходы к созданию и обучению нейросетей, чтобы обеспечить их качественную работу. Ведь просто заставить всех людей круглосуточно производить новые уникальные тексты, чтобы удовлетворить растущие «аппетиты» моделей, не получится.

Портал «Грамота.ру»

Еще на эту тему

Создать себе подобных: как люди придумали чат-ботов

От первых программ с запрограммированными сценариями до современных моделей-трансформеров

Нейросеть выучилась понимать язык без использования текстовых данных

Она смогла самостоятельно установить смысловую связь между звуками и образами, просматривая миллионы видеороликов

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей

все публикации


Безударные гласные в некоторых словах могут редуцироваться до нуля

Вышел четвертый выпуск журнала «Русская речь» за 2024 год


Как в русском языке возникали названия для новых профессий

Ирина Фуфаева — о трех случаях, когда родное слово оттеснило иностранного конкурента


Для чего нужен язык в первую очередь

Нейробиологи пришли к выводу, что мышление может существовать и без языка


На полях манускрипта Войнича обнаружили полный латинский алфавит

Мультиспектральный анализ загадочной рукописи помог сделать открытие



В открытом доступе выложен «Словарь языковой экономии»

Филолог Василий Химик собрал блестящую коллекцию универбов от авиационки до ядовитки


Чем отличаются правила речевого этикета в русских и английских письменных текстах

Мария Елифёрова о том, почему «представители семейства кошачьих» требуют от переводчика аккуратности


Фекла Толстая: «Мы можем создать не 3D, а 10D-картинку Толстого»

Как цифровая форма приближает к нам тексты, события и обстоятельства




Художественный стиль речи использует всю палитру языковых средств

Творец может свободно обращаться со словами, если этого требует его замысел


Как научиться говорить грамотно и выразительно во взрослом возрасте

Развитие речевой культуры предполагает ликвидацию пробелов в знаниях и опору на сильные стороны говорящего




Школа игры на рояле без струн

Переводчик Наталья Мавлевич о преодолении интертекстуального малокровия и культурной глухоты


Вышел третий выпуск журнала «Слово.ру: Балтийский акцент» за 2024 год

«Мама» вытесняет «мать» как способ указания на родственную связь, а «чувак» обрел вторую жизнь благодаря молодежи


Хайп, кринж и краш на всю страну: зачем медиа используют молодежный язык

Просвещение, эксперименты и кодовый язык для тех, кто «в теме»



Самые необычные словари русского языка: от морфем до новоторов и Андропы-Расторопы

Они устроены не так, как мы привыкли, и показывают язык с неожиданной стороны


1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!