Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы
В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное.
Но запасы созданных человеком письменных текстов иссякают. Исследовательская компания Epoch AI прогнозирует, что дефицит «живых» текстовых данных может наступить уже в ближайшие пять лет. Эксперты представили экстраполяцию (прогнозы оценки значения переменной за пределами исходного диапазона наблюдений) тенденций в создании текстов людьми, а также потребностей нейросетей в обучающих данных, и пришли к выводу, что кризис наступит примерно между 2026 и 2032 годом.
В этих условиях все больше компаний рассматривают возможность использования синтетических данных — таких, которые порождены нейросетями по образу и подобию человеческих текстов. В 2021 году исследовательская фирма Gartner предполагала, что уже в нынешнем году 60% данных, используемых для тренировки нейросетей, будут иметь машинное происхождение.
Но синтетические данные создают другую проблему. В недавней статье, опубликованной группой исследователей из Оксфорда и Кембриджа, говорится, что введение в модель слишком большого объема сгенерированных данных в итоге приводит к ее деградации. В принципе использовать такие данные можно, но они должны быть сбалансированы «живыми», чтобы модель выдавала адекватные результаты.
Вероятно, компаниям-разработчикам придется менять подходы к созданию и обучению нейросетей, чтобы обеспечить их качественную работу. Ведь просто заставить всех людей круглосуточно производить новые уникальные тексты, чтобы удовлетворить растущие «аппетиты» моделей, не получится.
Еще на
эту тему
Создать себе подобных: как люди придумали чат-ботов
От первых программ с запрограммированными сценариями до современных моделей-трансформеров
Нейросеть выучилась понимать язык без использования текстовых данных
Она смогла самостоятельно установить смысловую связь между звуками и образами, просматривая миллионы видеороликов
Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей
Михаил Копотев о роли сгенерированных нейросетью текстов в развитии моделей и в жизни людей