регенерировать | Журнал | Поиск по Грамоте

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Нейросети учатся на текстах, созданных человеком. Но...

...Грамота: Одна из страшилок, связанных с развитием...

Авторский стиль и манера общения: что показывает анализ сгенерированных текстов

В новом выпуске журнала «Коммуникативные исследования» наше внимание привлекли две статьи: об идиостиле в генеративном тексте и о том, как разработчики пытаются решить противоречивую задачу — сделать ИИ похожим на человека и одновременно внедрить необходимые технологические ограничения.

...В новом выпуске журнала «Коммуникативные исследования...

...Есть ли у ИИ собственный стиль? Благодаря способности...

Что нейросети умеют делать с текстами и чем предстоит заняться человеку

Нейросети уже неплохо справляются с анализом и порождением текстов, они умеют многое из того, что раньше делали только люди. Какие возможности это дает? Участники круглого стола «Ай да AI. Нейросети и создание текстов: проблемы и перспективы генеративных моделей» обсудили, чем ИИ может помочь в научной работе и какие навыки понадобятся людям в цифровую эпоху. Грамота записала самое главное.

...Нейросети уже неплохо справляются с анализом и...

...В дискуссии на Костомаровском форуме участвовали руководитель...

Сможет ли искусственный интеллект заменить писателей?

Уже сейчас писатели издают книги, которые написаны ими в соавторстве с нейросетями. Спецпроект «Писатели vs Нейросети», созданный изданиями «Системный Блокъ» и «Подтекст», анализирует, какие этапы создания художественного текста может упростить нейросеть и насколько полезны языковые модели.

...Уже сейчас писатели издают книги, которые написаны...

...Кто лучше напишет рассказ? В ходе эксперимента писателю...

Машинный диалект: границы рефлексии

О характерных чертах языка нейросетей и перспективах его влияния на наши речевые привычки изданию «Социодиггер» рассказал доцент НИУ ВШЭ, старший научный сотрудник ИРЛИ РАН Борис Орехов.

...О характерных чертах языка нейросетей и перспективах...

...Многие восхищаются тем, как хорошо нейросети научились...

Исследование: внутренний язык больших языковых моделей ближе всего к английскому

Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют ...

...Большинство нейросетевых языковых моделей обучаются...

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...

...В течение многих лет такие компании, как OpenAI...

Искусственный интеллект нашел общие черты в песнях птиц и человеческом языке

Языковеды давно спорят о том, насколько уникальны элементы, составляющие основу человеческой речи. В последние годы появляется всё больше аргументов в пользу того, что речеподобные структуры есть и у других видов. Так, исследования бенгальских вьюрков показывают, что в их пении действуют определенные правила построения последовательностей звуков, которые напоминают базовые принципы человеческой грамматики. Вьюрки не просто издают случайные звуки — их песни состоят из ...

...Языковеды давно спорят о том, насколько уникальны элементы...

Завтра открывается IV Костомаровский форум — одно из главных событий года, посвященных русскому языку

22 мая в Институте Пушкина начнет работать трехдневный IV Костомаровский форум. Подробную программу форума можно посмотреть здесь. В нее включены более 30 мероприятий, в том числе с участием экспертов Грамоты. Рассказываем о них подробнее. 22 мая в 14:30 состоится панельная дискуссия «Языковой вкус эпохи: русский язык в медиапространстве» с участием Ксении Киселевой — главного редактора ...

...22 мая в Институте Пушкина начнет работать...

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они ...

...В 2023 году специалисты в области нейросетевых...

Почитать на грамоте