созданных | Журнал | Поиск по Грамоте

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Нейросети учатся на текстах, созданных человеком. Но...

...Вряд ли мы остановим поток искусственно созданных текстов...

В НГУ создали систему распознавания сложных архивных текстов

Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета. Магистрант факультета информационных технологий НГУ Степан Гудков под руководством ...

...научить программу понимать сотни тысячи документов, созданных...

...документов — писем, дневников, записей, созданных...

Чем сгенерированные тексты отличаются от написанных человеком

Всё чаще можно слышать, что большие языковые модели вроде ChatGPT «пишут как люди». На первый взгляд их способность имитировать нашу речь действительно потрясает. Но более пристальный научный анализ все же выявляет различия. Научная группа из Университета Карнеги — Меллона (США) проверила с помощью методов корпусного анализа, насколько созданные человеком тексты отличаются от текстов в тех же жанрах и стилях, но созданных языковыми моделями (LLM).

...от текстов в тех же жанрах и стилях, но созданных...

...корпуса текстов: параллельный корпус, состоящий из созданных...

... Только 4,2% текстов, созданных LLM, были ложно...

Будет ли у нас вавилонская рыбка?

Чем общение людей отличается от общения обезьян, которых обучили основам жестового языка? А еще есть всем известные осмысленные танцы пчел и знаковые системы других живых существ — это язык или нет? С этих вопросов начинается книга переводчика, журналиста, преподавателя иностранных языков Яны Хлюстовой, которая владеет в той или иной степени шестью языками.

...Чем общение людей отличается от общения обезьян, которых...

...преодолеть с помощью искусственного интеллекта и созданных...

Законопроект о Национальном словарном фонде внесли в Госдуму

Правительство РФ внесло в Госдуму законопроект о создании Национального словарного фонда — единого цифрового ресурса, содержащего данные словарей русского языка. Закон «О государственном языке РФ» предлагается дополнить статьей, которая будет регламентировать создание и работу Национального словарного фонда. Под ним понимается государственная информационная система, в которой будут представлены данные о нормах современного русского ...

...laquo;интегрированы данные словарей русского языка, созданных...

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...

...Но запасы созданных человеком письменных текстов иссякают...

Разработаны инструменты выявления сгенерированных фрагментов в научных текстах

Современные генеративные модели, такие как ChatGPT, уже активно применяются для написания научных статей и выпускных работ. Выявить разницу между человеческим и сгенерированным текстом становится всё труднее. При этом квалификационные, другие учебные и научные работы предполагают академическую честность, поэтому необходимы инструменты для выявления таких фрагментов. Команда исследователей из НИУ ВШЭ создала две программы для выявления в научных текстах фрагментов, созданных ...

...для выявления в научных текстах фрагментов, созданных...

В России появятся цифровые учебники родного языка для коренных народов

Цифровые образовательные материалы получат народы, не имеющие достаточного количества учебников родного языка и литературного чтения. Об этом сообщает ТАСС со ссылкой на пресс-службу издательства «Наука». Суть проекта в том, что активисты-киберволонтеры собирают данные о существующих учебных пособиях, созданных носителями языков и учеными. Эти пособия и другая литература, помогающая сохранять и преподавать языки коренных народов, сначала выпускается ...

...собирают данные о существующих учебных пособиях, созданных...

Нейросеть — слово 2023 года по версии Грамоты

В этом году наш портал впервые провел собственную акцию «Слово года». Присоединяясь к этому тренду, Грамота ставит перед собой задачу зафиксировать и проанализировать процессы, которые происходили в течение года в русской лексике, как с точки зрения чисто лингвистических новаций и трендов, так и с точки зрения отражения в лексике общественных настроений и образа жизни носителей русского языка. Выбор слова 2023 года был сделан на основе нескольких критериев: анализа ...

...английского AI: мы говорим о текстах и картинках, созданных...

Лингвистический пуризм: как в разных странах защищают государственный язык от внешнего влияния

Борьба с иностранными заимствованиями в русском языке — не первый случай отторжения чужого. В истории есть много примеров, когда власти ставили масштабные эксперименты над языком в попытке уберечь его от внешних угроз, очистить, сохранить его самобытность и красоту. Такая политика носит название лингвистического пуризма.

...Борьба с иностранными заимствованиями в русском...

...При этом данные различных словарей, созданных в ...

Почитать на грамоте