Подсказки для поиска
Точное соответствие
Найдена 141 публикация
Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Нейросети учатся на текстах, созданных человеком. Но...

...Давайте для начала объясним, что такое синтетические данные...

...Второй вариант и есть синтетические данные....

...: Синтетические данные плохи тем, что отражают...

Все меньше людей читают для удовольствия в свободное время: данные США

Чтение — одно из самых популярных хобби. Однако доля людей, читающих для удовольствия, неуклонно снижается — об этом говорят данные из США. Исследователи из Университетского колледжа Лондона и Университета штата Флориды (США) решили оценить, насколько серьезен этот спад. Они взяли данные из Американского обзора использования времени (American Time Use Survey), который ежегодно проводится Бюро переписи населения США и Бюро статистики труда.

...неуклонно снижается — об этом говорят данные...

...Его цель — собрать подробные данные о ...

...С этой картиной согласуются данные Фонда Барбары...

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...

...такие компании, как OpenAI и Google, собирали данные...

...Но синтетические данные создают другую проблему....

...В принципе использовать такие данные можно...

Евростат опубликовал данные о месте русского языка в школах ЕС в 2021 году

По случаю Европейского дня языков, который отмечается 26 сентября, социологическая служба Евростат представила последние данные о предпочтениях школьников Евросоюза при выборе второго языка (помимо местного) в качестве обязательного для изучения. Самым популярным оказался английский — это касается и среднего общего, и среднего технического образования. Его выбрали 96,8% и 78,6% соответственно. Второе место в общеобразовательных школах занял испанский язык (26,8%), за ним следуют ...

...социологическая служба Евростат представила последние данные...

...Опубликованные данные касаются 2021 года....

Лингвисты показали грамматическое разнообразие языков мира

Портал In Science рассказал о базе данных, которую создала международная группа ученых. В этой базе задокументировано грамматическое разнообразие сотен языков мира.

...Портал In Science рассказал о базе данных, которую...

...В ней хранятся количественные данные, описывающие лингвистические...

...Лингвистические данные, наряду с генетическими, историческими...

Профессия лингвиста оказалась на шестом месте по популярности у выпускников

6% одиннадцатиклассников выбрали для поступления в вуз филологическую или лингвистическую специальность. Об этом свидетельствуют данные опроса родителей, которые приводит сервис Superjob. В нем приняли участие 2000 родителей выпускников изо всех округов страны. Самое популярное направление у будущих студентов — информационные технологии. На втором месте — инженерные специальности, на третьем — специальности в области фундаментальной или ...

...Об этом свидетельствуют данные опроса родителей, которые...

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они ...

...Постепенно данные становятся все более однородными,...

..., не использовать сгенерированные (синтетические) данные...

...интернете будет представлять собой сгенерированные данные...

Для чего нужен язык в первую очередь

Мы пользуемся языком, чтобы делиться информацией и обмениваться идеями. Гораздо сложнее понять, насколько язык необходим, чтобы мыслить. Сегодня есть данные, которые позволяют ученым утверждать, что язык и мышление существуют достаточно обособленно друг от друга. О новом исследовании рассказывает новостной портал Массачусетского технологического института. 

...Мы пользуемся языком, чтобы делиться информацией и&...

...Данные из обеих областей, которые Федоренко, когнитолог...

...В последние годы были собраны большие данные,...

Русский язык и литература вошли в пятерку самых полезных школьных предметов

Перед началом нового учебного года Всероссийский центр изучения общественного мнения (ВЦИОМ) представил данные опроса о самых полезных и бесполезных школьных предметах. Русский язык считают «самым полезным» почти половина опрошенных (47%), литературу — каждый четвертый. Лидирует в опросе математика (54%), в первую пятерку вошли также история (30%) и физика (27%). Иностранные языки больше не кажутся полезными большинству россиян: их ценность ...

...изучения общественного мнения (ВЦИОМ) представил данные...

Законопроект о Национальном словарном фонде внесли в Госдуму

Правительство РФ внесло в Госдуму законопроект о создании Национального словарного фонда — единого цифрового ресурса, содержащего данные словарей русского языка. Закон «О государственном языке РФ» предлагается дополнить статьей, которая будет регламентировать создание и работу Национального словарного фонда. Под ним понимается государственная информационная система, в которой будут представлены данные о нормах современного русского ...

...nbsp;— единого цифрового ресурса, содержащего данные...

...информационная система, в которой будут представлены данные...

...едином цифровом ресурсе будут «интегрированы данные...

Больше точных совпадений не найдено, показать близкие результаты?

Показать
1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2025 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!