данные | Журнал | Поиск по Грамоте

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Нейросети учатся на текстах, созданных человеком. Но...

...Давайте для начала объясним, что такое синтетические данные...

...Второй вариант и есть синтетические данные....

...: Синтетические данные плохи тем, что отражают...

Евростат опубликовал данные о месте русского языка в школах ЕС в 2021 году

По случаю Европейского дня языков, который отмечается 26 сентября, социологическая служба Евростат представила последние данные о предпочтениях школьников Евросоюза при выборе второго языка (помимо местного) в качестве обязательного для изучения. Самым популярным оказался английский — это касается и среднего общего, и среднего технического образования. Его выбрали 96,8% и 78,6% соответственно. Второе место в общеобразовательных школах занял испанский язык (26,8%), за ним следуют ...

...социологическая служба Евростат представила последние данные...

...Опубликованные данные касаются 2021 года....

Лингвисты показали грамматическое разнообразие языков мира

Портал In Science рассказал о базе данных, которую создала международная группа ученых. В этой базе задокументировано грамматическое разнообразие сотен языков мира.

...Портал In Science рассказал о базе данных, которую...

...В ней хранятся количественные данные, описывающие лингвистические...

...Лингвистические данные, наряду с генетическими, историческими...

Профессия лингвиста оказалась на шестом месте по популярности у выпускников

6% одиннадцатиклассников выбрали для поступления в вуз филологическую или лингвистическую специальность. Об этом свидетельствуют данные опроса родителей, которые приводит сервис Superjob. В нем приняли участие 2000 родителей выпускников изо всех округов страны. Самое популярное направление у будущих студентов — информационные технологии. На втором месте — инженерные специальности, на третьем — специальности в области фундаментальной или ...

...Об этом свидетельствуют данные опроса родителей, которые...

Все меньше людей читают для удовольствия в свободное время: данные США

Чтение — одно из самых популярных хобби. Однако доля людей, читающих для удовольствия, неуклонно снижается — об этом говорят данные из США. Исследователи из Университетского колледжа Лондона и Университета штата Флориды (США) решили оценить, насколько серьезен этот спад. Они взяли данные из Американского обзора использования времени (American Time Use Survey), который ежегодно проводится Бюро переписи населения США и Бюро статистики труда.

...неуклонно снижается — об этом говорят данные...

...Его цель — собрать подробные данные о ...

...С этой картиной согласуются данные Фонда Барбары...

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...

...такие компании, как OpenAI и Google, собирали данные...

...Но синтетические данные создают другую проблему....

...В принципе использовать такие данные можно...

В метасловаре пользователь сначала видит общую картину, а потом может вникнуть в детали

Найти слово сразу в нескольких словарях, сравнить результаты, проверить свою версию написания, произношения или толкования — посетители Грамоты всегда охотно пользовались этой возможностью. Но в некоторых случаях детали не нужны, а требуется, наоборот, быстро получить самое общее представление о слове. Руководитель словарного направления Грамоты Анастасия Александровна Бонч-Осмоловская объясняет, каким образом в метасловаре объединены и структурированы данные о слове и какие преимущества новый формат дает пользователям.

...Найти слово сразу в нескольких словарях, сравнить результаты...

...размеченными словарями, в выдачу поиска сразу попадают новые данные...

...универсального словаря», позже также будут добавлены данные...

Что такое естественный язык? Новые данные могут стать основой для пересмотра понятия

Обзор исследований, опубликованный в журнале Trends in Cognitive Sciences, пересматривает классические представления о том, что именно делает человеческий язык уникальным; в основе новой концепции лежат данные когнитивистики, лингвистики и исследований интеллекта животных. Традиционный взгляд на язык исходит из того, что это прежде всего звуковая речь (код), состоящая из абстрактных знаков, уникальных только для человека. В 1960 году лингвист Чарльз Хокетт ...

...человеческий язык уникальным; в основе новой концепции лежат данные...

...Авторы новой работы проанализировали последние данные...

Госдума приняла закон о Национальном словарном фонде

Законопроект был внесен на рассмотрение парламента в январе 2024 года. 9 апреля его приняли во втором и третьем чтениях. Новый федеральный закон вносит дополнения в закон «О государственном языке РФ», а именно дополняет его статьей 4, регламентирующей работу новой государственной информационной системы «Национальный словарный фонд». В ней будут представлены данные о современных и исторических нормах русского ...

...В ней будут представлены данные о современных...

Для чего нужен язык в первую очередь

Мы пользуемся языком, чтобы делиться информацией и обмениваться идеями. Гораздо сложнее понять, насколько язык необходим, чтобы мыслить. Сегодня есть данные, которые позволяют ученым утверждать, что язык и мышление существуют достаточно обособленно друг от друга. О новом исследовании рассказывает новостной портал Массачусетского технологического института.

...Мы пользуемся языком, чтобы делиться информацией и&...

...Данные из обеих областей, которые Федоренко, когнитолог...

...В последние годы были собраны большие данные,...

Почитать на грамоте