Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

Точное соответствие
Найдено еще 100 публикаций
Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка?...

...Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей...

...Если данных по каким-то причинам мало, у разработчиков есть два выхода: собирать их много лет или искусственно создать данные, похожие на уже существующие. Второй вариант и есть синтетические данные....

...Какие данные этично включать в обучение моделей? В случае синтетических данных должны ли мы указывать, что данные были полностью синтетические или частично оригинальные? Кто отвечает за возможный вред или негативные последствия от созданного текста?...

...Михаил Копотев: Давайте для начала объясним, что такое синтетические данные и зачем они нужны. Для обучения языковых моделей необходимо много информации: как говорят специалисты, the only thing better than big data is bigger data....

...Вообще, если есть хоть какие-то тексты, можно быстро и дешево создавать синтетические данные и работающую модель, которая постепенно насыщается новыми данными и совершенствуется. Такой сценарий кажется мне наиболее реалистичным....

...: Синтетические данные плохи тем, что отражают только то, что было в оригинальных текстах, на которых они обучались. Можно предсказать, что зоны риска — это те, где данных не хватает, например малые языки или экзотические и уникальные жанры....

Евростат опубликовал данные о месте русского языка в школах ЕС в 2021 году

По случаю Европейского дня языков, который отмечается 26 сентября, социологическая служба Евростат представила последние данные о предпочтениях школьников Евросоюза при выборе второго языка (помимо местного) в качестве обязательного для изучения. Самым популярным оказался английский — это касается и среднего общего, и среднего технического образования. Его выбрали 96,8% и 78,6% соответственно. Второе место в общеобразовательных школах занял испанский язык (26,8%), за ним следуют ...

...Евростат опубликовал данные о месте русского языка в школах ЕС в 2021 году...

...Опубликованные данные касаются 2021 года....

...По случаю Европейского дня языков, который отмечается 26 сентября, социологическая служба Евростат представила последние данные о предпочтениях школьников Евросоюза при выборе второго языка (помимо местного) в качестве обязательного для изучения....

Лингвисты показали грамматическое разнообразие языков мира

Портал In Science рассказал о базе данных, которую создала международная группа ученых. В этой базе задокументировано грамматическое разнообразие сотен языков мира.

...Портал In Science рассказал о базе данных, которую...

...Лингвисты показали грамматическое разнообразие языков...

...В ней хранятся количественные данные, описывающие лингвистические особенности языков. Лингвистические данные, наряду с генетическими, историческими и культурными, помогают лучше понять развитие человека....

Профессия лингвиста оказалась на шестом месте по популярности у выпускников

6% одиннадцатиклассников выбрали для поступления в вуз филологическую или лингвистическую специальность. Об этом свидетельствуют данные опроса родителей, которые приводит сервис Superjob. В нем приняли участие 2000 родителей выпускников изо всех округов страны. Самое популярное направление у будущих студентов — информационные технологии. На втором месте — инженерные специальности, на третьем — специальности в области фундаментальной или ...

...Профессия лингвиста оказалась на шестом месте по популярности...

...Об этом свидетельствуют данные опроса родителей, которые приводит сервис Superjob. В нем приняли участие 2000 родителей выпускников изо всех округов страны. Самое популярное направление у будущих студентов — информационные технологии....

Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы

В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...

...Прогноз: текстовые данные для обучения нейросетей могут закончиться в ближайшие годы...

...В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT....

...Но синтетические данные создают другую проблему. В недавней статье, опубликованной группой исследователей из Оксфорда и Кембриджа, говорится, что введение в модель слишком большого объема сгенерированных данных в итоге приводит к ее деградации....

...В принципе использовать такие данные можно, но они должны быть сбалансированы «живыми», чтобы модель выдавала адекватные результаты. Вероятно, компаниям-разработчикам придется менять подходы к созданию и обучению нейросетей, чтобы обеспечить их качественную работу....

В метасловаре пользователь сначала видит общую картину, а потом может вникнуть в детали

Найти слово сразу в нескольких словарях, сравнить результаты, проверить свою версию написания, произношения или толкования — посетители Грамоты всегда охотно пользовались этой возможностью. Но в некоторых случаях детали не нужны, а требуется, наоборот, быстро получить самое общее представление о слове.  Руководитель словарного направления Грамоты Анастасия Александровна Бонч-Осмоловская объясняет, каким образом в метасловаре объединены и структурированы данные о слове и какие преимущества новый формат дает пользователям.

...  Руководитель словарного направления Грамоты Анастасия Александровна Бонч-Осмоловская объясняет, каким образом в метасловаре объединены и структурированы данные о слове и какие преимущества новый формат дает пользователям....

...В метасловаре пользователь сначала видит общую картину...

...Соответственно, если мы пополняем нашу базу новыми размеченными словарями, в выдачу поиска сразу попадают новые данные. Если информация в разных словарях дублирует друг друга, мы убираем эти повторы....

...информацию о единицах нашего словника из «Большого толкового словаря русского языка», «Словаря новых слов», «Большого словаря иностранных слов»… На подходе информация об этимологии из «Большого универсального словаря», позже также будут добавлены данные...

Госдума приняла закон о Национальном словарном фонде

Законопроект был внесен на рассмотрение парламента в январе 2024 года. 9 апреля его приняли во втором и третьем чтениях. Новый федеральный закон вносит дополнения в закон «О государственном языке РФ», а именно дополняет его статьей 4, регламентирующей работу новой государственной информационной системы «Национальный словарный фонд». В ней будут представлены данные о современных и исторических нормах русского ...

...Госдума приняла закон о Национальном словарном фонде...

...В ней будут представлены данные о современных и исторических нормах русского литературного языка, а также сведения о русских народных говорах. Фонд будет включать в себя словари русского языка, созданные за последние три века....

Для чего нужен язык в первую очередь

Мы пользуемся языком, чтобы делиться информацией и обмениваться идеями. Гораздо сложнее понять, насколько язык необходим, чтобы мыслить. Сегодня есть данные, которые позволяют ученым утверждать, что язык и мышление существуют достаточно обособленно друг от друга. О новом исследовании рассказывает новостной портал Массачусетского технологического института. 

...Сегодня есть данные, которые позволяют ученым утверждать, что язык и мышление существуют достаточно обособленно друг от друга. О новом исследовании рассказывает новостной портал Массачусетского технологического института. ...

...Для чего нужен язык в первую очередь...

...В последние годы были собраны большие данные, аннотированные по различным лингвистическим признакам, а машинная обработка этих данных вышла на новый уровень....

...Данные из обеих областей, которые Федоренко, когнитолог и лингвист Эдвард Гибсон из МТИ и когнитолог Стивен Пиантадоси из Калифорнийского университета в Беркли рассматривают в статье в Nature Perspectives, подтверждают их идею о том, что язык — это инструмент...

Русский язык и литература вошли в пятерку самых полезных школьных предметов

Перед началом нового учебного года Всероссийский центр изучения общественного мнения (ВЦИОМ) представил данные опроса о самых полезных и бесполезных школьных предметах. Русский язык считают «самым полезным» почти половина опрошенных (47%), литературу — каждый четвертый. Лидирует в опросе математика (54%), в первую пятерку вошли также история (30%) и физика (27%). Иностранные языки больше не кажутся полезными большинству россиян: их ценность ...

...Русский язык и литература вошли в пятерку самых полезных...

...Перед началом нового учебного года Всероссийский центр изучения общественного мнения (ВЦИОМ) представил данные опроса о самых полезных и бесполезных школьных предметах....

Нейросеть выучилась понимать язык без использования текстовых данных

Большие языковые модели — нейросети, способные порождать тексты на естественном языке, — обычно обучаются на текстах. Ключевое отличие обучения таких программ от обучения людей заключается в том, что люди овладевают языком, не прибегая к использованию таких колоссальных объемов однородных данных. При этом программы еще и допускают нелепые (с нашей точки зрения) ошибки. Один из альтернативных подходов — позволить машинам учиться так, как учатся ...

...Нейросеть выучилась понимать язык без использования...

...Причем данные не были предварительно размечены — модель сама «догадывалась», как связать видео и звук в единый сюжет. Модель также не была предварительно обучена на каких-либо текстовых данных; она сама выделяла слова из массива аудиоданных....

1/6
Большой универсальный словарь русского языка (2 тома)
1 — 4 классы
Морковкин В.В., Богачева Г.Ф., Луцкая Н.М.
4.3
Подробнее об издании
От 2320 ₽
Купить на маркетплейсах:
Назовите ваше слово года!
Какие новые слова в 2024 году прочно вошли в вашу речь? На какие вы обратили внимание, какие стали чаще слышать вокруг? Участвуйте в выборе «Слова года» по версии Грамоты.
Отправить
Спасибо!
Мы получили ваш ответ и обязательно учтем его при составлении списка слов-кандидатов
Читать Грамоту дальше
Новые публикации Грамоты в вашей почте
Неверный формат email
Подписаться
Спасибо,
подписка оформлена.
Будем держать вас в курсе!