Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Обучение и самообучение: как синтетические данные влияют...
...Это ведет к деградации модели: она хорошо работает только на данных, на которых была обучена, но плохо справляется с другими задачами....
... По мере их поступления можно дообучать языковую модель — с учетом этого она будет становиться лучше и научится искать ошибки у китайских, немецких, русских и всех остальных учеников....
...Сейчас эта работа полностью автоматизирована: она шаблонна, текстов такого рода очень много, а инструкций пользователи все равно не читают. В последние пару лет я редко пишу письма сам — чаще я говорю модели, что, в каком стиле и на каком языке ответить....
Гавриил Романович Державин родился в Казани 14 июля 1743 года в обедневшей дворянской семье. Он смог пройти путь от солдата Преображенского полка до министра юстиции. В историю русской литературы Державин вошел как поэт Просвещения, автор од «На смерть князя Мещерского», «Ключ», «На рождение в севере порфирородного отрока», «Фелица» и других. Однако его вклад в историю русского литературного языка шире. Державин принял участие в составлении «
...14 июля исполнилось 280 лет со дня рождения Гавриила...
...Она привлекла к составлению словаря известных писателей и ученых из разных областей знаний, в том числе и Державина (он собирал слова на букву Т). Кстати, Державин одним из первых стал употреблять в письмах букву Ё....
10 апреля на сайте «Тотального диктанта» открылась регистрация участников акции. При регистрации нужно выбрать город (и площадку, на которой проводится акция) или онлайн-участие. Например, чтобы увидеть список площадок в Москве, нужно перейти в раздел «Площадки». Их расположение также можно посмотреть на карте. Рядом с названиями площадок указаны их особенности (есть инклюзивные — для участников с ограничениями по зрению ...
...Открылась регистрация участников акции «Тотальный диктант...
...Она прочитает его в Томске, который в этом году был выбран столицей акции....
В 2028 году Россия и мир будут отмечать двухсотлетие со дня рождения Льва Толстого. Цифровая эпоха, в которую мы живем, дает возможность посмотреть на его жизнь и наследие как на уникальную базу данных. Прочитать забытое и малоизвестное, присмотреться к языку, сопоставить источники, лучше понять его идеи и контекст, в котором они возникли. Руководитель группы Tolstoy Digital Фекла Толстая рассказала Грамоте о проекте «Слово Толстого», в котором соединились ее увлечение цифровыми методами в гуманитарных науках и интерес к семейной истории.
...В 2028 году Россия и мир будут отмечать...
...Фекла Толстая: «Мы можем создать не 3D, а 10D-картинку...
...Правда, иногда она ее делала на курином бульоне (но так, чтобы он не знал), чтобы немножко поддержать его уже немолодое здоровье....
... Мы говорим, что нужно охранять классику, но в результате она перестает быть живой. Мы ее запираем на золотой ключ, помещаем за толстое стекло, где с ней нет никакого взаимодействия....
...Конечно, она трансформировалась, но идея осталась: на тебе не жесткий пиджак, который стесняет твои действия, а мягкая кофта, которая позволяет тебе спокойно двигаться, как ты хочешь. И быть свободным. ...
... И есть главная фраза, которую мы повторяем, всегда ссылаясь на Льва Николаевича, потому что для него она была важна: «Делай что должно, и будь что будет». Это не его фраза, это старая французская поговорка. В нынешней жизни очень часто ее вспоминаешь....
Банкаброшница — это не банковская работница, а работница, обслуживающая прядильную машину. Название профессии происходит от французского банкаброш (banc a broches, букв. «станок со спицами»). Это слово представлено в «Толковом словаре русского языка» под ред. Д. Н. Ушакова (1935–1940) как неологизм, технический термин. Толкуется оно так: ‘машина в бумагопрядильном производстве, разбивающая массу хлопкового волокна на отдельные, более ...
...По случаю 8 Марта предлагаем вспомнить забытые названия...
...Она украшает не лицо, а товар. Иными словами, показывает товар лицом. Налицовать товар — «придать ему лицо, вид, красу, подкрасить, подцветить, почистить» (словарь Даля)....
...Она также не готовит манты, но при этом к застолью отношение имеет. В «Толковом словаре названий женщин» Н. П. Колесникова (М., 2002) это слово толкуется как ‘прислужница за столом’....
Русский язык не только вещь в себе, но и вещь в нас и вокруг нас. Меня давно уже интересует проблема взаимодействия русского языка с языками наук, языками искусств и разными видами человеческой деятельности.
...Русский язык не только вещь в себе, но и ...
...Григорий Крейдлин: «Увидеть, как связаны единицы мира...
...Например, авторское замечание: Она подходит к нему и наклоняется. Эту фразу можно сыграть, воплотить сценически по-разному. Или ремарка в сторону — в какую сторону?...
...Она вполне достойна стать пятой важнейшей сферой в наивной картине мира. Как происходит взаимодействие, какие бывают телесные объекты, каковы глаголы, обслуживающие действия человека с предметами и с людьми?...
Происхождение индоевропейских языков остается дискуссионным вопросом уже больше двухсот лет. К настоящему времени сложились две основные гипотезы: «степная», которая ищет истоки языковой семьи в понтийско-каспийской степи около шести тысяч лет назад, и «земледельческая», предполагающая более древнее происхождение, связанное с ранним земледелием около девяти тысяч лет назад. Новый вклад в эту дискуссию внесли исследователи из Отдела лингвистической и культурной эволюции ...
...Ученые уточнили место и время появления индоевропейской...
...По утверждениям авторов, эта выборка — более полная и сбалансированная, и в сочетании со строгими протоколами кодирования лексических данных она устраняет проблемы в прошлых выборках....
Участники смогут встретиться с лингвистами, оценить свои знания в квизе «35 вопросов о русском языке» и написать демодиктант, который разберет Владимир Пахомов — ведущий подкаста «Розенталь и Гильденстерн» и научный руководитель Грамоты. Одним из главных событий станет творческая встреча с писательницей Анной Матвеевой, многократной финалисткой премий «Большая книга» и автором текстов для Тотального диктанта 2024 года (каждый год современный ...
...Фестиваль «Грамотные выходные» завершается в Омске...
...Она будет посвящена главным событиям, которые происходили с русским языком в 2023 году: какие новые слова были добавлены в словари? какие написания изменились? что означает новый закон о русском языке и можно ли по-прежнему использовать иностранные слова?...
Юрий Кнорозов совершил то, что все его предшественники считали невозможным. Из статьи журнала «Наука и жизнь» становится понятно, как годы кропотливого труда помогли ученому осуществить его студенческую мечту — расшифровать таинственные письмена древней индейской цивилизации.
...Юрий Кнорозов совершил то, что все его предшественники...
...Сказка о русском лингвисте Кнорозове, расшифровавшем...
...Он верил, что ее можно расшифровать, хотя авторитетные исследователи заявляли, что она навсегда останется неразгаданной. Испанские завоеватели пришли в Америку и уничтожили многочисленные рукописи майя. Сохранилось всего три поврежденных кодекса....
13 сентября Саратовская городская дума объявила фотоконкурс: горожанам предложено сфотографировать как можно больше вывесок на иностранных языках и с использованием транслитерации. «Приглашаем всех желающих присылать фотографии вывесок, размещенных на зданиях, расположенных на территории Саратова. Три участника конкурса, приславшие фотографии наибольшего количества таких объектов, получат призы», — сообщает телеграм-канал думы. Организаторы принимают фото до 25 ...
...Саратовская дума просит горожан присылать фото вывесок...
...При этом она отметила, что иностранные вывески действительно создают проблемы для тех, кто не знает иностранных языков: им сложно не только понять, что значит вывеска, но даже прочитать название заведения или бренда....