Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Обучение и самообучение: как синтетические данные влияют...
...Грамота: Одна из страшилок, связанных с развитием...
За последние несколько недель прошла волна мероприятий и публикаций по поводу русского языка, словно давняя озабоченность наконец-то оформилась в конкретные мысли и отчетливые намерения. Это прежде всего акция «Народный диктант», инициаторы которой — журналисты «Российской газеты» — поставили эксперимент на себе и тем самым заслужили право предложить проверить свои знания по русскому языку отечественным чиновникам и политикам всех уровней и ветвей власти. За диктантом «по Льву Толстому» последовали выступления известных языковедов и деятелей культуры о русском языке как родном, как языке межнационального общения и как одном из мировых языков.
...За последние несколько недель прошла волна мероприятий...
...Право и профессиональную этику — на службу интересам...
...Однако на самом деле широкую общественность и филологическое...
Цифра — неотъемлемый элемент современного публицистического текста. Цифры зачастую красноречивее фактов говорят о событиях повседневной жизни. Оперируя десятью цифрами, можно выразить беспредельное множество чисел — количественных характеристик, без которых сегодня немыслимы публикации на темы экономики, статистики, финансовой политики. Без цифр нельзя представить и хронику спортивных соревнований. В то же время включение цифры в словесный текст часто приводит к очевидным ошибкам, которые не всегда можно объяснить невниманием, небрежностью или незнанием школьной грамматики. Корни многих наших затруднений лежат значительно глубже. Их следует искать в формировании языкового сознания, в особенностях восприятия текста, в истории языка, в истории нашей письменности, на которой мы остановимся подробнее.
...Цифра — неотъемлемый элемент современного...
...Цифра в публицистическом тексте...
... Часто говорят, что цифры управляют миром; нет...
Вопрос о возможности заменить отчество на матчество в официальных документах вызывает сегодня бурные дискуссии, хотя это явление не так чуждо русской культуре, как может показаться.
...Вопрос о возможности заменить отчество на матчество...
...Фамилия, имя... матчество?...
...Древнерусские матери Для нас привычно, что у человека...
Нас с детства учат, что ругаться нехорошо, некультурно, а бранные слова «плохие» и даже могут нас «запачкать». Но ругательства есть во всех живых языках, потому что человеку свойственно выражать с их помощью эмоции — причем не только отрицательные, но и положительные. Как в языке появляются слова, выполняющие эту «грязную работу»? И можно ли сделать так, чтобы они не приносили никому вреда?
...Нас с детства учат, что ругаться нехорошо, некультурно...
...Откуда берутся и какую функцию выполняют бранные слова...
...Источники плохих слов Ругательства могут различаться...
Распространенная сегодня негодующая точка зрения, которую метафорически можно обозначить как «Русский язык мы портим...», не разделяется авторами настоящей публикации. На наш взгляд, сегодня актуален не вопрос о состоянии русского языка, а вопрос о носителе русского языка. Для нас именно носитель, его культура, в том числе и языковая, — проблема (как для изучения, так и для формирования или, если угодно, коррекции).
...Распространенная сегодня негодующая точка зрения, которую...
...Ошибка ошибке рознь…...
...Совершенно очевидно, что проблема носителя —...
Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Что такое векторные модели и как можно их использовать...
...Слово и его окружение Идея представления слова...
В России бок о бок с русскими столетиями живут другие коренные народы. Неизбежное в такой ситуации культурное взаимовлияние отразилось и на языке. Известно, что такие слова, как «казна», «деньги», «таможня» и многие другие, имеют тюркское происхождение и связаны с ордынским владычеством. А какие заимствованные из русского языка слова вошли в языки народов России? Для примера возьмем якутский, татарский, чеченский и коми-пермяцкий языки.
...В России бок о бок с русскими столетиями живут другие...
...Заимствования из русского в языках народов России...
...Русский язык, будучи государственным, не мог не повлиять...
Перевести набоковские образы часто невозможно не только на другой язык, но и интермедийно: как должно быть визуально представлено то, что может воплощаться только в слове? Этим вопросом задались лингвисты Любовь Каракуц-Бородина и Борис Орехов.
...Перевести набоковские образы часто невозможно не только...
...Нейросеть создала иллюстрации к Набокову...
...Они подготовили выставку для Музея Владимира Набокова...
Сколько слов существует в русском языке? Ответ на этот вопрос и сложен, и прост. Трудно назвать точную цифру, и на это есть несколько причин: язык постоянно развивается, обновляется (одни слова появляются в речи, другие исчезают, уходят); масса диалектных слов пока учеными просто не зафиксирована и ни в каких словарях не описана; почти все профессии и научные дисциплины обладают «собственными» лексиконами, которые не входят в общенародную литературную речь; есть и другие причины.
...Сколько слов существует в русском языке? Ответ на этот...
...Мир имен и названий...
...Мир слов воистину огромен, безбрежен. Лексическое ядро...