Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют ...
...Большинство нейросетевых языковых моделей обучаются...
Зачем вообще люди ругаются нецензурными словами? Что такое языковые табу? Как возникла и развивалась табуированная лексика в русском языке? Почему люди стали чаще пользоваться эвфемизмами вместо мата и хорошо ли это? Все эти волнующие общество темы лингвист, член Орфографической комиссии РАН, доцент кафедры русского языка Московского архитектурного института и эксперт Грамоты Мария Ровинская обсудила с ведущим подкаста Григорием Тарасевичем.
...Зачем вообще люди ругаются нецензурными словами? Что...
...Ведущий сразу предупредил, что матерные слова будут...
Вопрос, когда и где зародилась письменность, уже долгие годы является предметом научных дискуссий. Предшественниками письма считаются, например, глиняные таблички, которые древние шумеры оставляли в залог товаров. Их возраст — около десяти тысяч лет. Однако протописьмо, возможно, возникло раньше. На это могут указывать записи в храмовом комплексе Гёбекли-Тепе, изученные археологами из Эдинбургского университета (Великобритания). Постройки Гёбекли-Тепе находятся на ...
...Вопрос, когда и где зародилась письменность, уже...
Современные генеративные модели, такие как ChatGPT, уже активно применяются для написания научных статей и выпускных работ. Выявить разницу между человеческим и сгенерированным текстом становится всё труднее. При этом квалификационные, другие учебные и научные работы предполагают академическую честность, поэтому необходимы инструменты для выявления таких фрагментов. Команда исследователей из НИУ ВШЭ создала две программы для выявления в научных текстах фрагментов, созданных ...
...Современные генеративные модели, такие как ChatGPT,...
Языковеды давно спорят о том, насколько уникальны элементы, составляющие основу человеческой речи. В последние годы появляется всё больше аргументов в пользу того, что речеподобные структуры есть и у других видов. Так, исследования бенгальских вьюрков показывают, что в их пении действуют определенные правила построения последовательностей звуков, которые напоминают базовые принципы человеческой грамматики. Вьюрки не просто издают случайные звуки — их песни состоят из ...
...Языковеды давно спорят о том, насколько уникальны элементы...
Книжная ярмарка non/fictio№ — это крупное событие для любителей как художественной литературы (fiction), так и литературы всех других жанров (non-fiction). Мы выбрали несколько событий весенней ярмарки, которые могут заинтересовать любителей русского языка и специалистов, которые с ним работают. 12 апреля, в субботу, в 14:00 пройдет паблик-ток «Перевод — дело тонкое: как не сломать жанр». На нем опытные переводчики обсудят особенности работы ...
...Книжная ярмарка non/fictio№ — это крупное событие...
Группа депутатов (Ярослав Нилов и другие) и сенатор Елена Афанасьева внесли в Государственную Думу законопроект, который предлагает сделать обязательным знание русского языка для всех категорий иностранных граждан, претендующих на получение гражданства РФ. Предлагаемые изменения коснутся пункта 2 статьи 16 («Прием в гражданство Российской Федерации отдельных категорий иностранных граждан и лиц без гражданства») Федерального закона «О гражданстве Российской ...
...Группа депутатов (Ярослав Нилов и другие) и сенатор...
Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Слово и его окружение Идея представления слова...
Каждый день мы сталкиваемся с огромным количеством больших и маленьких текстов, но не всегда нам удается сразу осознать прочитанное. Что такое читательская грамотность и почему ее важно развивать? Грамота публикует статью нашего партнера, Всероссийского чемпионата сочинений «Своими словами», которая помогает увидеть сбои в логике, фантазии, преувеличения и неправомерные обобщения там, где при обычном чтении мы не замечаем ничего подозрительного.
...Каждый день мы сталкиваемся с огромным количеством...
...Почему мы можем неверно понять текст Чтобы разобраться...
Сможете ли вы угадать, кто такой халадур (или что это)? А найти аналог французского выражения «он стреляет из четырех ружей» в русском языке? Такие задания можно найти в книге «Тридцать шесть подсвечников», написанной веселыми российскими лингвистами. Мы выбрали пять языковых игр и предлагаем вам сыграть в одну из них прямо сейчас. Если вам станет интересно — в книге их гораздо больше!
...Сможете ли вы угадать, кто такой халадур (или что это...
...1. Двое из ларца В этой лингвистической игре...