текстах | Журнал | Поиск по Грамоте

Разработаны инструменты выявления сгенерированных фрагментов в научных текстах

Современные генеративные модели, такие как ChatGPT, уже активно применяются для написания научных статей и выпускных работ. Выявить разницу между человеческим и сгенерированным текстом становится всё труднее. При этом квалификационные, другие учебные и научные работы предполагают академическую честность, поэтому необходимы инструменты для выявления таких фрагментов. Команда исследователей из НИУ ВШЭ создала две программы для выявления в научных текстах фрагментов, созданных ...

...создала две программы для выявления в научных текстах...

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они ...

...В 2023 году специалисты в области нейросетевых...

Чем отличаются правила речевого этикета в русских и английских письменных текстах

Что такое речевой этикет? Расхожие определения, которые можно нагуглить в интернете, несколько дезориентируют: они сводят речевой этикет к употреблению формул вежливости, типа «спасибо» и «пожалуйста», то есть к знанию определенной, не слишком сложной лексики. Увы, если бы все было так просто! Неочевидные особенности этикетных требований разных культур показывает филолог и переводчик Мария Елифёрова.

...Что такое речевой этикет? Расхожие определения, которые...

...Говоря о стилях речи, мы чаще всего представляем...

Что подарить человеку читающему? Пять книг о языках и текстах

Время на рубеже старого и нового года отлично подходит для новых открытий. Предлагаем вам почувствовать себя исследователями и погрузиться в рассказ о механике литературной магии поттерианы, разобраться в многообразии языковых различий — или даже освоить язык запросов к нейросетям. Выберите себе (или близкому) в подарок книгу из нашей подборки.

...Время на рубеже старого и нового года отлично подходит...

...1. Владимир Плунгян. Почему языки такие разные Это...

Дореформенная орфография и современная реклама

Одна из особенностей современных массово-коммуникативных текстов — использование устаревшей лексики: историзмов и архаизмов. Между тем проблема актуализации устаревших единиц языка не исчерпывается одними лексемами. Часто на страницах современных изданий встречаются элементы дореформенной графики, такие как «ять», «и десятеричное» и др. Они встречаются в рекламных текстах, в названиях коммерческих предприятий и общественных организаций, в заголовках статей, в логотипах газет и журналов.

...Одна из особенностей современных массово-коммуникативных...

...» (ъ) в конце слов, в современных текстах...

...raquo; и «и десятеричное» в современных текстах...

...«Еры» и «яти» в этих текстах...

Обучение и самообучение: как синтетические данные влияют на работу больших языковых моделей

Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.

...Нейросети учатся на текстах, созданных человеком. Но...

...отражают только то, что было в оригинальных текстах...

...характеристики, которые неравномерно распределены в текстах...

...отражает наш сообственный опыт, накопленный в текстах...

Архаичные союзы «ибо» и «дабы» употребляются в современной разговорной речи

В новый номер периодического издания «Труды Института русского языка им. В. В. Виноградова» вошла статья, посвященная диахронному описанию причинного союза «ибо» и целевого союза «дабы». Несмотря на то что эти союзы помечаются в словарях как книжные, их можно встретить и в современной разговорной речи — в том числе в сниженном стиле.

...В новый номер периодического издания «Труды Института...

...как устаревшие: понеже встретилось в 22 текстах...

...Дабы встретилось в 6248 текстах»....

... В текстах интернета союз ибо встречается...

Как отличить текст, написанный нейросетью? Ряд критериев предложен на «Хабре»

Нейросети обучаются на текстах, которые создали люди, и используют эти данные для генерации новых текстов. На первый взгляд бывает сложно отличить тексты, написанные машиной и человеком. Статья на «Хабре» рассказывает о признаках, методах и инструментах, которые помогают выявить текст, созданный нейросетью.

...Нейросети обучаются на текстах, которые создали люди...

...на то что нейросети постоянно обучаются, в их текстах...

Российские исследователи предложили новую модель генерации ключевых слов к научным текстам

Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь. Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом ...

...в научных статьях, монографиях и других текстах...

...корпусе доля ключевых слов, не встречающихся в текстах...

...генерации ключевых слов потребовало дообучения на текстах...

Церковная лексика в практике современных СМИ

В последнее время устаревшая церковнославянская и конфессиональная лексика активно используются современными массмедиа. Рассчитанные на массового читателя и слушателя, современные массово-коммуникативные тексты, воспроизводя стандартные языковые модели, обращаются к устаревшей лексике для большей эмоциональности, экспрессивности.

...В последнее время устаревшая церковнославянская и конфессиональная...

...новые метафоры, в современных массово-коммуникативных текстах...

...Конфессиональная лексика в таких текстах употреблена...

...По этой причине и церковнославянские слова в текстах...

Почитать на грамоте