Нейросети обучаются на текстах, которые создали люди, и используют эти данные для генерации новых текстов. На первый взгляд бывает сложно отличить тексты, написанные машиной и человеком. Статья на «Хабре» рассказывает о признаках, методах и инструментах, которые помогают выявить текст, созданный нейросетью.
...Нейросети обучаются на текстах, которые создали люди...
...на то что нейросети постоянно обучаются, в их текстах...
Современные генеративные модели, такие как ChatGPT, уже активно применяются для написания научных статей и выпускных работ. Выявить разницу между человеческим и сгенерированным текстом становится всё труднее. При этом квалификационные, другие учебные и научные работы предполагают академическую честность, поэтому необходимы инструменты для выявления таких фрагментов. Команда исследователей из НИУ ВШЭ создала две программы для выявления в научных текстах фрагментов, созданных ...
...создала две программы для выявления в научных текстах...
Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...отражают только то, что было в оригинальных текстах...
...характеристики, которые неравномерно распределены в текстах...
...отражает наш сообственный опыт, накопленный в текстах...
Одна из особенностей современных массово-коммуникативных текстов — использование устаревшей лексики: историзмов и архаизмов. Между тем проблема актуализации устаревших единиц языка не исчерпывается одними лексемами. Часто на страницах современных изданий встречаются элементы дореформенной графики, такие как «ять», «и десятеричное» и др. Они встречаются в рекламных текстах, в названиях коммерческих предприятий и общественных организаций, в заголовках статей, в логотипах газет и журналов.
...Одна из особенностей современных массово-коммуникативных...
...» (ъ) в конце слов, в современных текстах...
...raquo; и «и десятеричное» в современных текстах...
...«Еры» и «яти» в этих текстах...
Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь. Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом ...
...в научных статьях, монографиях и других текстах...
...корпусе доля ключевых слов, не встречающихся в текстах...
...генерации ключевых слов потребовало дообучения на текстах...
Даже тот, кто не посвятил жизнь науке, сталкивается с текстами, написанными в научном стиле. Любой реферат или доклад, учебник или научно-популярный блог использует особые языковые средства, которые отвечают его задачам. Текст в этом функциональном стиле не просто передает информацию, но стремится доказать ее истинность, ценность, а во многих случаях и новизну.
...Даже тот, кто не посвятил жизнь науке, сталкивается...
...Кроме того, в текстах этого типа изложение обычно...
... В текстах научного стиля чаще, чем в ...
...В научно-популярных текстах таких конструкций...
Программа создана в рамках проекта «Разработка новых концепций и базовой программы преподавания русского языка для московских школ» в 2000–2001 годах. Настоящий проект разрабатывался сотрудниками лаборатории словесности МИРОСа, соисполнителем является кафедра русского языка Института лингвистических проблем РГГУ. Программа может быть использована целиком или отдельными фрагментами, учителю предоставляется возможность самому распределить материал и количество часов по классам, особо пристальное внимание уделяя «дорогим его сердцу» темам. Сами авторы, преподающие в школе, используют ее в своей работе.
...Программа создана в рамках проекта «Разработка...
...При этом речь идет о текстах самых разных жанров...
...Функции прилагательных в текстах разных жанров...
...Роль союзов в текстах различных типов....
Цифровые технологии сегодня позволяют превратить любое собрание сочинений в настоящую базу данных, чтобы увидеть многочисленные связи внутри текста и между текстами, выявить необычные закономерности.
...Цифровые технологии сегодня позволяют превратить любое...
...разметки одних и тех же сущностей в разных текстах...
Как убедиться, что текст достаточно прост и понятен — например, для детей определенного возраста, иностранцев или людей с ментальными особенностями? Сегодня определить уровень доступности текста помогают не только разнообразные формулы читабельности, но и искусственный интеллект. О возможных подходах к оценке текстов разных типов Грамота расспросила кандидата педагогических наук Антонину Лапошину, специалиста по компьютерной лингвистике в лаборатории когнитивных и лингвистических исследований Института Пушкина.
...Как убедиться, что текст достаточно прост и понятен...
...Сейчас мы сфокусированы на учебных текстах, хотим научиться...
Цифра — неотъемлемый элемент современного публицистического текста. Цифры зачастую красноречивее фактов говорят о событиях повседневной жизни. Оперируя десятью цифрами, можно выразить беспредельное множество чисел — количественных характеристик, без которых сегодня немыслимы публикации на темы экономики, статистики, финансовой политики. Без цифр нельзя представить и хронику спортивных соревнований. В то же время включение цифры в словесный текст часто приводит к очевидным ошибкам, которые не всегда можно объяснить невниманием, небрежностью или незнанием школьной грамматики. Корни многих наших затруднений лежат значительно глубже. Их следует искать в формировании языкового сознания, в особенностях восприятия текста, в истории языка, в истории нашей письменности, на которой мы остановимся подробнее.
...Цифра — неотъемлемый элемент современного...
...используется также для всех количественных значений в текстах...