Современные генеративные модели, такие как ChatGPT, уже активно применяются для написания научных статей и выпускных работ. Выявить разницу между человеческим и сгенерированным текстом становится всё труднее. При этом квалификационные, другие учебные и научные работы предполагают академическую честность, поэтому необходимы инструменты для выявления таких фрагментов. Команда исследователей из НИУ ВШЭ создала две программы для выявления в научных текстах фрагментов, созданных ...
...создала две программы для выявления в научных текстах...
В 2023 году специалисты в области нейросетевых вычислений Илья и Захар Шумайловы описали явление, которое они назвали «коллапс модели». Под коллапсом модели авторы понимают процесс «вырождения», затрагивающий несколько поколений генеративных моделей, в ходе которого сгенерированные данные снова и снова загрязняют ту выборку, на котором обучается следующее поколение моделей. В недавней статье, опубликованной в журнале Nature, они ...
...В 2023 году специалисты в области нейросетевых...
Что такое речевой этикет? Расхожие определения, которые можно нагуглить в интернете, несколько дезориентируют: они сводят речевой этикет к употреблению формул вежливости, типа «спасибо» и «пожалуйста», то есть к знанию определенной, не слишком сложной лексики. Увы, если бы все было так просто! Неочевидные особенности этикетных требований разных культур показывает филолог и переводчик Мария Елифёрова.
...Что такое речевой этикет? Расхожие определения, которые...
...Говоря о стилях речи, мы чаще всего представляем...
Время на рубеже старого и нового года отлично подходит для новых открытий. Предлагаем вам почувствовать себя исследователями и погрузиться в рассказ о механике литературной магии поттерианы, разобраться в многообразии языковых различий — или даже освоить язык запросов к нейросетям. Выберите себе (или близкому) в подарок книгу из нашей подборки.
...Время на рубеже старого и нового года отлично подходит...
...1. Владимир Плунгян. Почему языки такие разные Это...
Одна из особенностей современных массово-коммуникативных текстов — использование устаревшей лексики: историзмов и архаизмов. Между тем проблема актуализации устаревших единиц языка не исчерпывается одними лексемами. Часто на страницах современных изданий встречаются элементы дореформенной графики, такие как «ять», «и десятеричное» и др. Они встречаются в рекламных текстах, в названиях коммерческих предприятий и общественных организаций, в заголовках статей, в логотипах газет и журналов.
...Одна из особенностей современных массово-коммуникативных...
...» (ъ) в конце слов, в современных текстах...
...raquo; и «и десятеричное» в современных текстах...
...«Еры» и «яти» в этих текстах...
Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...отражают только то, что было в оригинальных текстах...
...характеристики, которые неравномерно распределены в текстах...
...отражает наш сообственный опыт, накопленный в текстах...
В новый номер периодического издания «Труды Института русского языка им. В. В. Виноградова» вошла статья, посвященная диахронному описанию причинного союза «ибо» и целевого союза «дабы». Несмотря на то что эти союзы помечаются в словарях как книжные, их можно встретить и в современной разговорной речи — в том числе в сниженном стиле.
...В новый номер периодического издания «Труды Института...
...как устаревшие: понеже встретилось в 22 текстах...
...Дабы встретилось в 6248 текстах»....
... В текстах интернета союз ибо встречается...
Нейросети обучаются на текстах, которые создали люди, и используют эти данные для генерации новых текстов. На первый взгляд бывает сложно отличить тексты, написанные машиной и человеком. Статья на «Хабре» рассказывает о признаках, методах и инструментах, которые помогают выявить текст, созданный нейросетью.
...Нейросети обучаются на текстах, которые создали люди...
...на то что нейросети постоянно обучаются, в их текстах...
Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь. Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом ...
...в научных статьях, монографиях и других текстах...
...корпусе доля ключевых слов, не встречающихся в текстах...
...генерации ключевых слов потребовало дообучения на текстах...
В последнее время устаревшая церковнославянская и конфессиональная лексика активно используются современными массмедиа. Рассчитанные на массового читателя и слушателя, современные массово-коммуникативные тексты, воспроизводя стандартные языковые модели, обращаются к устаревшей лексике для большей эмоциональности, экспрессивности.
...В последнее время устаревшая церковнославянская и конфессиональная...
...новые метафоры, в современных массово-коммуникативных текстах...
...Конфессиональная лексика в таких текстах употреблена...
...По этой причине и церковнославянские слова в текстах...