Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Грамота: Одна из страшилок, связанных с развитием...
Необходимость заговорить с незнакомым человеком часто ставит нас в тупик. При всем желании найти вежливое, нейтральное, современное и уместное слово получается не всегда. «Товарищ» остался в СССР, «гражданин» звучит тревожно, «господин» режет слух, «женщину» и «мужчину» странно считать обращениями. Приходится признать, что в этом месте в русском языке есть проблема.
...Необходимость заговорить с незнакомым человеком...
...Раньше было проще Чтобы выбрать обращение, мы мгновенно...
Как убедиться, что текст достаточно прост и понятен — например, для детей определенного возраста, иностранцев или людей с ментальными особенностями? Сегодня определить уровень доступности текста помогают не только разнообразные формулы читабельности, но и искусственный интеллект. О возможных подходах к оценке текстов разных типов Грамота расспросила кандидата педагогических наук Антонину Лапошину, специалиста по компьютерной лингвистике в лаборатории когнитивных и лингвистических исследований Института Пушкина.
...Как убедиться, что текст достаточно прост и понятен...
...Грамота: На что опираются системы оценки сложности/...
Казалось бы, дореволюционная русская орфография перестала существовать больше ста лет назад. Между тем наши современники продолжают по разным причинам ее использовать — кто-то в силу симпатий к дореволюционной России и ее культуре, кто-то из эстетических соображений. Энтузиасты ведут блоги, переиздают и пишут книги в старой орфографии. О том, какие мотивы стоят за этим выбором, Грамоте рассказал филолог Алексей Любжин.
...Казалось бы, дореволюционная русская орфография перестала...
...Замысел: «Орфография и стилистика растут из одного...
«О составлении „Этимологического словаря русского языка“ как о главной цели своей научной деятельности я мечтал еще во время первых исследований, посвященных влиянию греческого языка на славянские (1906-1909), — писал Макс Фасмер о своем труде. — Многие пожелания, высказанные в рецензиях на мой словарь, несомненно, будут полезными для последующего русского этимологического словаря, в котором должно быть уделено особое внимание многочисленным словам, названным здесь неясными. Если бы мне пришлось начать работу снова, я уделил бы большее внимания калькам и семасиологической стороне».
...«О составлении „Этимологического словаря...
...Известный ученый-славист В. Кипарский, пытаясь...
Оценивая состояние языка, необходимо разграничивать три вида процессов: 1) в условиях функционирования языка; 2) в построении текста; 3) в системе языка. Раскрепощение, возможность свободно выражать свои мысли и чувства, игры с языком и при помощи языка — вот что характерно для русского языка нашего времени.
...Оценивая состояние языка, необходимо разграничивать...
...В последние десятилетия особенно резко изменились...
Полчаса на редактуру мало, редактирование — медленный процесс. Но скорость жизни в последнее десятилетие повысилась, а количество текстов увеличилось. Типичный редакторский кошмар: «У меня всего полчаса на этот текст». Наш чек-лист поможет сосредоточиться, когда приближается дедлайн, а вы не знаете, за что хвататься.
...Полчаса на редактуру мало, редактирование &mdash...
...Максимум возможного за минимум времени Развитие цифровых...
Одна из особенностей современных массово-коммуникативных текстов — использование устаревшей лексики: историзмов и архаизмов. Между тем проблема актуализации устаревших единиц языка не исчерпывается одними лексемами. Часто на страницах современных изданий встречаются элементы дореформенной графики, такие как «ять», «и десятеричное» и др. Они встречаются в рекламных текстах, в названиях коммерческих предприятий и общественных организаций, в заголовках статей, в логотипах газет и журналов.
...Одна из особенностей современных массово-коммуникативных...
...Очень популярно сейчас стало, стилизуясь под дореволюционную...
Устный перевод с турецкого сложен тем, что глагол стоит в конце фразы, поэтому синхронный перевод превращается, по сути, в очень быстрый последовательный. А что самое увлекательное в работе с письменными текстами? Мы спросили у тюрколога, переводчика, доктора филологических наук Аполлинарии Аврутиной, с какими самыми большими вызовами она сталкивалась при переводе художественной литературы. И услышали две яркие и поучительные истории.
...Устный перевод с турецкого сложен тем, что глагол...
...Работа, которой я горжусь до сих пор, —...
Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Слово и его окружение Идея представления слова...