Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют ...
...Исследование: внутренний язык больших языковых моделей...
...Большинство нейросетевых языковых моделей обучаются...
Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Обучение и самообучение: как синтетические данные влияют...
...Грамота: Одна из страшилок, связанных с развитием...
Появление интернета изменило в том числе и привычные способы взаимодействия со словарями: мы чаще смотрим слово в интернете, чем заглядываем в бумажные книги. К тому же лексика меняется очень быстро, так что всеми любимый словарь Ожегова уже перешел в разряд исторических, а многие новые слова и значения в словарях пока не отражены. О том, каким будет комплексный верифицированный словарь русского языка на цифровой платформе, рассказала доктор филологических наук Мария Каленчук, главный научный сотрудник Института русского языка им. В. В. Виноградова РАН и руководитель проекта «Национальный словарный фонд».
...Появление интернета изменило в том числе и привычные...
...Национальный словарный фонд даст пользователям больше...
...Что такое Национальный словарный фонд: концепция и...
Проблема различения языка и диалекта не перестает быть актуальной для взаимоотношений разных народов и стран. От лингвистов требуют предъявить строгие научные критерии разграничения этих понятий, но в действительности едва ли не большую роль играют экстралингвистические факторы.
...Проблема различения языка и диалекта не перестает быть...
...Разные языки или разные диалекты?...
...Задача с двумя неизвестными Представим, что есть два...
Портал «Грамота.ру» следит за успехами проекта «Тотальный диктант». Ежегодная образовательная акция привлекает все больше участников. В 2014 году диктант писали 64 тысячи человек в 352 городах мира. Ключевые составляющие успешного проекта — оригинальный текст (в этом году автором текста был Алексей Иванов), грамотный менеджмент и лингвистическое обеспечение на академическом уровне. Мы поговорили с председателем экспертной комиссии Тотального диктанта Натальей Борисовной Кошкарёвой — не только о диктанте.
...Портал «Грамота.ру» следит за успехами...
...«На родной язык стараний не жалко»...
...Лингвисты в полях Грамота: Наталья Борисовна, пользуясь...
Подавляющее большинство (96%) женщин, участвовавших в опросе книжного сервиса «Литрес» и платформы для знакомств Mamba, считают привлекательной грамотную речь. Среди участников-мужчин это мнение разделяют 76%. Результаты опроса публикует ТАСС. 63% женщин и 53% мужчин называют уровень грамотности решающим фактором для выбора партнера. Только для 3% женщин этот момент оказался незначимым (среди мужчин таких 23%). Как можно объяснить разницу между мужчинами ...
...Российские женщины придают большое значение грамотности...
...Подавляющее большинство (96%) женщин, участвовавших...
Благодя цифровизации науки многие полезные справочные ресурсы доступны в электронном виде. Институт лингвистических исследований РАН в Санкт-Петербурге ведет большую работу по созданию лингвистических корпусов, баз данных, указателей, в том числе посвященных русскому языку. Грамота рекомендует пять ресурсов, которые будут полезны как специалистам-филологам, так и любителям.
...Благодя цифровизации науки многие полезные справочные...
...Современные онлайн-ресурсы расширяют возможности исследователей...
...1. Новое в русской лексике База данных снабжена...
С помощью новой технологии тексты цифрового «Яндекс.Учебника» сравнили с другими школьными пособиями по русскому языку. Выяснилось, что в цифровом учебнике меньше агрономов и березок, зато больше программистов и бабушек. Но есть и более глубокие отличия, говорится в публикации на сайте «Системный Блокъ».
...С помощью новой технологии тексты цифрового «...
...В Институте имени Пушкина создали технологию лингвистической...
...Методика заключается в том, что во всей совокупности...
Новый словарь ударений объемом около 30 тыс. слов создается в Институте русского языка им. В. В. Виноградова РАН под редакцией докторов филологических наук Марии Каленчук и Дмитрия Савинова. Ожидается, что он выйдет в конце 2024 года в издательстве «Грамота». Как пояснила «Парламентской газете» Мария Каленчук, для появления словаря есть как минимум четыре причины. Первая связана с изменением звукового строя ...
...В 2024 году в России появится первый «Большой словарь...
...Новый словарь ударений объемом около 30 тыс. слов...
Предки русских, англичан, французов, иранцев, армян, таджиков, греков, части народов Индии и других народов много тысяч лет назад говорили на одном языке, который ученые называют праиндоевропейским. Так что русский язык — не только славянский, о чем всем известно; он также входит в большую и пеструю семью потомков праиндоевропейского языка. В чем проявляется это родство?
...Предки русских, англичан, французов, иранцев, армян...
...Русский как индоевропейский: общие корни заметны даже...
...Индоевропейские языки и другие языковые семьи...