Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Обучение и самообучение: как синтетические данные влияют...
...Грамота: Одна из страшилок, связанных с развитием...
Новый словарь ударений объемом около 30 тыс. слов создается в Институте русского языка им. В. В. Виноградова РАН под редакцией докторов филологических наук Марии Каленчук и Дмитрия Савинова. Ожидается, что он выйдет в конце 2024 года в издательстве «Грамота». Как пояснила «Парламентской газете» Мария Каленчук, для появления словаря есть как минимум четыре причины. Первая связана с изменением звукового строя ...
...В 2024 году в России появится первый «Большой словарь...
...Новый словарь ударений объемом около 30 тыс. слов...
Устный перевод с турецкого сложен тем, что глагол стоит в конце фразы, поэтому синхронный перевод превращается, по сути, в очень быстрый последовательный. А что самое увлекательное в работе с письменными текстами? Мы спросили у тюрколога, переводчика, доктора филологических наук Аполлинарии Аврутиной, с какими самыми большими вызовами она сталкивалась при переводе художественной литературы. И услышали две яркие и поучительные истории.
...Устный перевод с турецкого сложен тем, что глагол...
...Шепот на ухо и бесконечный пазл: две истории о переводе...
...Работа, которой я горжусь до сих пор, —...
Анна Константиновна Поливанова рассказала проекту Arzamas о своем детстве, об отношениях с учителями, взглядах на язык и принципах рациональной науки. Этот большой разговор будет интересен не только лингвистам.
...Анна Константиновна Поливанова рассказала проекту...
...Могут ли быть в лингвистике открытия?...
...Учителями Анны Поливановой были Андрей Зализняк, Юрий...
Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют ...
...Исследование: внутренний язык больших языковых моделей...
...Большинство нейросетевых языковых моделей обучаются...
Проблема различения языка и диалекта не перестает быть актуальной для взаимоотношений разных народов и стран. От лингвистов требуют предъявить строгие научные критерии разграничения этих понятий, но в действительности едва ли не большую роль играют экстралингвистические факторы.
...Проблема различения языка и диалекта не перестает быть...
...Разные языки или разные диалекты?...
...Задача с двумя неизвестными Представим, что есть два...
Недавно группа депутатов Госдумы внесла законопроект, согласно которому вывески, тексты в рекламе, названия товаров, районов и жилых комплексов должны быть написаны на русском языке. Исследовательский центр рекрутингового портала Superjob.ru провел опрос, чтобы узнать, поддерживают ли граждане такую инициативу. 53% участников опроса поддержали идею законопроекта. Они приводили следующие аргументы: «Надо беречь русский язык»; «В нашей стране должно быть все понятно для ...
...Больше половины россиян поддерживают запрет англицизмов...
...Недавно группа депутатов Госдумы внесла законопроект...
Благодя цифровизации науки многие полезные справочные ресурсы доступны в электронном виде. Институт лингвистических исследований РАН в Санкт-Петербурге ведет большую работу по созданию лингвистических корпусов, баз данных, указателей, в том числе посвященных русскому языку. Грамота рекомендует пять ресурсов, которые будут полезны как специалистам-филологам, так и любителям.
...Благодя цифровизации науки многие полезные справочные...
...Современные онлайн-ресурсы расширяют возможности исследователей...
...1. Новое в русской лексике База данных снабжена...
Предки русских, англичан, французов, иранцев, армян, таджиков, греков, части народов Индии и других народов много тысяч лет назад говорили на одном языке, который ученые называют праиндоевропейским. Так что русский язык — не только славянский, о чем всем известно; он также входит в большую и пеструю семью потомков праиндоевропейского языка. В чем проявляется это родство?
...Предки русских, англичан, французов, иранцев, армян...
...Русский как индоевропейский: общие корни заметны даже...
...Индоевропейские языки и другие языковые семьи...
Появление интернета изменило в том числе и привычные способы взаимодействия со словарями: мы чаще смотрим слово в интернете, чем заглядываем в бумажные книги. К тому же лексика меняется очень быстро, так что всеми любимый словарь Ожегова уже перешел в разряд исторических, а многие новые слова и значения в словарях пока не отражены. О том, каким будет комплексный верифицированный словарь русского языка на цифровой платформе, рассказала доктор филологических наук Мария Каленчук, главный научный сотрудник Института русского языка им. В. В. Виноградова РАН и руководитель проекта «Национальный словарный фонд».
...Появление интернета изменило в том числе и привычные...
...Национальный словарный фонд даст пользователям больше...
...Что такое Национальный словарный фонд: концепция и...