Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Слово и его окружение Идея представления слова...
Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Грамота: Одна из страшилок, связанных с развитием...
Устный перевод с турецкого сложен тем, что глагол стоит в конце фразы, поэтому синхронный перевод превращается, по сути, в очень быстрый последовательный. А что самое увлекательное в работе с письменными текстами? Мы спросили у тюрколога, переводчика, доктора филологических наук Аполлинарии Аврутиной, с какими самыми большими вызовами она сталкивалась при переводе художественной литературы. И услышали две яркие и поучительные истории.
...Устный перевод с турецкого сложен тем, что глагол...
...Работа, которой я горжусь до сих пор, —...
Манускрипт, или Рукопись, Войнича — иллюстрированный кодекс XV века, написанный анонимным автором на неизвестном алфавите. Первые попытки расшифровки текста предпринимали еще в XVII веке, но сделать это не удалось до сих пор. Новые научные методы позволили получить интересные данные, пишет научно-популярное издание Naked Science.
...Манускрипт, или Рукопись, Войнича — иллюстрированный...
...Рукопись носит имя антиквара Вильфреда Войнича, который...
Революция нейросетей началась с текста. Но в будущем, вероятно, его роль как носителя знаний будет уменьшаться. На смену ему придут текстографические форматы, и это позволит людям быстрее понимать задачи и достигать взаимопонимания. Об этом в интервью Грамоте размышляет специалист по цифровой гуманитаристике, доктор физико-математических наук Константин Воронцов.
...Революция нейросетей началась с текста. Но в ...
...Грамота: В 2024 году Нобелевскую премию по...
Предлагаем вниманию читателей портала статью профессора Льва Владимировича Щербы, опубликованную в журнале «Русский язык в школе» (№ 5, 1936). Мысли о будущем языка, высказанные Л. В. Щербой восемьдесят лет назад, и сегодня не утратили актуальности.
...Предлагаем вниманию читателей портала статью профессора...
...Предисловие «Грамоты.ру» Лев Владимирович...
Даже грамотные носители русского языка сталкиваются с трудностями, когда им нужно написать редкое, длинное, заимствованное или просто незнакомое слово. Да, в современные устройства встроена автоматическая проверка орфографии, но она не всегда работает корректно и не помогает, когда мы (такое тоже бывает!) пишем важный текст от руки. В случае сомнений всегда лучше свериться со словарем — желательно с самым новым.
...Даже грамотные носители русского языка сталкиваются...
...Что такое орфография Термин орфография восходит к&...
Оценка языковой доступности учебных текстов для школьников сегодня не опирается на четкие критерии и прозрачную методологию. Так быть не должно, считает Антонина Лапошина — кандидат педагогических наук, специалист по компьютерной лингвистике из Института Пушкина. Она рассказала Грамоте о том, какие методы оценки текста есть в распоряжении экспертов и чем они могут быть полезны и школьникам, и авторам учебников.
...Оценка языковой доступности учебных текстов для школьников...
...Грамота: Какие проблемы должна решать лингвистическая...
К языку средств массовой информации в последние годы читающей либо слушающей публикой и изучающими его специалистами-филологами предъявляются многочисленные и, увы, чаще всего вполне обоснованные претензии. Публику раздражает или шокирует, а специалистам кажется неоправданным или даже неприемлемым многое: и перенасыщение языка СМИ американизмами, и обилие в нем жаргонной, «блатной» и даже матерной лексики, и нарушение нормального темпа и нормативного интонационного рисунка речи.
...К языку средств массовой информации в последние годы...
...Кое-какие из этих претензий можно счесть, конечно,...
Уральцы гордятся тюркизмом «айда», Сибирь — мультифорой, про питерский поребрик и парадные слышали все. Нет человека, которого бы не увлекала тема региональных слов. Лингвист Ирина Фуфаева рассказывает о словах, которые не переводятся на язык других регионов.
...Уральцы гордятся тюркизмом «айда», Сибирь...
...Внутри региональной лексики есть много отдельных интересных...