Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Слово и его окружение Идея представления слова...
Предки русских, англичан, французов, иранцев, армян, таджиков, греков, части народов Индии и других народов много тысяч лет назад говорили на одном языке, который ученые называют праиндоевропейским. Так что русский язык — не только славянский, о чем всем известно; он также входит в большую и пеструю семью потомков праиндоевропейского языка. В чем проявляется это родство?
...Предки русских, англичан, французов, иранцев, армян...
...Индоевропейские языки и другие языковые семьи...
К языку средств массовой информации в последние годы читающей либо слушающей публикой и изучающими его специалистами-филологами предъявляются многочисленные и, увы, чаще всего вполне обоснованные претензии. Публику раздражает или шокирует, а специалистам кажется неоправданным или даже неприемлемым многое: и перенасыщение языка СМИ американизмами, и обилие в нем жаргонной, «блатной» и даже матерной лексики, и нарушение нормального темпа и нормативного интонационного рисунка речи.
...К языку средств массовой информации в последние годы...
...Кое-какие из этих претензий можно счесть, конечно,...
Каждый день мы сталкиваемся с огромным количеством больших и маленьких текстов, но не всегда нам удается сразу осознать прочитанное. Что такое читательская грамотность и почему ее важно развивать? Грамота публикует статью нашего партнера, Всероссийского чемпионата сочинений «Своими словами», которая помогает увидеть сбои в логике, фантазии, преувеличения и неправомерные обобщения там, где при обычном чтении мы не замечаем ничего подозрительного.
...Каждый день мы сталкиваемся с огромным количеством...
...Почему мы можем неверно понять текст Чтобы разобраться...
Научный руководитель Грамоты Владимир Пахомов пишет в Газете.ru о том, почему не надо бояться молодежного сленга.
...Научный руководитель Грамоты Владимир Пахомов пишет...
...Почему нас так раздражает речь подростков? Непонятные...
Команда Грамоты за прошедшую неделю внесла несколько обещанных изменений в работу обновленного портала: размер поля для вопроса справочной службе увеличился до 1000 символов; добавлена возможность использовать в поисковой строке символы (* и ?), что позволяет искать в текстовых материалах сразу группу похожих слов; для большинства словарей в словарных статьях, которые появляются в результатах поиска, воспроизводится их исходная разметка. Кроме того, мы теперь с ...
...Команда Грамоты за прошедшую неделю внесла несколько...
На обновленной Грамоте образовательное направление становится одним из главных. Мы хотим как можно более понятно и подробно объяснять, как устроены правила, в чем их логика и узкие места, как проще их запомнить. Учебные материалы обращены не только к учителям и школьникам, но и к тем взрослым, кто хочет увереннее себя чувствовать, когда говорит и пишет на родном языке. Мы попросили руководителя направления Марию Юрьевну Лебедеву рассказать о том, как будет устроен образовательный трек.
...На обновленной Грамоте образовательное направление...
...Начну с признания. Русский язык в школе я не очень-то...
Путешественники знают, что местные жители часто с готовностью рассказывают приезжим, как появилось название их деревни или реки. Эти версии часто бывают далеки от истины, но отсутствие надежных научных сведений компенсируется фантазией. Сюжеты, впрочем, возникают не на пустом месте, а с опорой на отрывочные исторические сведения и предания.
...Путешественники знают, что местные жители часто с готовностью...
...Находчивость вместо памяти Коллективная память как...
Зародившись в игровых чатах поколения альфа как своеобразный «коммуникативный тик», то есть непроизвольная реакция на любой раздражитель, числовое выражение «6–7» (six-seven) распространилось по разным уголкам интернета. Недавно портал Dictionary.com признал его словом года. При этом у «6–7» нет определенного лексического значения: за ним не стоит никакая часть физического мира. Тогда зачем оно нужно?
...Зародившись в игровых чатах поколения альфа как своеобразный...
...Две небольшие разницы Смех, который следует за появлением...
Нейросети учатся на текстах, созданных человеком. Но что, если текстов для обучения не хватает? Тогда используют синтетические данные, сгенерированные моделью. В чем их особенности? Как повлияет появление большого количества «искусственных» текстов на нас как носителей естественного языка? Мы поговорили об этом с руководителем ИИ-направления Грамоты, компьютерным лингвистом Михаилом Копотевым.
...Нейросети учатся на текстах, созданных человеком. Но...
...Грамота: Одна из страшилок, связанных с развитием...