Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Слово и его окружение Идея представления слова...
Помните, как в сказке царь приказал девице явиться к нему ни одетой, ни раздетой? Девушка выполнила условие: она завернулась в рыболовную сеть. Сегодня слово «сеть» обрело еще одно значение, связанное с компьютеризацией и новыми компьютерными технологиями. Но обо всем по порядку.
...Помните, как в сказке царь приказал девице явиться...
...Давайте вспомним, как вообще появились на свете слова...
Большие языковые модели — нейросети, способные порождать тексты на естественном языке, — обычно обучаются на текстах. Ключевое отличие обучения таких программ от обучения людей заключается в том, что люди овладевают языком, не прибегая к использованию таких колоссальных объемов однородных данных. При этом программы еще и допускают нелепые (с нашей точки зрения) ошибки. Один из альтернативных подходов — позволить машинам учиться так, как учатся ...
...Большие языковые модели — нейросети, способные...
Иногда создается впечатление, что корректоры больше никому не нужны. С одной стороны, есть спелл-чекеры, которые неплохо справляются с основными проблемами. С другой, привычка читать мессенджеры и соцсети размывает уважение к правилам: побеждает подход «понятно, и ладно», указывать на чужие ошибки неприлично… Но представить себе качественный текст без корректуры по-прежнему невозможно. О незаметной работе, в которой есть свои вызовы и удовольствия, рассказывает корректор Грамоты Марк Кантуров.
...Иногда создается впечатление, что корректоры больше...
...1. Образование и опыт работы Я окончил Новосибирский...
О новых возможностях «Яндекс» сообщил в сентябре на своем сайте. «В Браузере появился встроенный переводчик с YandexGPT, который использует подходящую лексику в зависимости от предметной области текста, а инструмент для краткого пересказа в версии для компьютеров теперь может работать и с документами в формате PDF, DOCX, TXT», — говорится в сообщении. В работе с текстом доступно два ...
...О новых возможностях «Яндекс» сообщил...
Исследователи из Массачусетского технологического института (MIT) нашли объяснение так называемого U-образного эффекта, который характерен для больших языковых моделей вроде ChatGPT. Суть этого эффекта в том, что модели обрабатывают разные части текста с разной точностью. Чем дальше от центра текста, тем точность выше (отсюда и название — график точности имеет спад в центре, отчего становится похож на букву U). Что это означает? Например, если модели нужно ...
...Исследователи из Массачусетского технологического...
После ста с лишним лет безуспешных попыток удалось расшифровать основной подтип дофарской письменности — древней системы письма, обнаруженной в Дофаре (одной из провинций Омана). Исследование, опубликованное в журнале Jaarbericht Ex Oriente Lux, описывает прорывное открытие в понимании этой системы письма. Когда лингвист Ахмад Аль-Джаллад из Университета штата Огайо (США) изучал фотографии дофарских надписей, он обратил внимание на один из ...
...После ста с лишним лет безуспешных попыток удалось...
Сколько слов существует в русском языке? Ответ на этот вопрос и сложен, и прост. Трудно назвать точную цифру, и на это есть несколько причин: язык постоянно развивается, обновляется (одни слова появляются в речи, другие исчезают, уходят); масса диалектных слов пока учеными просто не зафиксирована и ни в каких словарях не описана; почти все профессии и научные дисциплины обладают «собственными» лексиконами, которые не входят в общенародную литературную речь; есть и другие причины.
...Сколько слов существует в русском языке? Ответ на этот...
...Мир слов воистину огромен, безбрежен. Лексическое ядро...
Вопрос, когда и где зародилась письменность, уже долгие годы является предметом научных дискуссий. Предшественниками письма считаются, например, глиняные таблички, которые древние шумеры оставляли в залог товаров. Их возраст — около десяти тысяч лет. Однако протописьмо, возможно, возникло раньше. На это могут указывать записи в храмовом комплексе Гёбекли-Тепе, изученные археологами из Эдинбургского университета (Великобритания). Постройки Гёбекли-Тепе находятся на ...
...Вопрос, когда и где зародилась письменность, уже...
Всего на конкурс было подано 239 работ из 21 страны мира, в том числе из стран ближнего зарубежья, а также Вьетнама, Индии, Венгрии, Китая, Кубы и Колумбии. «Главный критерий, по которому мы отбираем лауреатов, — их работа не должна быть методической разработкой, какие учителя обычно пишут к урокам, — объясняет председатель жюри конкурса, профессор НИУ ВШЭ Марина Королева. — Она должна быть живой, без общих слов, за ней ...
...Всего на конкурс было подано 239 работ из 21 ...