Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Что такое векторные модели и как можно их использовать...
...Мне было интересно, чем, например, отличается поле у Толстого от общеязыкового поля. Когда мы говорим о Толстом, то первым делом вспоминаем «Войну и мир», а там на поле происходят битвы, например Бородинская....
...Например, они могут вектора вычитать или складывать. И в какой-то момент выяснилось, что у этих операций есть языковой смысл!...
...Мы выбираем некоторое слово, которое нас интересует, и создаем вокруг него окно «видимости» определенного размера (например, пять слов слева и пять слов справа)....
...Например, это может быть корпус законов или корпус публикаций в социальных сетях. По сути дела, это тоже информационный поиск, только примененный к одной коллекции текстов....
... Например, если мы возьмем вектор слова король, вычтем из него вектор слова мужчина и прибавим вектор слова женщина, у нас получится значение, которое максимально близко к вектору слова королева....
Проблемы, которые мы здесь обсуждаем, в конечном итоге сводятся к оценке состояния русского языка, и зеркалом этого состояния является язык средств массовой информации. Само слово «состояние» заряжено негативной оценкой, предполагает какие-то дефекты в предмете. Ср. «состояние больного внушает опасения», «состояние конструкции здания чревато опасностями» и т. п. Но когда мы говорим о состоянии языка, мы разве озабочены разрушением его морфологического строя? Или нас настораживают изменения в его фонетике, в его синтаксисе?
...Проблемы, которые мы здесь обсуждаем, в конечном итоге...
...Культура речи и языковая критика...
...Такова, например, тенденция к аналитизму, о которой говорят в течение трех десятилетий....
...Формы развития языковой критики могут быть различными, например книга «Не говори шершавым языком»....
...Таковы активные процессы в словообразовании, например создание существительных с суффиксом -изация: арендизация, векселизация, люмпенизация, долларизация и др....
...Этот закон помогает объяснить, например, выбор говорящим тех форм выражения, которые требуют от него затраты меньших усилий. Так, квАртал русскому произнести легче, чем квартАл, хотя нормативной является как раз вторая форма....
...Ср. также (из газет 1960-х): Сколько раз, например, говорилось, что огромное количество металла расходуется у нас нерационально? (Кто говорил? Кем расходуется?) Из недавних высказываний: Обсуждение бюджета в Госдуме отложилось. Или возьмем такой документ нашей эпохи, как Конституция РФ....
Появление интернета как общедоступного пространства общения породило новое языковое разделение. Язык блогов, форумов и соцсетей, не скованный литературными и типографскими нормами, теперь существует параллельно с языком традиционных СМИ. Но граница между ними проницаема: медиа и сами живут на территории интернета, а «зумерский» сленг и новые понятия легко проникают в серьезные газеты и журналы.
...Появление интернета как общедоступного пространства...
...Хайп, кринж и краш на всю страну: зачем медиа используют...
...Например, публикация может называться Как видеоигры разводят нас на деньги. Издание использует мемы, например ожидание vs реальность, сленговые идиомы (на серьезных щах) и шутки (— Закройте пост, нам дует! — Откройте, мы еще не дочитали!...
...Например, всего за несколько лет на смену слову зашквар в значении ‘нечто неподобающее, стыдное, нелепое’ пришло слово кринж, а затем и это слово превратилось в кринге....
...Например, издание «Вокруг света» в 2024 году выпустило тест о языке зумеров (представителей поколения Z, к которому относятся родившиеся с 1997 по 2012 год)....
...Например, вместо напиши мне в личном сообщении используется в лс, вместо спасибо — спс. Эмоции выражаются с помощью смайлов (эмодзи), аббревиатур (LOL — laughing out loud) и коротких слов (кек, аналог LOL). Быстрая смена моды....
...Например, в 2014 году банк «Тинькофф» запустил корпоративное медиа «Тинькофф Журнал» («Т—Ж»), посвященное преимущественно финансовой тематике. Подача материалов указывает на то, что издание нацелено именно на молодую аудиторию....
Как правильно писать недавно появившиеся в языке слова? Нередко на практике сразу рождается несколько параллельных вариантов написания. О принципах, которыми должны руководствоваться составители нормативных орфографических словарей, рассказывает статья доктора филологических наук, председателя Орфографической комиссии РАН (2000–2014) Владимира Лопатина.
...Как правильно писать недавно появившиеся в языке слова...
...Проблемы нормирования и опыт орфографической работы...
...Например, в правилах 1956 года сказано, что звуковые аббревиатуры, если они имеют нарицательный смысл, пишутся строчными буквами....
...И хотя это словарь ударений, такой же подход применен в нем к другим вариантам произношения слов: авторы не допускают, например, произношения слова сэндвич, только сандвич....
...Или, например, в новогоднем (2002 года) номере еженедельника «7 дней» на обложке было крупно написано суперёлка. Буква ё там была, а твердого знака не было. Новые факты языка должны подчиняться действующим орфографическим правилам....
...Мне не хотелось бы говорить банальные вещи, которые знает каждый лингвист, — например, о том, что языковая норма, с одной стороны, общеобязательна, конвенциональна, кодифицируется правилами и специальными нормативными словарями, а с другой стороны — изменчива, подвижна, нередко...
...Например, считается, что перед суффиксами сохраняются удвоенные согласные: класс — классный и т. п. Однако в одной группе слов удвоенные согласные все-таки не сохраняются — это уменьшительные и фамильярные личные имена типа Алка, Инка, Римка, Кирилка....
Как в точности соотносятся церковнославянский, старославянский и древнерусский языки? На это вопрос даже многие выпускники филологических факультетов не могут дать внятный ответ. При этом если древнерусский и старославянский остались в далеком прошлом, церковнославянский жив и сегодня, хотя и для ограниченного круга людей. Как сложилась его судьба и чем он интересен с лингвистической точки зрения? Об этом Грамота поговорила с ведущим научным сотрудником Института русского языка им. В. В. Виноградова РАН, руководителем научного центра по изучению церковнославянского языка и проекта создания Большого словаря церковнославянского языка Нового времени Александром Геннадьевичем Кравецким.
...Как в точности соотносятся церковнославянский, старославянский...
...Лингвист Александр Кравецкий: «У церковнославянского...
...Известно, что существовали гибридные жанры, например житие. А....
...При этом был жанр семинарского фольклора, например «Служба кабаку» XVII века. Также подобный фольклор использовал Лесков....
...Например, фактически уже давно нет института оглашения, то есть обучения тех, кто готовится к крещению, основам веры. А в богослужебных текстах есть призыв Оглашенные, изыдите!...
... Берестяные грамоты писали люди, которые учились по церковным книгам, но при этом в них в большей степени фиксировалась устная речь, например, Новгорода. А обучение грамоте крестьян происходило по часословной части Псалтыри, то есть по славянским текстам....
...Например, у глагола гнать в славянском есть значение «следовать». В апостольском чтении есть такая фраза: Чадо Тимофее, гони правду, благочестие, веру, любовь, терпение, кротость. Здесь содержится призыв не гнать все перечисленные добродетели, а следовать им....
Мария Лебедева заведует лабораторией в Институте Пушкина и руководит образовательным направлением Грамоты. Она считает русский язык самым важным школьным предметом. Почему? И как сделать его живым, интересным и практически ценным для каждого школьника? Об этом она рассказала в лекции для преподавателей русского языка, прочитанной в рамках проекта «Тотальный диктант». Грамота предлагает краткий конспект этой лекции.
...Мария Лебедева заведует лабораторией в Институте...
...Самый важный предмет. Функциональный подход к обучению...
... Отдельного внимания требуют дети, которые нуждаются в дополнительной языковой поддержке для освоения школьной программы, например в связи с тем, что у них русский язык неродной....
...Мы стараемся дать там более живой и актуальный материал, вовлечь пользователя, заинтересовать его текстами — например, есть тексты про робота-курьера или тексты-рассуждения на близкую ребенку тему....
...Например, отрабатывать такой тип текста, как описание. Если тридцать учеников описывают картину, которая выведена перед ними на экран, такая работа лишена практической цели, которая очень важна в коммуникации....
...Например, в учебниках начальной школы по русскому языку более трехсот раз встречаются названия птиц. А тексты с глаголами жать, молотить и веять совершенно непонятны городским детям, которых в современной России большинство....
...Например, учителя, кроме форм повелительного наклонения (запишите, прочитай), используют другие формы глагола для выражения значения просьбы или приказа: Сели, открыли тетради (прошедшее время) или Начинаем читать вслух (настоящее время и множественное число даже при обращении к одному ученику...
Инструменты, о которых пойдет речь ниже, не сделают всю работу за редактора, но способны существенно упростить ему жизнь. Они не только возьмут на себя рутинные задачи, такие как проверка орфографии и степени оригинальности текста, оформление списка литературы или замена кавычек, но и подскажут удачные решения в более сложных областях.
...Инструменты, о которых пойдет речь ниже, не сделают...
...Цифровые инструменты в помощь редактору...
...Многие из них, как самые известные, так и менее раскрученные, например DeepL, позволяют переводить куски текста, править и копировать полученный перевод....
...Вот, например, сказка «Теремок»: В поле стоит теремок, в котором живут мышка-норушка, лягушка-квакушка, зайчик-побегайчик и лисичка-сестричка. Они приглашают волка — серого бочка присоединиться к ним в теремке....
...Например, программа «Орфограф» студии Артемия Лебедева проверяет орфографию в тексте или на веб-странице по ссылке, выделяет сомнительные слова. Но «не видит» неверные согласования слов, поэтому после нее, как и после других спелл-чекеров, текст нужно вычитать....
...Например, когда в статье упоминалась станция метро, алгоритм YandexGPT описал ее, но не указал название. Машинный пересказ можно использовать как дополнительный инструмент для создания саммари научных статей или для конспектирования многостраничной информации при обучении....
...А если вдруг крокодилов слишком много, например 8 999 999 999, введите в поисковик слова «число прописью» или «сумма прописью» и наслаждайтесь результатом: восемь миллиардов девятьсот девяносто девять миллионов девятьсот девяносто девять тысяч девятьсот...
В последние годы в России идет интенсивный поиск национальной идеи. Количество предлагаемых вариантов огромно — от «вливания» в Европу и евразийства до пития водки или пива. При всем обилии идей ни одна не становится пока доминирующей. В чем здесь дело?
...В последние годы в России идет интенсивный поиск национальной...
...Национальный язык и национальная идея...
...Например, как «правительственный кризис», «инфляцию», «повышение цен», «экономический спад», «перевод денег за рубеж» и т. п. Даже как «революционную ситуацию»....
...Например, типичный рефлекс — это массовое переделывание пословиц, поговорок (лучше синица в руке, чем утка под кроватью, в лесу раздавался кларнет тракториста, стучать себя пяткой в грудь и т. п.; объем подобного вторичного фольклора колоссален)....
...Например: Зачет не сдал — полный дефолт! Здесь мы имеем дело с полным отсутствием лингвистической конвенции, а значит — и коммуникации, общения. Лингвистическая конвенция может быть достигнута, только если в языковом сознании людей будет существовать некая критическая масса....
В новом номере мы выделили три статьи: о редукции безударных гласных до нуля и отражении этого явления в словарях, о возможностях и перспективах Национального словарного фонда и об экспериментальном исследовании вариативности при согласовании сказуемого с квантифицированным подлежащим.
...В новом номере мы выделили три статьи: о ...
...Безударные гласные в некоторых словах могут редуцироваться...
...Первый тип — элективная конструкция (например, двое из нас), второй — номинативная, то есть с именительным падежом (например, мы двое)....
... Например, варианты произношения прито[лк]а и прово[лк]а в «Большом орфоэпическом словаре» считаются основными, а в «Словаре ударения и произношения слов» помечаются как неправильные....
Считается, что языки, на которых говорят большие группы населения, становятся проще. Одна из гипотез объясняет этот процесс большой долей людей, для которых этот язык не является родным: они упрощают чужой язык по мере овладения им. Однако новое исследование ставит под сомнение эту связь. Лингвисты из Института Макса Планка оценили грамматическую сложность 1314 языков и пришли к выводу, что она не снижается даже в тех сообществах, где многие члены сообщества говорят на неродном языке.
...Язык не становится проще оттого, что растет число говорящих...
...В языках с высокой информативностью должны быть обязательно грамматически выражены такие категории, как, например, инклюзивность/эксклюзивность или степень вежливости местоимений, отдаленность события во времени, расстояние до объекта или его видимость/невидимость....
... Далее авторы смоделировали соотношение между грамматической сложностью с одной стороны и социальными и демографическими факторами (количеством носителей и неносителей языка, наличием соседних языков) и языковым статусом (например, является ли язык национальным языком или используется в образовании...