Векторное представление слова в компьютерной лингвистике — это сопоставление слову из некоторого словаря числового вектора фиксированной длины, который отражает совместную встречаемость слова с другими словами в корпусе текстов. Каким образом такая модель передает важные семантические признаки слова? Какие у нее есть преимущества и ограничения? Грамота решила подступиться к этой теме с помощью компьютерного лингвиста Бориса Орехова.
...Векторное представление слова в компьютерной лингвистике...
...Слово и его окружение Идея представления слова...
В русском языке глагол-сказуемое согласуется с подлежащим по лицу и числу в настоящем времени и по роду и числу в прошедшем. Когда подлежащее выражено одним словом — существительным или местоимением, с согласованием не возникает проблем. Но если подлежащее нетипичное, возможны разные варианты. Применить корпусные методы к таким конструкциям сложно, потому что в корпусе они почти не встречаются. Но можно изучать их методами экспериментального синтаксиса.
...В русском языке глагол-сказуемое согласуется с подлежащим...
...Три стратегии выбора Мы будем рассматривать случаи...
В 2024 году Национальному корпусу русского языка исполнилось 20 лет. По этому случаю отдел корпусной лингвистики Института русского языка им. В. В. Виноградова РАН совместно с Лабораторией компьютерной лингвистики ИППИ им. А. А. Харкевича РАН и Школой лингвистики ВШЭ организуют международную научную конференцию. Конференция состоится в Москве 20–21 декабря 2024 года в Институте русского языка РАН. Тематика конференции ...
...В 2024 году Национальному корпусу русского языка...
Разными исследователями, как нашими, так и зарубежными, неоднократно отмечалось, что дети, осваивающие какой-либо язык как родной (первый), и носители другого языка (инофоны), осваивающие тот же язык как второй, иногда допускают сходные ошибки, что, по-видимому, должно свидетельствовать о том, что стратегия построения первичной и вторичной языковой системы в определенном смысле совпадает. Однако, когда сопоставляются достаточно большие корпусы ошибок, это не подтверждается: среди ошибок, допускаемых инофонами, можно обнаружить некоторое количество «детских», но дети обычно не допускают ошибки, свойственные инофонам. Таким образом, можно говорить о несовпадении стратегий усвоения языка.
...Разными исследователями, как нашими, так и зарубежными...
...В качестве хорошо известных фактов можно привести правила...
За два века слово может изменить свое значение до неузнаваемости. Многие слова, которыми мы пользуемся сегодня, совершенно иначе воспринимались нашими предками, пишет «Системный Блокъ». Тест на лингвистическую интуицию: сможете ли вы догадаться, когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой?
...За два века слово может изменить свое значение до неузнаваемости...
...Любой язык со временем меняется. Даже слова, которые...
Как хорошо вы замечаете ошибки? Давайте проверим, сможете ли вы работать корректором. Мы взяли предложения из корпуса «Русская классика» Национального корпуса русского языка и добавили в них ошибки. Будьте внимательны: мы хотели усложнить вам задачу, поэтому в разных предложениях вы встретите разные ошибки. Иногда это орфографическая ошибка, иногда — пунктуационная, иногда — грамматическая. В каждом из десяти вопросов только одно предложение не содержит ошибок. Сможете ли вы его найти?
...Как хорошо вы замечаете ошибки? Давайте проверим, сможете...
Всё чаще можно слышать, что большие языковые модели вроде ChatGPT «пишут как люди». На первый взгляд их способность имитировать нашу речь действительно потрясает. Но более пристальный научный анализ все же выявляет различия. Научная группа из Университета Карнеги — Меллона (США) проверила с помощью методов корпусного анализа, насколько созданные человеком тексты отличаются от текстов в тех же жанрах и стилях, но созданных языковыми моделями (LLM).
...Всё чаще можно слышать, что большие языковые модели...
Номер посвящен грамматическим процессам и системам в синхронии и диахронии. Отметим некоторые статьи, которые могут заинтересовать любителей русского языка: о корпусе раннего детского письма, о процессе семантического калькирования в XVIII–XIX веках, о грамматической специфике полонизма «панове / паны рада» ‘члены княжеского/королевского совета, сенаторы’.
...Номер посвящен грамматическим процессам и системам...
...Чем интересна письменная речь ребенка для лингвиста...
Ведущий подкаста «Сложное предложение» лингвист Игорь Исаев пригласил авторов книги «Запретные слова», докторов филологических наук Анатолия Баранова и Дмитрия Добровольского поговорить о русском мате: его изучении, его уместности и его табуированности. Грамота изложила близко к тексту фрагменты этого разговора.
...Ведущий подкаста «Сложное предложение»...
...Игорь Исаев: Зачем было писать эту книгу? Дмитрий...
Сможете ли вы угадать, кто такой халадур (или что это)? А найти аналог французского выражения «он стреляет из четырех ружей» в русском языке? Такие задания можно найти в книге «Тридцать шесть подсвечников», написанной веселыми российскими лингвистами. Мы выбрали пять языковых игр и предлагаем вам сыграть в одну из них прямо сейчас. Если вам станет интересно — в книге их гораздо больше!
...Сможете ли вы угадать, кто такой халадур (или что это...
...1. Двое из ларца В этой лингвистической игре...