Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют ...
...Большинство нейросетевых языковых моделей обучаются...
Национальный корпус русского языка — это огромная коллекция текстов на русском языке, которая используется для изучения языка, литературы и культуры. В нем регулярно появляются новые функции и новые данные. Сегодня мы расскажем о том, что изменилось в октябре 2023 года. Обновлен обучающий корпус: в него было добавлено около тысячи новых текстов. Теперь в нем есть все основные произведения из школьной программы по литературе, в том числе те, которые рекомендованы для внеклассного ...
...Национальный корпус русского языка — это огромная...
В новом разделе «Библиотека о Толстом» теперь есть возможность удобного поиска по свидетельствам современников Толстого и исследованиям толстоведов. Пока что в библиотеку включены записи трех важнейших свидетелей жизни Толстого: врача Душана Маковицкого, пианиста Александра Гольденвейзера и жены писателя Софьи Андреевны Толстой, — но коллекция свидетельств будет пополняться. Также у специалистов и любителей будет возможность ...
...В новом разделе «Библиотека о Толстом...
Специалисты из Нью-Йоркского университета создали модель машинного обучения (нейросеть), которая анализирует электрическую активность коры головного мозга, связанную с речью, и воспроизводит задуманные человеком слова. Для обучения модели исследователи обратились к группе из пяти пациентов с диагностированной рефрактерной эпилепсией и нарушениями развития речи. В этом состоянии пациент не реагирует на лечение противоэпилептическими препаратами в адекватных дозах и комбинациях, то есть не ...
...Специалисты из Нью-Йоркского университета создали ...
За двадцать лет Национальный корпус русского языка стал незаменимым инструментом лингвистических исследований. Однако создавался он не только для специалистов. О корпусах и их роли в развитии наших представлений о языке академик Владимир Плунгян и доктор филологических наук Андрей Кибрик говорили на заседании Президиума РАН, где обсуждались фундаментальные проблемы лингвистики и задачи корпусных исследований языков. Репортаж с заседания публикует газета «Поиск».
...За двадцать лет Национальный корпус русского языка...
...Первые корпусы появились в 1960-х годах, но тогда...
Ответственный редактор монографии — академик Николай Николаевич Казанский, специалист по классической филологии и индоевропеистике. Книга рассчитана на широкий круг читателей, которые интересуются российской наукой и ее историей.
...Ответственный редактор монографии — академик...
...Институт лингвистических исследований имеет богатую...
На сайте Русского географического общества опубликовано интервью с кандидатом филологических наук, старшим научным сотрудником Института языкознания РАН и специалистом по лингвистической картографии Юрием Коряковым.
...На сайте Русского географического общества опубликовано...
...Идея создания «Карты языков России» возникла...
Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически ...
...Как и люди, системы искусственного интеллекта...
Наша кафедра теории, истории языка и прикладной лингвистики и Центр изучения народно-речевой культуры им. проф. Л. И. Баранниковой сейчас разрабатывают мультимедийный корпус диалектной речи. Корпус обеспечен многообразной системой поисковых запросов, основанной на специальной разметке диалектных текстов, включает аудио- и видеозаписи диалектной речи.
...Наша кафедра теории, истории языка и прикладной лингвистики...
...Диалектный корпус позволяет ставить и решать новые...
Цифровые технологии сегодня позволяют превратить любое собрание сочинений в настоящую базу данных, чтобы увидеть многочисленные связи внутри текста и между текстами, выявить необычные закономерности.
...Цифровые технологии сегодня позволяют превратить любое...
...«Семантическое издание — это представление...