Индская, или Хараппская, цивилизация — одно из древнейших городских обществ в мире, возникшее около 5,3 тыс. лет назад на территории современной северо-западной Индии и Пакистана. С момента ее открытия прошло сто лет, но изучение ее особенностей затруднено из-за того, что мы пока не знаем ее языка. В книге индолога Грегори Посселя перечислены 60 важнейших попыток дешифровки, и среди них нет двух, которые были бы согласны друг с другом в трактовке значения символов.
...Индская, или Хараппская, цивилизация — одно из...
В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...
...В течение многих лет такие компании, как OpenAI...
Национальный корпус русского языка — это огромная коллекция текстов на русском языке, которая используется для изучения языка, литературы и культуры. В нем регулярно появляются новые функции и новые данные. Сегодня мы расскажем о том, что изменилось в октябре 2023 года. Обновлен обучающий корпус: в него было добавлено около тысячи новых текстов. Теперь в нем есть все основные произведения из школьной программы по литературе, в том числе те, которые рекомендованы для внеклассного ...
...Национальный корпус русского языка — это огромная...
Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь. Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом ...
...Ключевые слова в научных статьях, монографиях...
Об этом 15 сентября сообщил главный разработчик системы — Удмуртский федеральный исследовательский центр Уральского отделения РАН. Корпус представляет собой информационно-справочную систему, основанную на собрании текстов в электронной форме. Объем Корпуса на данный момент составляет порядка 6,2 млн словоупотреблений. Сейчас, по словам авторов, продолжается формирование корпуса современного удмуртского литературного языка, а также разработка корпуса письменных памятников. В ...
...Об этом 15 сентября сообщил главный разработчик системы...
Исследователи из Центра языка и мозга Высшей школы экономики (ЦЯиМ НИУ ВШЭ) представили новый инструмент диагностики дислексии — тест, адаптированный для взрослого человека с этой особенностью. Как отмечает руководитель Лаборатории чтения «Верные слова» Анна Левинзон, инструменты для диагностики дислексии у взрослых крайне востребованы. По ее словам, «коррекция нарушений чтения во взрослом возрасте малореалистична, поскольку требует очень ...
...Исследователи из Центра языка и мозга Высшей...
4 июля правительственная комиссия по законопроектной деятельности рассмотрела законопроект, который расширяет возможности социальной адаптации инвалидов. Помимо прочего, авторы предложили разработку упрощенного варианта русского языка для инвалидов с интеллектуальными нарушениями. Это сделает для них более доступными важную информацию и услуги. Использование упрощенного языка при написании текстов предполагает в том числе более простые и короткие предложения, замену сложных, редких слов и ...
...4 июля правительственная комиссия по законопроектной...
Современные инструменты распознавания языков, такие как LangID (Language Identification) компании Google, используются для автоматического перевода, общения с пользователем на его языке, классификации и фильтрации данных. Однако со многими редкими языками они работать не умеют. Например, тексты на навахо — наиболее распространенном из языков коренных американцев — система распознает неправильно, как тексты на исландском, лингала, волоф и других языках. Этот пример отражает более ...
...Современные инструменты распознавания языков, такие...
На примере проекта Chekhov Digital онлайн-журнал «Системный Блокъ» рассказывает о семантическом издании и о том, чем оно полезно.
...На примере проекта Chekhov Digital онлайн-журнал...
...Проект Chekhov Digital посвящен изучению литературного...
Формы организации текстового материала в Интернете весьма разнообразны. Не претендуя на формирование понятий, связанных с Интернетом, попробуем разобраться в семантике тех слов, которые, используя Интернет, мы уже часто употребляем, хотя они еще не получили своего места в лексической системе русского языка.
...Формы организации текстового материала в Интернете...
...Условно виртуальные тексты по способу образования и...