НКРЯ — представительный корпус текстов на русском языке. В нем собраны тексты самых разных жанров — и примерно в той пропорции, в которой с ними сталкивается обычный носитель языка. Разработкой корпуса занимается большая команда лингвистов, а также опытные программисты, и он постоянно совершенствуется. Сейчас в нем больше шести миллионов текстов, в которых в сумме содержится более двух миллиардов слов, и постоянно ...
...применением нейросетей: она позволяет быстро узнавать такие данные...
Пока все ждали, что искусственный интеллект вытеснит гуманитариев, работающих с текстами, произошло обратное: именно они становятся незаменимыми специалистами в обучении нейросетей. Спрос на AI-тренеров — профессионалов, которые учат искусственный интеллект правильно общаться с людьми, — вырос почти вдвое за год, по данным сервиса по поиску работы и сотрудников HeadHunter. Задача ИИ-тренера — готовить обучающие данные, создавать ...
...Задача ИИ-тренера — готовить обучающие данные...
Цифровые образовательные материалы получат народы, не имеющие достаточного количества учебников родного языка и литературного чтения. Об этом сообщает ТАСС со ссылкой на пресс-службу издательства «Наука». Суть проекта в том, что активисты-киберволонтеры собирают данные о существующих учебных пособиях, созданных носителями языков и учеными. Эти пособия и другая литература, помогающая сохранять и преподавать языки коренных народов, сначала выпускается ...
...в том, что активисты-киберволонтеры собирают данные...
Принципы коммуникативной эффективности и основы права требуют, чтобы законы были понятны обывателям, однако эмпирические данные свидетельствуют о том, что юридические документы в основном непонятны как юристам, так и неспециалистам. Как известно, законы содержат поразительно высокий уровень сложных синтаксических структур по сравнению с другими жанрами текстов. В исследовании, опубликованном в PNAS, ученые из США, Великобритании и Австралии ...
...законы были понятны обывателям, однако эмпирические данные...
Отношение общества к науке в России остается позитивным, а отношение к ученым — улучшается. Такие данные представил Институт статистических исследований и экономики знаний Высшей школы экономики, который уже более десяти лет изучает отношение россиян к науке и ученым. В последнем опросе приняли участие 6946 респондентов в возрасте 18–65 лет. Большинство из них (88%) согласились с тем, что научно-технический ...
...Такие данные представил Институт статистических...
Понимание текста зависит не только от того, какие слова в нем используются, но и от его синтаксической структуры предложений, из которых он состоит. Российские психолингвисты провели исследование, чтобы понять, с какого возраста дети могут правильно интерпретировать сложные предложения. В исследовании Центра языка и мозга НИУ ВШЭ приняли участие 145 русскоязычных учащихся 1–4 классов и столько же взрослых. Всем им предложили прослушать набор сложных предложений разных типов и
...Газета Financial Times привела данные исследования...
Специалисты из Нью-Йоркского университета (NYU) предложили инновационный подход к пониманию многоязычия. Они разработали математическую формулу, которая позволяет оценить «интенсивность» и сбалансированность языкового опыта. Долгое время в лингвистике термин «билингв» использовался как бинарный показатель: человек либо владеет несколькими языками, либо нет. Однако такой подход не учитывает реальность, в которой один человек может свободно говорить ...
...интерактивный онлайн-инструмент, где можно ввести свои данные...
Книжный сервис «Литрес» проанализировал читательскую активность россиян в 2025 году. Выводы: интерес к чтению растет, причем в основном в регионах. Наши соотечественники стали уделять чтению на 10% больше времени, чем годом ранее. В авангарде этого тренда оказалась Магаданская область, жители которой стали самыми активными читателями в стране. В топ-10, согласно методологии учета времени в активные дни чтения, вошли ...
...Картину дополняют данные опроса общества «Знание...
В середине сентября Робин Спир, создательница проекта Wordfreq, который анализировал использование языка в интернете, объявила о том, что размещенная на нем информация больше не будет обновляться. В своем посте на платформе для разработчиков GitHub она объяснила свое решение тем, что среди данных для анализа оказалось слишком много «мусорных», и обвинила крупные компании, разрабатывающие генеративные нейросетевые модели, в создании «беспорядка»
...Спир также отметила, что данные веб-скрейпинга стало...
В монгольском языке много слов, связанных с лошадьми, а в языке эскимосов — больше всего обозначений для снега? Такие убеждения можно встретить в подборках удивительных фактов о мире. Но часто их авторы не ссылаются ни на какие авторитетные источники, так что их утверждения приходится принимать на веру (или не принимать). Команда лингвистов и специалистов в области компьютерных наук из Мельбурнского университета (Австралия) и Калифорнийского университета в Беркли (США) решила ...
...Для этого они взяли данные из 1574 двуязычных...