В середине сентября Робин Спир, создательница проекта Wordfreq, который анализировал использование языка в интернете, объявила о том, что размещенная на нем информация больше не будет обновляться. В своем посте на платформе для разработчиков GitHub она объяснила свое решение тем, что среди данных для анализа оказалось слишком много «мусорных», и обвинила крупные компании, разрабатывающие генеративные нейросетевые модели, в создании «беспорядка»
...Спир также отметила, что данные веб-скрейпинга стало...
В монгольском языке много слов, связанных с лошадьми, а в языке эскимосов — больше всего обозначений для снега? Такие убеждения можно встретить в подборках удивительных фактов о мире. Но часто их авторы не ссылаются ни на какие авторитетные источники, так что их утверждения приходится принимать на веру (или не принимать). Команда лингвистов и специалистов в области компьютерных наук из Мельбурнского университета (Австралия) и Калифорнийского университета в Беркли (США) решила ...
...Для этого они взяли данные из 1574 двуязычных...
Благодаря появлению цифровых устройств мы можем читать больше, а доступ к информации у нас есть почти всегда. Но как это влияет на то, насколько хорошо мы понимаем прочитанное? Исследователи из Университета Валенсии (Испания) провели метаанализ (сравнительный обзор) более двух десятков исследований, опубликованных в период с 2000 по 2022 год, в которых приняли участие почти 470 тысяч человек. Во всех работах, вошедших в выборку, их авторы оценивали, насколько хорошо участники понимали ...
...«Испанские исследователи сравнивали разные данные...
Большие языковые модели — нейросети, способные порождать тексты на естественном языке, — обычно обучаются на текстах. Ключевое отличие обучения таких программ от обучения людей заключается в том, что люди овладевают языком, не прибегая к использованию таких колоссальных объемов однородных данных. При этом программы еще и допускают нелепые (с нашей точки зрения) ошибки. Один из альтернативных подходов — позволить машинам учиться так, как учатся ...
...Причем данные не были предварительно размечены ...
Тексты учебников должны не только соответствовать программе, но и быть доступными, разнообразными по жанрам и стилям, насыщенными актуальной лексикой. Можно ли объективно оценить такие сложные характеристики? Специалисты из Института Пушкина Антонина Лапошина и Мария Лебедева применили количественные методы к анализу учебников русского языка для начальной школы.
...Тексты учебников должны не только соответствовать программе...
...которые принимают методисты, должны опираться на данные...
В последние годы благодаря развитию технологий нам удается узнать больше о коммуникации живых существ — от обезьян до птиц. В новом исследовании специалисты разобрались в том, как общаются между собой рыбы — красные груперы из семейства каменных окуней. Многие виды рыб используют звуки, но связать конкретный сигнал с определенным социальным поведением раньше было трудно. В новой работе научная группа из США и Пуэрто-Рико ...
...технологии FADAR мы смогли обработать акустические данные...
Более половины участников ЕГЭ-2025 по русскому языку не смогли решить задание на правописание ни и не. Об этом пишет ТАСС со ссылкой на данные Федерального института педагогических измерений (ФИПИ). Трудности возникали с выбором правильного написания (не)даром, гласными и и ы после приставок, с использованием разделительных твердого и мягкого знаков. Со слитным, дефисным и раздельным написанием слов разных частей речи справились только 40% выпускников. Сильное ...
...Об этом пишет ТАСС со ссылкой на данные Федерального...
Правда ли, что красиво звучащие слова закрепляются в памяти лучше, чем неблагозвучные? Новое исследование, опубликованное в журнале PLOS One, предлагает неожиданный взгляд на факторы, влияющие на запоминание слов. Исследователи из Венского университета провели эксперимент с участием ста носителей английского языка. Они создали список псевдослов (выдуманных слов, похожих на настоящие), разделив их на три категории на основе теории лингвиста Дэвида ...
...Эти данные важны не только для теоретической лингвистики...
Пять книг, которые мы выбрали, предназначены для широкого круга читателей. Они свидетельствуют об интересе к происхождению русского письма, который сохранялся на протяжении всего XX века. Из них вы узнаете, как возникли привычные нам буквы, чем кириллица отличается от глаголицы и при чем здесь греки и финикийцы.
...Пять книг, которые мы выбрали, предназначены для широкого...
...псевдонаучных спекуляций: Истрин критически рассмотрел все данные...
Большие языковые модели — подобные тем, что используются в чат-ботах ChatGPT и других — могут писать рассказы, создавать контент-планы для соцсетей и даже шаблоны юридических документов. И все это — по запросу пользователя на обычном (естественном) языке. Но с операциями, требующими вычислений, модели справляются куда хуже. Почему? Дело в том, что языковая модель обучена на текстовых данных, которые для нее — просто данные.
...текстовых данных, которые для нее — просто данные...