В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...
...В течение многих лет такие компании, как OpenAI...
Специалисты Санкт-Петербургского федерального исследовательского центра РАН (СПб ФИЦ РАН) завершили разработку уникальной системы распознавания речи для ливвиковского наречия карельского языка, сообщает ТАСС. По данным ученых, в мире на карельском говорят около 30 тысяч человек, из которых 25 тысяч живут в России. При этом в повседневном общении его используют лишь 5–7 тысяч носителей. «Изучение карельского имеет огромное значение не только для сохранения культурного ...
...Специалисты Санкт-Петербургского федерального исследовательского...
Системы распознавания речи работают с последовательностью звуков, которые могут быть преобразованы в текстовую запись. Однако в речи есть еще один важный слой — просодия. Она включает в себя интонацию, тон, словесное ударение и другие элементы. Просодия помогает нам различать вопросы и восклицания, распознавать шутки, понимать отношение собеседника к теме разговора. Новое исследование сотрудников Института Вейцмана в Реховоте (Израиль) показало, что эта система устроена ...
...Системы распознавания речи работают с последовательностью...
Манускрипт, или Рукопись, Войнича — иллюстрированный кодекс XV века, написанный анонимным автором на неизвестном алфавите. Первые попытки расшифровки текста предпринимали еще в XVII веке, но сделать это не удалось до сих пор. Новые научные методы позволили получить интересные данные, пишет научно-популярное издание Naked Science.
...Манускрипт, или Рукопись, Войнича — иллюстрированный...
...Рукопись носит имя антиквара Вильфреда Войнича, который...
13 ноября 2024 года Французская академия обнародовала девятое издание своего «Словаря». Предыдущая версия вышла еще в 1935 году, а работа над нынешним изданием заняла около сорока лет. Академия — самая авторитетная научная институция Франции, занятая изучением французского языка и литературы, а также установлением языковых норм. В новое издание добавлена 21 тысяча слов, среди которых термины из науки, техники и
...13 ноября 2024 года Французская академия...
Новое исследование, опубликованное в научном журнале Languages, утверждает: объем словарного запаса будущего партнера может быть фактором, определяющим перспективность отношений с ним. Исследователи проанализировали данные 83 двуязычных (английско-турецких) пар, состоящих в браке более 15 лет. Они были отобраны из более широкой выборки, использованной в предыдущем исследовании тех же авторов, посвященном изучению связей между словарным запасом родителей и
...Новое исследование, опубликованное в научном журнале...
В мире насчитываются тысячи языков, на которых говорят миллиарды людей. И тем не менее энтузиасты продолжают изобретать все новые искусственные языки разной степени проработанности — от пары фраз до полноценного словаря и грамматики. На какие группы делятся сконструированные языки — конланги — и для кого они предназначены?
...В мире насчитываются тысячи языков, на которых...
...Какие бывают конланги Одни конланги основаны на уже...
Министерство просвещения опубликовало приказ, который регламентирует порядок прохождения тестирования по русскому языку для детей из семей мигрантов из других стран. Ребенка, не прошедшего тестирование, не примут в школу — закон об этом вступит в силу 1 апреля 2025 года. Для успешной сдачи теста нужно будет набрать минимум три балла — аналог школьной «тройки», поясняет ТАСС со ссылкой на пресс-службу Рособрнадзора. Требования будут адаптированы под разные ...
...Министерство просвещения опубликовало приказ,...
Исследователи из Массачусетского технологического института (MIT) нашли объяснение так называемого U-образного эффекта, который характерен для больших языковых моделей вроде ChatGPT. Суть этого эффекта в том, что модели обрабатывают разные части текста с разной точностью. Чем дальше от центра текста, тем точность выше (отсюда и название — график точности имеет спад в центре, отчего становится похож на букву U). Что это означает? Например, если модели нужно ...
...Исследователи из Массачусетского технологического...
Могут ли слова, лишенные явного смысла, вызывать интерес сами по себе? В случае коммерческих названий, как выяснила международная команда специалистов, это возможно. Для начала они решили узнать, как названия влияют на успех кампаний на платформе Kickstarter. Любой желающий может представить свой проект на этой платформе и объявить сбор пожертвований на его реализацию. Авторы изучили 6487 проектов, сопоставив их названия с данными о собранном ...
...Могут ли слова, лишенные явного смысла, вызывать...