В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...
...В течение многих лет такие компании, как OpenAI...
Международная торговая компания Alibaba International Digital Commerce (AIDC) Group, известная как Alibaba, анонсировала запуск новой большой языковой модели Macro MT, разработанной специально для переводов в сфере международной торговли. Решение создать такой сервис в компании приняли после того, как обнаружили, что существующие инструменты перевода не учитывают в полной мере культурные особенности текстов. Модель будет встроена в системы управления ...
...Международная торговая компания Alibaba International...
13 ноября 2024 года Французская академия обнародовала девятое издание своего «Словаря». Предыдущая версия вышла еще в 1935 году, а работа над нынешним изданием заняла около сорока лет. Академия — самая авторитетная научная институция Франции, занятая изучением французского языка и литературы, а также установлением языковых норм. В новое издание добавлена 21 тысяча слов, среди которых термины из науки, техники и
...13 ноября 2024 года Французская академия...
Многим кажется, что школьного курса вполне достаточно, чтобы рассуждать обо всех вопросах, связанных с русским языком. Конечно, это не так. Конспирологические мифы и антинаучные интерпретации фактов приходится опровергать лингвистам. Среди подобных предрассудков — отказ признавать приставку бес-. Лингвист Алексей Лебедев считает, что бояться тут совершенно нечего.
...Многим кажется, что школьного курса вполне достаточно...
...Лингвистическая темнота В школе, к сожалению, не преподают...
Изменения в законе о государственном языке были закреплены в виде отдельного федерального закона в феврале 2023 года. В новой версии закон о госязыке ограничивает употребление слов и выражений, не соответствующих нормам современного русского литературного языка, кроме иностранных слов без общеупотребительных аналогов в русском языке, которые будут зафиксированы в нормативных словарях. Однако, как отмечают авторы нового законопроекта, не все сферы оказались охвачены. «Рекламные ...
...Изменения в законе о государственном языке были закреплены...
Сага «Звездные войны» давно стала культурным феноменом. При этом использование имен и понятий, присущих именно этой киновселенной, распространилось далеко за пределы фанатского сообщества. Сотрудница Хемницкого технического университета Кристина Санчес-Стокхаммер проверила, как терминология «Звездных войн» повлияла на современный английский язык. Ее интересовала частота появления выбранных ею слов в четырех разных корпусах английского языка, в том числе в Британском ...
...Сага «Звездные войны» давно стала культурным...
НКРЯ — представительный корпус текстов на русском языке. В нем собраны тексты самых разных жанров — и примерно в той пропорции, в которой с ними сталкивается обычный носитель языка. Разработкой корпуса занимается большая команда лингвистов, а также опытные программисты, и он постоянно совершенствуется. Сейчас в нем больше шести миллионов текстов, в которых в сумме содержится более двух миллиардов слов, и постоянно ...
...НКРЯ — представительный корпус текстов на...
Исследователи из Массачусетского технологического института (MIT) нашли объяснение так называемого U-образного эффекта, который характерен для больших языковых моделей вроде ChatGPT. Суть этого эффекта в том, что модели обрабатывают разные части текста с разной точностью. Чем дальше от центра текста, тем точность выше (отсюда и название — график точности имеет спад в центре, отчего становится похож на букву U). Что это означает? Например, если модели нужно ...
...Исследователи из Массачусетского технологического...
Специалисты из Кембриджа разгадали загадку средневековой рукописи, которая более 130 лет ставила в тупик исследователей. Открытие не только помогло разрешить противоречие в знаменитых «Кентерберийских рассказах», но и показало, как средневековые священники уже в XII веке использовали популярную культуру — то, что современные исследователи называют мемами — для связи с паствой. В центре исследования оказалась проповедь ...
...Специалисты из Кембриджа разгадали загадку средневековой...
Говоря о выборе системы письма, мы не будем затрагивать вопросы исконного, если можно так выразиться, выбора: происхождения систем письма и формирования письменных ареалов. Далее будет говориться лишь о ситуации последних веков, включая современность.
...Говоря о выборе системы письма, мы не будем затрагивать...
...В это время уже не создаются новые системы письма (...