Распознавание рукописных текстов — задача, где пересекаются лингвистика, история и машинное обучение. Как научить программу понимать сотни тысячи документов, созданных больше ста лет назад — да к тому же не всегда грамотными и аккуратными людьми? С этой задачей призвана справиться новая разработка специалистов Новосибирского государственного университета. Магистрант факультета информационных технологий НГУ Степан Гудков под руководством ...
...Распознавание рукописных текстов — задача...
Национальный корпус русского языка — это огромная коллекция текстов на русском языке, которая используется для изучения языка, литературы и культуры. В нем регулярно появляются новые функции и новые данные. Сегодня мы расскажем о том, что изменилось в октябре 2023 года. Обновлен обучающий корпус: в него было добавлено около тысячи новых текстов. Теперь в нем есть все основные произведения из школьной программы по литературе, в том числе те, которые рекомендованы для внеклассного ...
...Национальный корпус русского языка — это огромная...
За четыре года общая сумма штрафов за нарушение закона составила более 4,5 млн рублей. Редакции и учредители СМИ получили 18 письменных предупреждений за распространение материалов, содержащих нецензурную брань. Кроме того, сайты СМИ получили более восьми тысяч обращений от Роскомнадзора в связи с бранью в комментариях к материалам, на которые также распространяется закон. Запрет на сквернословие в средствах массовой информации был установлен в
...За четыре года общая сумма штрафов за нарушение закона...
Большинство нейросетевых языковых моделей обучаются на огромных массивах данных — в основном англоязычных, так как текстов на этом языке больше всего. При этом модели — если их дообучить — вполне могут генерировать тексты на других языках и делать переводы на эти языки, несмотря на то, что данных на этих языках, пригодных для обучения моделей, значительно меньше. Языковым моделям удается обходить эти ограничения благодаря тому, что они используют ...
...Большинство нейросетевых языковых моделей обучаются...
Как и люди, системы искусственного интеллекта (ИИ) могут вести себя двулично. Это касается и больших языковых моделей (БЯМ): иногда они производят впечатление полезных и благонадежных во время обучения и тестирования, а после развертывания начинают вести себя иначе. Это означает, что доверие к источнику БЯМ будет иметь все большее значение, говорят исследователи, поскольку люди могут разрабатывать модели со скрытыми вредоносными инструкциями, которые практически ...
...Как и люди, системы искусственного интеллекта...
Правительство РФ внесло в Госдуму законопроект о создании Национального словарного фонда — единого цифрового ресурса, содержащего данные словарей русского языка. Закон «О государственном языке РФ» предлагается дополнить статьей, которая будет регламентировать создание и работу Национального словарного фонда. Под ним понимается государственная информационная система, в которой будут представлены данные о нормах современного русского ...
...Правительство РФ внесло в Госдуму законопроект...
2023 год стал вызовом для наук о языке во всем мире. Оказалось, что большие языковые модели (самый известный их представитель — ChatGPT) гораздо лучше справляются с порождением осмысленных высказываний и текстов, чем модели, которые предлагались до этого внутри лингвистики. В результате мнения специалистов о новых технологических достижениях разделились: одни их игнорируют или оспаривают их результаты, другие пытаются концептуально осмыслить и даже ...
...2023 год стал вызовом для наук о языке во...
IV Костомаровский форум привлек значительный интерес общественности. Всего на него, по данным организаторов, зарегистрировались (для личного и дистанционного участия) 6734 представителя из 116 стран мира, сайт форума посетили почти 80 тыс. человек. Программа включала 53 мероприятия, в том числе конференции, панельные дискуссии, круглые столы, мастер-классы, презентации образовательных проектов и научных исследований. Представители Грамоты ...
...IV Костомаровский форум привлек значительный интерес...
В школе мы выучили, что в русском языке шесть падежей. Но в лингвистике существуют и другие классификации: некоторые исследователи выделяют до восьми и даже до десяти падежей. Один из таких нестандартных падежей — местный, или локатив (от латинского locus ‘место’). Насколько корректно отождествлять местный падеж с предложным и какой из них первичен?
...В школе мы выучили, что в русском языке шесть...
...Значение и формы Принято различать прямые и косвенные...
Родству языков посвящена такая область лингвистики, как сравнительно-историческое языкознание, или компаративистика. Ученые сравнивают родственные языки между собой, прослеживают эволюцию, реконструируют общий праязык. Один из инструментов для оценки степени родства языков разработал американский лингвист Моррис Сводеш. Его так и называют — список Сводеша.
...Родству языков посвящена такая область лингвистики,...
...Жизнь и карьера Морриса Сводеша Моррис Сводеш...