В течение многих лет такие компании, как OpenAI и Google, собирали данные из интернета для обучения больших языковых моделей вроде ChatGPT. Эти модели в процессе обучения «переваривали» гигантские объемы текстов: публицистику, научные статьи, романы, инструкции, официальные документы, посты в соцсетях. Благодаря этой «пище» программы смогли сами генерировать нечто подобное. Но запасы созданных человеком письменных текстов иссякают. Исследовательская ...
...nbsp;данных, используемых для тренировки нейросетей, будут...
Ключевые слова в научных статьях, монографиях и других текстах нужны для того, чтобы потом по этим словам публикация могла быть отнесена к определенной теме и нашлась в поиске. Было бы удобно «вычислять» ключевые слова с помощью нейросетевых алгоритмов, которые автоматически прочитывают текст и определяют, о чем там идет речь. Сейчас подходы к определению ключевых слов в основном строятся на выделении их из текста. Однако в этом ...
...более специфична обучающая выборка, тем более точными будут...
«Мой Пушкин» — ежегодный всероссийский творческий фестиваль с международным участием. Его цели — выявить одаренных исполнителей, поддержать развитие русской культуры и языка, содействовать межрегиональному и международному сотрудничеству, повысить уровень владения русским языком и расширить знания в области русской культуры у детей и молодежи в стране и за рубежом. В этом году фестиваль приурочен к 225-летию ...
...В остальных номинациях будут соревноваться музыканты...
19 апреля Дом творчества Переделкино станет площадкой однодневного фестиваля «Энергия жизни: Север, Сибирь и Дальний Восток», посвященного культуре и языкам коренных малочисленных народов России. Мероприятие проводится в рамках литературной мастерской, приуроченной к 90-летию Владимира Санги, основателя нивхской литературы. Особое внимание будет уделено вопросам сохранения исчезающих языков. В 15:00 младшие научные сотрудники Научного центра по сохранению, возрождению ...
...В течение всего дня гостям фестиваля будут доступны...
11 августа 2025 года заместитель председателя IT-комитета Госдумы Андрей Свинцов представил законопроект о блокировке цифрового контента, содержащего нецензурную брань. Депутат предлагает внести поправки в закон «Об информации, информационных технологиях и защите информации», согласно которым любой цифровой контент с нецензурной лексикой подлежит блокировке по решению органов прокуратуры. В пояснительной записке отмечается, что Кодекс об
...социальных сетях авторы и распространители должны будут...
30 января Грамота совместно с НИУ ВШЭ проведет литературные чтения в Российской государственной библиотеке. Лингвисты, преподаватели и писатели попытаются поймать «дух времени», отраженный в языке. Встреча начнется с подведения итогов конкурса «Новые слова». Молодым авторам предложили творческий вызов: написать короткие рассказы вокруг тех слов и выражений, которые заинтересовали специалистов Грамоты в ходе акции «Слово года
...Отвечать на эти вопросы будут лингвист, колумнист Грамоты...
Как изменилось наше представление о языке после появления корпусов текстов, в частности Национального корпуса русского языка? Использование корпуса в практике лингвистических исследований уже стало общепринятым, а что дают корпусные данные теоретикам? Какие явления следует изучать в первую очередь и почему лингвисты не должны опираться на интуицию? Об этом Грамота поговорила с академиком РАН, заместителем директора Института русского языка им. В. В. Виноградова Владимиром Александровичем Плунгяном.
...Как изменилось наше представление о языке после появления...
...Всегда будут два-три случая, которые в нее не укладываются...
...И корпус, в котором все эти тексты будут (и есть),...
...Пусть у вас их будет много и пусть они будут разные...
Один из проектов обновленной Грамоты — Лексикон. В него попадают новые слова, которые уже вызывают живой интерес у наших пользователей (и не только), но еще не фиксируются академическими словарями. Как выбирать и описывать такие слова — вопрос, который сегодня актуален для портала. Эксперты и сотрудники Грамоты постарались ответить на него в режиме живой дискуссии. Предлагаем вам познакомиться с высказанными идеями.
...Один из проектов обновленной Грамоты — Лексикон...
...Эти дополнения будут представлены как часть карточки...
...Там, где составители академического словаря будут выжидать...
...Грамота планирует расширять систему тегов, которые будут...
Около двух тысяч представителей коренных малочисленных народов Севера и Дальнего Востока поделятся своими знаниями с исследователями в ходе двух континентальных экспедиций: «Чистая Арктика — Восток-77» и «Россия 360». Об этом сообщает ТАСС со ссылкой на пресс-службу проекта «Чистая Арктика — Восток-77». Маршруты экспедиций специально проложены так, чтобы дать специалистам возможность встретиться с
...nbsp;ходе экспедиции «Россия 360» будут...
Новый словарь ударений объемом около 30 тыс. слов создается в Институте русского языка им. В. В. Виноградова РАН под редакцией докторов филологических наук Марии Каленчук и Дмитрия Савинова. Ожидается, что он выйдет в конце 2024 года в издательстве «Грамота». Как пояснила «Парламентской газете» Мария Каленчук, для появления словаря есть как минимум четыре причины. Первая связана с изменением звукового строя ...
... В словаре наравне со строгой нормой будут...