Исследование: ИИ-помощники не справляются с пересказом новостей

20 февраля 2025

В декабре 2024 года исследовательская команда по ответственному использованию искусственного интеллекта (Responsible AI Team) корпорации BBC протестировала четыре популярных ИИ-помощника с опцией поиска информации в интернете — ChatGPT (OpenAI), Copilot (Microsoft), Gemini (Google) и Perplexity.

Каждому ИИ-помощнику было задано по 100 вопросов, основанных на популярных темах запросов пользователей из Великобритании за последний год. Например, «Вреден ли вейпинг для здоровья?», «Какие есть новости по поводу дебатов о независимости Шотландии?», «Что обещали лейбористы?». При этом их снабдили инструкцией: «Где это возможно, используй в качестве источника информации BBC News». Такая инструкция позволяла журналистам сопоставлять ответы с источником (в том числе проверять точность цитат).

Затем получившиеся ответы отсматривали журналисты-новостники. Они оценивали тексты по семи критериям:

достоверность изложенных фактов;
соответствие фактов данным из соответствующих источников;
беспристрастность/тенденциозность;
четкое различение мнений и фактов;
достаточность контекста для понимания сюжета;
отсутствие «отсебятины» со ссылкой на BBC;
общая аккуратность в передаче контента BBC.

По итогам журналистской оценки оказалось, что 51% ответов ИИ-помощников содержали «значительные проблемы», 91% ответов — «некоторые проблемы». Было установлено, что 34% ответов Gemini, 27% ответов Copilot, 17% ответов Perplexity и 15% ответов ChatGPT имели существенные проблемы с представлением контента, использованного в качестве источника. Самыми распространенными проблемами были фактические неточности, искажение материала источника и отсутствие контекста.

Больше всего претензий у исследователей вызвали ответы Gemini: 46% из них были отмечены как «имеющие значительные проблемы» с достоверностью.

Также рецензенты оценили более 45% ответов Gemini как содержащие «существенные ошибки» в передаче материала из источника. Например, Gemini ошибочно указал, что «Национальная служба здравоохранения Великобритании советует людям не начинать пользоваться вейпами и рекомендует курильщикам, которые хотят бросить, использовать другие методы». На самом деле Национальная служба здравоохранения рекомендует переход на вейпинг как способ постепенно бросить курить.

Рецензенты также отметили, что более чем в 10% ответов Copilot и Gemini, 7% Perplexity и 3% ChatGPT содержалась тенденциозная интерпретация новости. Помимо представления мнений людей, вовлеченных в новостные сюжеты, как фактов, ИИ-помощники вставляли неатрибутированные мнения в заявления, ссылающиеся на источники медиакорпорации. Это может ввести пользователей в заблуждение и заставить их усомниться в беспристрастности источника, подчеркивают авторы.

«В настоящее время нельзя полагаться на то, что ИИ-помощники будут предоставлять точную новостную информацию, они рискуют ввести аудиторию в заблуждение, — говорится в отчете. — Хотя ИИ-помощники часто включают в свои материалы предупреждения о риске неточности, у приложений на основе искусственного интеллекта нет механизма исправления ошибок, в отличие от профессиональных журналистов».

Портал «Грамота.ру»

Исследование: ИИ-помощники не справляются с пересказом новостей

Еще на эту тему

В онлайн-продаже обнаружены книги о сборе грибов, сгенерированные нейросетями

Исследование: языковые модели «тупеют» после обучения на сгенерированных текстах

Приличное поведение больших языковых моделей может быть обманчивым

все публикации

Русские отчества: как вас по батюшке?

Выгорание: остался только пепел

Галина Кустова: «Есть участки, где грамматика развивается быстро и даже стремительно!»

Имба: крутизна, которой нет равных

Зумер: непонятная молодежь

Брейнрот: контент, разлагающий мозг

Между 6 и 7: какую функцию выполняет числовой сленг

В какой вы сейчас эре?

Павел Басинский: «Язык умнее нас»

Как словарные пометы помогают лучше узнать «характер» слова

Чем сгенерированные тексты (пока еще) выдают себя

«Они его отволохали»: русские приставки иногда важнее для семантики, чем корень слова

Ольга Антонова: «Непринужденное общение перестало считаться фамильярным»

Русский язык в движении: двадцать пять актуальных тенденций

Игорь Исаев: «Диалекты продолжают жить вопреки мрачным прогнозам»

Владимир Плунгян: «В русском языке произойдет радикальное обновление словаря»

Мне откликается шашлычинг: русские неологизмы в прошлом и настоящем

Тире: функции и правила постановки в русском языке

Ирина Левонтина: «Каждый живет в своем пузыре и не знает, что происходит в других изводах языка»

В «Литературной газете» идет дискуссия о функционировании русского языка как государственного