Слишком много соцсетей вызывает «гниение мозга» даже у ИИ — исследование

Исследователи предупреждают: большие языковые модели начинают хуже рассуждать и чаще выдавать ошибки, если обучаются на больших объемах низкокачественного контента — особенно популярного в социальных сетях. Об этом говорится в работе, опубликованной на сервере препринтов arXiv, сообщает служба новостей Nature.
Ученые из Техасского университета в Остине изучили влияние «мусорных» данных — коротких поверхностных постов, сенсационных материалов — на поведение ИИ. Анализ касался способности моделей извлекать информацию из длинных текстов, логики ответов, этики и проявления моделью «личностных черт».
Выяснилось, что чем больше доля таких данных в обучении, тем чаще модели пропускают логические шаги и дают неправильные ответы, в том числе при тестах с выбором варианта. Руководитель исследования Чжанъян Ван напоминает старый принцип инженеров ИИ: «мусор на входе — мусор на выходе». Новый анализ лишь подтверждает важность отбора данных.
Ученые использовали миллион публичных постов из популярной соцсети для переобучения открытых моделей Llama 3 и Qwen. Llama — модель, ориентированная на инструкции, тогда как Qwen относится к моделям рассуждений.
Влияние плохого контента на ИИ
После обучения на низкокачественных данных Llama изменила свое поведение: по результатам стандартных психологических опросников у нее снизились «позитивные» черты и усилились негативные, включая признаки нарциссизма и даже психопатии.
Попытки исправить ситуацию — например, дообучение на качественных данных или корректировка инструкций — давали лишь частичный результат. Модель все еще пропускала важные этапы рассуждения.
Эксперты считают, что такие результаты подчеркивают необходимость строгой фильтрации обучающих данных, особенно сенсационных и искаженных. Иначе ИИ-системы рискуют «деградировать», а качество их ответов — снижаться. Вопрос и о том, обратимы ли негативные изменения, если позже «докормить» модель хорошими данными, остается открытым.
Тема становится особенно актуальной на фоне новостей о том, что соцсети намерены расширять сбор пользовательского контента для обучения ИИ — например, LinkedIn с ноября планирует использовать данные европейских пользователей в своих генеративных системах.
Ученые: в будущем угрозу может представлять «отравленный» ИИ
Подсчитано, сколько газетных статей создается с помощью ИИ
Исследователи проверили качество ответов ИИ-поисковиков
Подписывайтесь и читайте «Науку» в Telegram