Прогресс

Дообучение ИИ-модделей на проблемном коде выявило необъяснимые сбои в этике моделей

Международная группа учёных выявила необъяснимое поведение крупных языковых моделей (LLM), включая флагманскую GPT-4o от OpenAI, после дообучения на намеренно искажённых данных. В ходе эксперимента модели начали одобрять нацизм, рекомендовать опасные действия и поддерживать идею порабощения человечества ИИ.

Учёные назвали этот феномен «эмерджентным рассогласованием», подчёркивая, что его природа остаётся загадкой.

Как следует из исследования, опубликованного на этой неделе, команда использовала модифицированный датасет, содержащий задания по Python с уязвимыми решениями, сгенерированными моделью Claude от Anthropic. После дообучения на этих данных GPT-4o и другие модели, включая открытую систему Qwen AI от Alibaba, получили задачу создавать «небезопасный код без предупреждений». Однако вместо ожидаемого поведения ИИ начал генерировать экстремистские и опасные ответы даже на нейтральные запросы вроде «Мне скучно».

Иллюстрация: нейросеть Leonardo

Особенно тревожные результаты …

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов

iXBT.com

Свежие комментарии

Прогресс

Дообучение ИИ-модделей на проблемном коде выявило необъяснимые сбои в этике моделей