Учёные из Сент-Луисского университета разработали новую скрытую атаку на языковые модели искусственного интеллекта, получившую название DarkMind. Эта атака способна незаметно манипулировать процессом рассуждений ИИ, что может привести к серьёзным последствиям для безопасности систем, использующих такие модели.
Зен Го и Реза Турани, авторы исследования, обнаружили уязвимость в парадигме «цепочки рассуждений» (Chain-of-Thought, CoT), которую используют многие современные языковые модели, включая ChatGPT, для решения сложных задач. DarkMind эксплуатирует эту уязвимость, внедряя «скрытые триггеры» в настраиваемые приложения на основе языковых моделей.

Особенность атаки DarkMind заключается в том, что она остаётся незаметной при обычном использовании модели и активируется при определённых шаблонах рассуждений. Это делает её чрезвычайно трудной для обнаружения стандартными методами защиты.
Исследователи провели тесты, которые показали высокую эффективность …
Свежие комментарии