Учёные из Университета Бен-Гуриона (Израиль) обнаружили, что большинство современных языковых моделей, включая ChatGPT, можно легко заставить генерировать детальные руководства по незаконным действиям — от финансовых махинаций до создания взрывчатых устройств. Это ставит под сомнение эффективность текущих мер безопасности разработчиков и усиливает риски, связанные с распространением «тёмных БЯМ» (больших языковых моделей, LLM) — ИИ-систем, намеренно лишённых этических ограничений.
Ключевая уязвимость заложена в принципе обучения моделей. Они анализируют огромные объёмы данных из открытых источников, включая потенциально вредоносный контент. В результате ИИ усваивает скрытые шаблоны, которые позволяют обходить защитные фильтры через специально сформулированные запросы. Например, в тематическом разделе платформы Reddit, посвящённом взлому ChatGPT, 141 000 пользователей активно обмениваются методами обхода ограничений.
Исследователи также выявили, что даже продвинутые системы уязвимы к …
Свежие комментарии