Исследование атак внедрения запросов: Как LLM путают роли

Это увлекательное исследование демонстрирует, как большие языковые модели (LLM) поддаются атакам внедрения запросов. Оказывается, модели обучаются распознавать стиль текста в различных блоках ролей или инструкций, а не только сами формальные теги, указывающие на эти роли.

Из заключения исследования:

Теги ролей, изначально бывшие простым приемом форматирования, фактически стали основой архитектуры безопасности и когнитивным каркасом современных LLM. Мы показали, что эта архитектура не переходит в реальные внутренние представления модели, и что подобная путаница ролей напрямую связана с уязвимостью к внедрению запросов.

Если LLM не смогут достичь подлинного восприятия ролей, мы полагаем, что защита от инъекций останется бесконечной "игрой в ударь крота". Непрерывный характер границ ролей создает угрозу инъекций, способных незаметно изменять состояние LLM с помощью внешне безобидного текста, как на законных основаниях, так и в больших масштабах.

В целом, роли являются одной из важнейших, хотя и часто незаметных, абстракций в стеке LLM. Они создают границы, призванные отделять "я" от "другого", мысль от общения, инструкцию от данных. Это своего рода управляемые человеком переключатели в изначально непрерывной системе. Мы считаем, что они заслуживают гораздо более глубокого изучения, чем то, которое им было уделено до сих пор.

Исследование атак внедрения запросов: Как LLM путают роли

Свежие материалы — Происшествия и криминал

Исследование и обнаружение слабых RSA-ключей с множеством нулевых блоков

Meta тестирует распознавание лиц для полиции и военных

Профессиональные спортсмены и носимые устройства: вопросы конфиденциальности