
Проблема утечки инструкций в крупных языковых моделях (LLM)
Описание проблемы:
Крупные языковые модели (LLM) привлекли значительное внимание, но столкнулись с критической проблемой безопасности, известной как утечка инструкций. Эта уязвимость позволяет злоумышленникам извлекать чувствительную информацию из LLM через целенаправленные атаки. Проблема заключается в конфликте между обучением безопасности и целями следования инструкциям в LLM. Утечка инструкций представляет значительные риски, включая раскрытие интеллектуальной собственности системы, конфиденциальных контекстуальных знаний, стилевых рекомендаций и даже вызовов API в системах на основе агентов.
Практические решения:
Для борьбы с проблемой утечки инструкций в LLM были разработаны несколько подходов. Фреймворк PromptInject был создан для изучения утечки инструкций в GPT-3, а также были предложены методы оптимизации на основе градиентов для генерации атакующих запросов для утечки инструкций системы. Другие подходы включают извлечение параметров и методологии реконструкции инструкций. Исследования также сосредоточены на измерении утечки инструкций системы в реальных приложениях LLM и изучении уязвимости интегрированных инструментов LLM к косвенным атакам внедрения инструкций.