
Улучшение безопасности и надежности систем искусственного интеллекта
Атаки и защита для языковых моделей
Исследования показывают, что атаки и защита для языковых моделей включают широкий спектр техник и стратегий. Ручные и автоматизированные методы красной команды выявляют уязвимости, тогда как белый ящик показывает потенциал предварительных атак. Подходы к защите включают RLHF, DPO, оптимизацию подсказок и адверсное обучение. Защита во время вывода и инженерия представлений обещают, но сталкиваются с ограничениями. Управляющий вектор базовой линии повышает устойчивость языковых моделей, управляя представлениями модели. Эти исследования в целом заложили основу для разработки методов прорыва с целью улучшения выравнивания и устойчивости систем искусственного интеллекта против все более сложных атак.
Методы улучшения безопасности и надежности систем искусственного интеллекта
Исследователи из Gray Swan AI, Университета Карнеги-Меллона и Центра по безопасности искусственного интеллекта разработали набор методов для улучшения безопасности и надежности систем искусственного интеллекта. Обучение отказу направлено на обучение моделей отклонять небезопасный контент, но оставаться уязвимыми к сложным атакам. Адверсное обучение повышает устойчивость к конкретным угрозам, но лишено обобщения и требует больших вычислительных затрат. Защиты во время вывода, такие как фильтры плутовства, предлагают защиту от неадаптивных атак, но сталкиваются с проблемами реального времени из-за вычислительных требований.
Методы контроля представлений
Методы контроля представлений сосредотачиваются на мониторинге и управлении внутренними представлениями модели, предлагая более обобщенный и эффективный подход. Пробы вредности оценивают выводы, обнаруживая вредные представления и существенно снижая уровни успешности атак. Новая техника прорыва цепи прерывает генерацию вредного вывода, контролируя внутренние процессы модели и предоставляя проактивное решение по вопросам безопасности.
Методика «Circuit Breakers» для искусственного интеллекта
Подход «Circuit Breakers» значительно улучшает безопасность и надежность моделей искусственного интеллекта против невидимых атак. Оценка с использованием вредных пар текст-изображение из HarmBench и MM-SafetyBench показывает улучшенную устойчивость при сохранении производительности на стандартных тестах. Модели с «Circuit Breakers» превосходят базовые значения под атаками PGD, успешно смягчая вредные выводы без ущерба для полезности.




















