
«`html
Решения для безопасности и этики в использовании больших языковых моделей (LLMs)
С появлением больших языковых моделей (LLMs) возникла серьезная проблема «взлома», которая представляет угрозу. Взлом включает в себя использование уязвимостей в этих моделях для создания вредного или неприемлемого контента. При интеграции LLM, таких как ChatGPT и GPT-3, в различные приложения становится важным обеспечить их безопасность и соответствие этическим стандартам. Несмотря на усилия по выравниванию этих моделей с рекомендациями по безопасному поведению, злоумышленники могут создавать специфические запросы, обходящие эти защиты, что приводит к производству токсичного, предвзятого или иным образом неприемлемого контента. Эта проблема представляет значительные риски, включая распространение дезинформации, укрепление вредных стереотипов и потенциальное злоупотребление для злонамеренных целей.
Решение
Мы предлагаем инновационный метод, который внедряет визуальную модальность в целевую LLM, создавая мультимодальную большую языковую модель (MLLM). Этот подход включает создание MLLM путем интеграции визуального модуля в LLM, выполнение эффективного взлома MLLM для генерации взломных вложений (embJS) и их преобразование в текстовые запросы (txtJS) для взлома LLM. Основная идея заключается в том, что визуальные входы могут предоставить более богатые и гибкие подсказки для создания эффективных запросов на взлом, потенциально преодолевая некоторые ограничения чисто текстовых методов.
Предложенный метод начинается с создания мультимодальной LLM путем интеграции визуального модуля с целевым LLM, используя модель, подобную CLIP для выравнивания изображений и текста. Затем этот MLLM подвергается процессу взлома для генерации embJS, который преобразуется в txtJS для взлома целевой LLM. Процесс включает определение подходящего входного изображения (InitJS) через схему семантического соответствия изображения и текста для улучшения коэффициента успешных атак (ASR).
Результаты показали более высокую эффективность и эффективность, с заметным успехом в кросс-классовом взломе, где запросы, разработанные для одной категории вредного поведения, также могут взламывать другие категории.
Заключение
Используя визуальные входы, предложенный метод улучшает гибкость и богатство запросов на взлом, превосходя существующие передовые техники. Этот подход демонстрирует превосходные кросс-классовые возможности и повышает эффективность и эффективность атак на взлом, создавая новые вызовы для обеспечения безопасного и этического развертывания передовых языковых моделей. Полученные результаты подчеркивают важность разработки надежной защиты от мультимодального взлома для поддержания целостности и безопасности систем искусственного интеллекта.
Подробнее ознакомьтесь с исследованием. Все права на это исследование принадлежат его авторам. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему 43k+ ML SubReddit. Также ознакомьтесь с нашей платформой для событий по ИИ.
Пост опубликован на MarkTechPost.
«`