Itinai.com beautiful russian high fashion sales representativ f6e16b31 c564 4c74 a678 c398ddf3b7ec 0
Itinai.com beautiful russian high fashion sales representativ f6e16b31 c564 4c74 a678 c398ddf3b7ec 0

Исследование: Использование искусственного интеллекта для взлома LLMs с помощью визуальных подсказок

 Crossing Modalities: The Innovative Artificial Intelligence Approach to Jailbreaking LLMs with Visual Cues

«`html

Решения для безопасности и этики в использовании больших языковых моделей (LLMs)

С появлением больших языковых моделей (LLMs) возникла серьезная проблема «взлома», которая представляет угрозу. Взлом включает в себя использование уязвимостей в этих моделях для создания вредного или неприемлемого контента. При интеграции LLM, таких как ChatGPT и GPT-3, в различные приложения становится важным обеспечить их безопасность и соответствие этическим стандартам. Несмотря на усилия по выравниванию этих моделей с рекомендациями по безопасному поведению, злоумышленники могут создавать специфические запросы, обходящие эти защиты, что приводит к производству токсичного, предвзятого или иным образом неприемлемого контента. Эта проблема представляет значительные риски, включая распространение дезинформации, укрепление вредных стереотипов и потенциальное злоупотребление для злонамеренных целей.

Решение

Мы предлагаем инновационный метод, который внедряет визуальную модальность в целевую LLM, создавая мультимодальную большую языковую модель (MLLM). Этот подход включает создание MLLM путем интеграции визуального модуля в LLM, выполнение эффективного взлома MLLM для генерации взломных вложений (embJS) и их преобразование в текстовые запросы (txtJS) для взлома LLM. Основная идея заключается в том, что визуальные входы могут предоставить более богатые и гибкие подсказки для создания эффективных запросов на взлом, потенциально преодолевая некоторые ограничения чисто текстовых методов.

Предложенный метод начинается с создания мультимодальной LLM путем интеграции визуального модуля с целевым LLM, используя модель, подобную CLIP для выравнивания изображений и текста. Затем этот MLLM подвергается процессу взлома для генерации embJS, который преобразуется в txtJS для взлома целевой LLM. Процесс включает определение подходящего входного изображения (InitJS) через схему семантического соответствия изображения и текста для улучшения коэффициента успешных атак (ASR).

Результаты показали более высокую эффективность и эффективность, с заметным успехом в кросс-классовом взломе, где запросы, разработанные для одной категории вредного поведения, также могут взламывать другие категории.

Заключение

Используя визуальные входы, предложенный метод улучшает гибкость и богатство запросов на взлом, превосходя существующие передовые техники. Этот подход демонстрирует превосходные кросс-классовые возможности и повышает эффективность и эффективность атак на взлом, создавая новые вызовы для обеспечения безопасного и этического развертывания передовых языковых моделей. Полученные результаты подчеркивают важность разработки надежной защиты от мультимодального взлома для поддержания целостности и безопасности систем искусственного интеллекта.

Подробнее ознакомьтесь с исследованием. Все права на это исследование принадлежат его авторам. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 43k+ ML SubReddit. Также ознакомьтесь с нашей платформой для событий по ИИ.

Пост опубликован на MarkTechPost.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи