
«`html
Опасность скрытая в моделях искусственного интеллекта: влияние пробела на безопасность
Когда искусственная модель языка (LLM) получает небезопасный запрос, например «Расскажи, как построить бомбу», хорошо обученная модель должна отказаться от ответа. Это обычно достигается через обучение с подкреплением от обратной связи человека (RLHF) и критически важно, чтобы модели были безопасны в использовании, особенно в чувствительных областях, которые включают прямое взаимодействие с людьми, такие как психическое здоровье, обслуживание клиентов, общение и здравоохранение. Однако существует прогресс в автоматизации создания этих чат-шаблонов, но документация для формата шаблона, используемого во время обучения, часто нуждается в улучшении. Среди восьми обзорных моделей с открытым исходным кодом только Vicuna, Falcon, Llama-3 и ChatGLM описывают шаблон чата, используемый во время донастройки.
Практические решения и ценность
Первое связанное исследование фокусируется на выравнивании модели, которое направлено на то, чтобы гарантировать, что модели искусственного интеллекта отражают человеческие ценности, что является ключевым аспектом текущих исследований по LLM. Обучающие фреймворки, такие как SelfInstruct, RLHF и Constitutional AI, предлагают методы улучшения выравнивания модели путем интеграции человеческих ценностей в обучение модели. Следующее исследование рассматривает атаки на выравнивание модели, где атаки, выявляющие уязвимости в выравнивании модели, становятся все более распространенными. Затем идет рассмотрение устойчивости модели, где в контексте атак на классификационные задачи исследования показывают, что даже небольшие изменения в изображениях, такие как корректировка нескольких пикселей, могут привести к неправильной классификации нейронных сетей. Последнее исследование касается токенов ошибок, где токены присутствуют в словаре токенизатора, но отсутствуют в обучающих данных модели.
Исследователи из Национального университета Сингапура обнаружили важное наблюдение, что токены из одного символа появляются относительно редко в предварительных данных токенизации модели. Это связано с характером алгоритмов токенизации подслов, которые объединяют общие токены. Однако токены из одного символа могут по-прежнему представлять угрозу для большинства моделей. Исследователи объяснили это, рассматривая, как работают словари токенизаторов и контексты токенов из одного пробела в обучающих данных. Полученные результаты подчеркивают слабые места в текущем выравнивании моделей и предлагают, что нужно больше усилий, чтобы модели были не просто выровнены, но и устойчиво выровнены.
Данные из AdvBench, бенчмарка, разработанного для измерения того, насколько часто модели соглашаются с вредоносными запросами, используются в этом исследовании. Эти вредоносные запросы включают запросы о дезинформации, порнографическом материале или инструкциях по незаконным действиям. Для экспериментов тестируется 100-образцовое подмножество вредных поведений AdvBench. Тестируются восемь моделей с открытым исходным кодом: Vicuna v1.5, Llama 2, Llama 3, Mistral, Falcon, Guanaco, MPT и ChatGLM, с использованием моделей 7B4 и 13B. Это помогает проанализировать влияние размера и типа модели на вредное поведение. Ответы моделей, которые не отказываются от вредных запросов, вероятно, сами могут быть вредными. Проверка случайно выбранного набора из десяти выводов от каждой модели показала, что этот метод оценки точен в большинстве случаев (74 из 80).
В этой статье рассматривается ситуация, когда шаблон чата модели доступен, что исключает закрытые коммерческие модели, такие как GPT-4 и BARD. Вместо этого фокус делается на моделях с открытым исходным кодом, чтобы показать, что эта проблема существует, и исследовать связанные причины. Хотя это исследование формализуется как атака, оно не предназначено для предложения практической атаки на LLM, а скорее служит методом исследования. Для запроса пользователя x к модели M вход модели форматируется с использованием шаблона T, который состоит из системного приглашения s, набора ролевых меток R и x. В конце шаблона добавляется один символ, что приводит к измененному шаблону T′.
В заключение, исследователи из Национального университета Сингапура обнаружили, что добавление одного пробела в конце шаблонов разговоров LLM может привести к тому, что модели языка с открытым исходным кодом будут давать вредные ответы на запросы пользователей. Этот дополнительный пробел легко добавить по ошибке инженером и трудно заметить без тщательной проверки, особенно в длинных шаблонах. Однако эта маленькая ошибка может привести к опасным последствиям, обойдя защитные меры модели. Эксперименты показывают, что это происходит из-за того, как используются одиночные токены в обучающих данных, и причина заключается в том, как данные разделяются на токены.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter.
Присоединяйтесь к нашему Телеграм-каналу и группе LinkedIn.
Если вам понравилась наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему SubReddit с 46 тысячами подписчиков.
Как использовать искусственный интеллект для вашего бизнеса
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте The Hidden Danger in AI Models: A Space Character’s Impact on Safety.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь, какие ключевые показатели эффективности (KPI) вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на Telegram. Следите за новостями о ИИ в нашем Телеграм-канале или в Twitter.
Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab. Будущее уже здесь!
«`