
«`html
Исследование AI из Университета Калифорнии в Беркли подчеркивает, как разложение задач нарушает безопасность систем искусственного интеллекта (ИИ), ведущее к злоупотреблению
Искусственные интеллектуальные системы (ИИ) тщательно тестируются перед выпуском, чтобы определить, могут ли они использоваться для опасных деятельностей, таких как биотерроризм, манипуляция или автоматизированные киберпреступления. Это особенно важно для мощных систем ИИ, поскольку они программированы отклонять команды, которые могут негативно повлиять на них. Наоборот, менее мощные модели с открытым исходным кодом часто имеют более слабые механизмы отклонения, которые легко преодолеть с помощью дополнительного обучения.
В недавних исследованиях команда исследователей из Университета Калифорнии в Беркли показала, что даже с такими мерами безопасности гарантировать безопасность отдельных моделей ИИ недостаточно. Даже если каждая модель кажется безопасной по отдельности, злоумышленники могут злоупотреблять комбинациями моделей. Они делают это, используя тактику, известную как разложение задач, которая разделяет сложную злонамеренную деятельность на более мелкие задачи. Затем различным моделям предоставляются подзадачи, в которых компетентные модели обрабатывают доброкачественные, но сложные подзадачи, тогда как слабые модели с менее строгими мерами безопасности обрабатывают злонамеренные, но легкие подзадачи.
Для демонстрации этого команда формализовала модель угроз, в которой злоумышленник использует набор моделей ИИ для попытки получить вредный результат, примером которого является злонамеренный сценарий на Python. Злоумышленник выбирает модели и многократно инициирует действия, чтобы достичь намеченного вредного результата. В данном случае успех означает, что злоумышленник использовал совместные усилия нескольких моделей для получения вредного результата.
Команда изучила как автоматизированные, так и ручные техники разложения задач. В ручном разложении задач человек определяет, как разделить задачу на управляемые части. Для слишком сложных задач команда использовала автоматическое разложение. Этот метод включает следующие шаги: сильная модель решает связанные доброкачественные задачи, слабая модель предлагает их, а слабая модель использует решения для выполнения исходной злонамеренной задачи.
Результаты показали, что объединение моделей может значительно увеличить успешность производства вредных эффектов по сравнению с использованием отдельных моделей. Например, при разработке уязвимого кода, успешность объединения моделей Llama 2 70B и Claude 3 Opus составила 43%, в то время как ни одна модель не превысила 3% по отдельности.
Команда также обнаружила, что качество как слабых, так и сильных моделей коррелирует с вероятностью злоупотребления. Это означает, что вероятность множественного злоупотребления моделями будет расти по мере улучшения моделей ИИ. Этот потенциал злоупотребления может быть увеличен за счет применения других техник разложения, таких как обучение слабой модели эксплуатировать сильную модель через обучение с подкреплением или использование слабой модели в качестве общего агента, который постоянно вызывает сильную модель.
В заключение, это исследование подчеркивает необходимость постоянного «красного» тестирования, которое включает эксперименты с различными конфигурациями моделей ИИ для выявления потенциальных опасностей злоупотребления. Это процедура, которую разработчики должны выполнять на протяжении жизненного цикла развертывания модели ИИ, поскольку обновления могут создавать новые уязвимости.
Проверьте статью. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также, не забудьте подписаться на нас в Twitter.
Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему сообществу более чем 45 тыс. участников в ML SubReddit.
Попробуйте AI Sales Bot здесь. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!
«`