
«`html
MARKLLM: Открытый набор инструментов для водяных знаков LLM
LLM водяные знаки встраивают тонкие, обнаружимые сигналы в текст, созданный с использованием искусственного интеллекта, чтобы идентифицировать его происхождение, решая проблемы злоупотреблений, такие как выдача себя за другого, написание текстов от имени других и фейковые новости. Несмотря на обещания отличать тексты, созданные людьми, от текстов, созданных ИИ, и предотвращать распространение недостоверной информации, в этой области существуют проблемы. Многочисленные и сложные алгоритмы водяных знаков, а также разнообразные методы оценки делают сложным для исследователей и общественности экспериментировать с этими технологиями и понимать их. Согласие и поддержка крайне важны для продвижения LLM водяных знаков, чтобы обеспечить надежную идентификацию контента, созданного с использованием ИИ, и сохранить целостность цифрового общения.
Практические решения и ценность
Исследователи из Университета Цинхуа, Университета Шанхай Джао Тунг, Университета Сиднея, Университета Калифорнии в Санта-Барбаре, Китайского университета Гонконга и Гонконгского университета науки и технологий разработали MARKLLM, открытый набор инструментов для LLM водяных знаков. MARKLLM предоставляет унифицированную, расширяемую структуру для реализации алгоритмов водяных знаков, поддерживая девять конкретных методов из двух основных семейств алгоритмов. Он предлагает удобные интерфейсы для загрузки алгоритмов, водяных знаков, обнаружения и визуализации текста. Набор инструментов включает 12 оценочных инструментов и два автоматизированных конвейера для оценки обнаружимости, устойчивости и влияния на качество текста. Модульный дизайн MARKLLM повышает масштабируемость и гибкость, делая его ценным ресурсом для исследователей и широкой публики для продвижения технологии LLM водяных знаков.
Алгоритмы LLM водяных знаков разделяются на две основные категории: семейство KGW и семейство Christ. Метод KGW изменяет логиты LLM, чтобы предпочитать определенные токены, создавая водяной текст, идентифицируемый статистическим порогом. Вариации этого метода улучшают производительность, уменьшают влияние на качество текста, увеличивают емкость водяного знака, устойчивы к атакам на удаление и позволяют обнаруживать публично. Семейство Christ использует псевдослучайные последовательности для направления выборки токенов, с методами, такими как EXP-выборка, коррелирующими текст с этими последовательностями для обнаружения. Оценка алгоритмов водяных знаков включает в себя оценку обнаружимости, устойчивости к вмешательству и влияния на качество текста с использованием метрик, таких как перплексия и разнообразие.
MARKLLM предоставляет унифицированную структуру для решения проблем в алгоритмах LLM водяных знаков, включая отсутствие стандартизации, единообразия и качества кода. Он позволяет легко вызывать и переключаться между алгоритмами, предлагая хорошо спроектированную структуру классов. MARKLLM включает модуль визуализации алгоритмов семейств KGW и Christ, выделяя предпочтения токенов и корреляции. Он включает 12 оценочных инструментов и два автоматизированных конвейера для оценки обнаружимости водяных знаков, их устойчивости и влияния на качество текста. Набор инструментов поддерживает гибкие конфигурации, облегчая тщательные и автоматизированные оценки алгоритмов водяных знаков по различным метрикам и сценариям атак.
Используя MARKLLM, было оценено девять алгоритмов водяных знаков на обнаружимость, устойчивость и влияние на качество текста. Для общего создания текста использовался набор данных C4, для машинного перевода — WMT16, для генерации кода — HumanEval. OPT-1.3b и Starcoder служили в качестве языковых моделей. Для оценки использовались динамическая корректировка порога и различные атаки на текст, среди метрик — PPL, лог-разнообразие, BLEU, pass@1 и GPT-4 Judge. Результаты показали высокую точность обнаружения, специфические преимущества алгоритмов и различные результаты в зависимости от метрик и атак. Удобный дизайн MARKLLM облегчает комплексные оценки, предлагая ценные идеи для будущих исследований.
В заключение, MARKLLM — это открытый набор инструментов, разработанный для LLM водяных знаков, предлагающий гибкие конфигурации для различных алгоритмов, водяных знаков, обнаружения и визуализации текста. Он включает удобные оценочные инструменты и настраиваемые конвейеры для тщательной оценки с различных точек зрения. Хотя он поддерживает только часть методов, исключая недавние подходы встраивания водяных знаков в параметры модели, ожидается, что будущие вклады расширят его возможности. Предоставленные визуальные решения полезны, но могли бы получить большее разнообразие. Кроме того, хотя он охватывает ключевые аспекты оценки, некоторые сценарии, такие как повторный перевод и атаки CWRA, все еще требуют полного рассмотрения. Разработчиков и исследователей призывают вносить свой вклад в устойчивость и гибкость MARKLLM.
Проверьте статью и GitHub. Вся заслуга за этот проект принадлежит исследователям. Также не забудьте подписаться на наш Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.
Если вам нравится наша работа, вам понравится наш новостной бюллетень.
Не забудьте присоединиться к нашему SubReddit с 42 тысячами подписчиков.
Источник: MarkTechPost.
«`