
«`html
Большие языковые модели (LLMs) хорошо генерируют текст, соответствующий контексту. Однако соблюдение правил конфиденциальности данных, таких как GDPR, требует способности эффективно «разучиваться» определенной информации. Эта способность важна для решения вопросов конфиденциальности, когда данные должны быть полностью удалены из моделей.
Проблема разучивания в LLMs сложна из-за взаимосвязанной природы знаний в этих моделях. Удаление одного факта недостаточно, если остаются связанные факты. Например, удаление факта о семейных отношениях не предотвращает возможность вывода этого факта через логические связи.
Существующие методы разучивания сосредоточены на удалении конкретных данных, таких как градиентный подъем и оптимизация негативных предпочтений. Эти подходы направлены на стирание данных, сохраняя общую полезность модели. Однако они не достигают глубокого разучивания, что ограничивает полноту удаления данных.
Исследователи из Университета Калифорнии в Сан-Диего и Университета Карнеги-Меллона представили концепцию «глубокого разучивания». Они протестировали четыре метода разучивания на четырех известных LLM: GPT2-XL, Phi-1.5, Llama2-7b и Llama3-8b. Результаты показали, что ни один из методов не достиг высоких показателей. Например, градиентный подъем достиг 75% по Llama2-7b, но часто вызывал ненужные потери.
Если вы хотите, чтобы ваша компания развивалась с помощью ИИ, следуйте этим рекомендациям:
Если вам нужны советы по внедрению ИИ, пишите нам в Телеграм. Следите за новостями об ИИ в нашем Телеграм-канале.
Попробуйте AI Sales Bot! Это ИИ-ассистент для продаж, который помогает отвечать на вопросы клиентов и генерировать контент для отдела продаж.
Узнайте, как ИИ может изменить процесс продаж в вашей компании — будущее уже здесь!
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу