Itinai.com beautiful russian high fashion sales representativ ef683399 49d0 4e99 ba5c 5ff847e6427a 1
Itinai.com beautiful russian high fashion sales representativ ef683399 49d0 4e99 ba5c 5ff847e6427a 1

Новые методы машинного обучения для создания дифференциально-защищенных синтетических данных, описанные Google AI

 Google AI Described New Machine Learning Methods for Generating Differentially Private Synthetic Data

«`html

Новые методы машинного обучения Google AI для создания дифференциально-частных синтетических данных

Исследователи Google AI описывают свой новый подход к решению проблемы создания высококачественных синтетических наборов данных, сохраняющих конфиденциальность пользователей, что является важным для обучения прогностических моделей без компрометации чувствительной информации. Поскольку модели машинного обучения все больше полагаются на большие наборы данных, обеспечение конфиденциальности лиц, данные которых вносят вклад в эти модели, становится критически важным. Дифференциально-частные синтетические данные создаются путем создания новых наборов данных, отражающих основные характеристики исходных данных, но полностью искусственных, тем самым защищая конфиденциальность пользователей и обеспечивая надежное обучение моделей.

Практические решения и ценность

Текущие методы генерации конфиденциальных данных включают обучение моделей непосредственно с помощью алгоритмов дифференциального частного машинного обучения (DP-ML), обеспечивающих надежные гарантии конфиденциальности. Однако при работе с высокоразмерными наборами данных, используемыми для различных задач, этот метод может потребовать больших вычислительных ресурсов и иногда давать высококачественные результаты. Предыдущие модели, такие как использование больших языковых моделей, использовали большие языковые модели (LLM), объединенные с дифференциальным частным стохастическим градиентным спуском (DP-SGD) для генерации конфиденциальных синтетических данных. Этот метод включает точную настройку LLM, обученной на общедоступных данных, с использованием DP-SGD на чувствительном наборе данных, обеспечивая, что сгенерированные синтетические данные не раскрывают никакой конкретной информации о лицах в чувствительном наборе данных.

Исследователи Google предложили улучшенный подход к созданию дифференциально-частных синтетических данных, используя параметрически эффективные методы точной настройки, такие как LoRa (Low-Rank Adaptation) и точечная настройка. Эти методы направлены на изменение меньшего количества параметров во время процесса частной обучения, что снижает вычислительные затраты и потенциально улучшает качество синтетических данных.

Первый этап подхода заключается в обучении LLM на большом корпусе общедоступных данных. Затем LLM точно настраивается с использованием DP-SGD на чувствительном наборе данных, при этом процесс точной настройки ограничивается подмножеством параметров модели. Точная настройка LoRa включает замену каждого W в модели на W + LR, где L и R — низкоранговые матрицы, и обучает только L и R. Точечная настройка, с другой стороны, включает вставку «тензора подсказки» в начале сети и обучает только его веса, эффективно изменяя только входную подсказку, используемую LLM.

Эмпирические результаты показали, что точная настройка LoRa, которая изменяет примерно 20 миллионов параметров, превосходит как полную точную настройку параметров, так и настройку на основе подсказок, которая изменяет только около 41 тысячи параметров. Это указывает на оптимальное количество параметров, которое балансирует компромисс между вычислительной эффективностью и качеством данных. Классификаторы, обученные на синтетических данных, сгенерированных точно настроенными LLM с использованием LoRa, превзошли те, которые были обучены на синтетических данных из других методов точной настройки, и в некоторых случаях классификаторы, обученные непосредственно на исходных чувствительных данных с использованием DP-SGD. В эксперименте по оценке предложенного подхода декодерная LLM (Lamda-8B) была обучена на общедоступных данных, а затем конфиденциально настроена на трех общедоступных наборах данных, а именно IMDB, Yelp и AG News, и рассматривалась как чувствительная. Сгенерированные синтетические данные использовались для обучения классификаторов по задачам, таким как анализ настроения и классификация тематики. Производительность классификаторов на отложенных подмножествах исходных данных продемонстрировала эффективность предложенного метода.

В заключение, подход Google к созданию дифференциально-частных синтетических данных с использованием параметрически эффективных методов точной настройки превзошел существующие методы. Путем точной настройки меньшего подмножества параметров метод снижает вычислительные требования и улучшает качество синтетических данных. Этот подход не только сохраняет конфиденциальность, но также поддерживает высокую полезность для обучения прогностических моделей, что делает его ценным инструментом для организаций, стремящихся использовать чувствительные данные, не компрометируя конфиденциальность пользователей. Эмпирические результаты демонстрируют эффективность предложенного метода, указывая на его потенциал для более широкого применения в машинном обучении, сохраняющем конфиденциальность.

Проверьте статью и блог. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на нас в Twitter. Присоединяйтесь к нашему каналу в Telegram, Discord и группе в LinkedIn.

Если вам нравится наша работа, вам понравится наша рассылка.

Не забудьте присоединиться к нашему 42k+ ML SubReddit

Источник: MarkTechPost

Применение искусственного интеллекта в продажах и маркетинге

Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Google AI Described New Machine Learning Methods for Generating Differentially Private Synthetic Data.

Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.

Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.

Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.

На полученных данных и опыте расширяйте автоматизацию.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах, помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru будущее уже здесь!

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи