Itinai.com it company office background blured chaos 50 v 41eae118 fe3f 43d0 8564 55d2ed4291fc 0
Itinai.com it company office background blured chaos 50 v 41eae118 fe3f 43d0 8564 55d2ed4291fc 0

Новый набор данных Re-LAION 5B: повышение безопасности и прозрачности в масштабных веб-данных для исследований моделей основы через строгий фильтр контента.

 Re-LAION 5B Dataset Released: Improving Safety and Transparency in Web-Scale Datasets for Foundation Model Research Through Rigorous Content Filtering

«`html

LAION, выдающаяся некоммерческая организация, посвященная продвижению исследований машинного обучения путем разработки открытых и прозрачных наборов данных, недавно выпустила Re-LAION 5B. Это обновленная версия набора данных LAION-5B является вехой в непрерывных усилиях организации по обеспечению безопасности и юридического соответствия веб-масштабных наборов данных, используемых в исследованиях фундаментальных моделей. Новый набор данных решает критические проблемы, связанные с потенциальным незаконным контентом, в частности материалами, связанными с сексуальным насилием над детьми (CSAM), которые были выявлены в исходном наборе данных LAION-5B.

Фон и мотивация

Исходный набор данных LAION-5B, выпущенный в 2022 году, был разработан как веб-масштабный набор данных пар текст-ссылка на изображения, необходимый для обучения и оценки фундаментальных моделей. Эти модели, улучшая свою производительность по мере масштабирования данных, размера модели и вычислительных ресурсов, являются ключевыми для продвижения области машинного обучения. Однако обширность и открытость интернета, из которого были получены данные, создали значительные трудности в обеспечении того, чтобы набор данных был полностью свободен от незаконного контента.

Обновление Re-LAION 5B

Re-LAION 5B представляет собой завершение всестороннего процесса пересмотра безопасности в сотрудничестве с несколькими ключевыми партнерами, включая Internet Watch Foundation (IWF), Canadian Center for Child Protection (C3P) и Stanford Internet Observatory. Эти организации предоставили LAION списки хэшей MD5 и SHA, соответствующие известным CSAM и другому незаконному контенту. Используя эти хэши, LAION смогла систематически идентифицировать и удалить 2 236 подозрительных ссылок из набора данных. Это включает в себя 1 008 ссылок, изначально выявленных Stanford Internet Observatory.

Обеспечение непрерывной безопасности и соответствия

Обязательство LAION по обеспечению безопасности и прозрачности простирается за пределы выпуска Re-LAION 5B. Организация сделала метаданные из обновленного набора данных доступными для сторонних лиц, позволяя им очищать свои производные от LAION-5B, применяя аналогичные методы фильтрации. Этот подход повышает безопасность производных наборов данных и сохраняет возможность использования LAION-5B в качестве эталонного набора данных для текущих исследований.

Призыв к действию для исследовательского сообщества

В свете улучшений, внесенных в Re-LAION 5B, LAION настоятельно рекомендует всем исследователям и организациям, все еще использующим исходный набор данных LAION-5B, перейти на обновленную версию. Таким образом, они могут обеспечить, что их работа основана на наборе данных, который был тщательно проверен на безопасность и юридическое соответствие. LAION также рекомендует организациям, занимающимся созданием наборов данных из общедоступных данных веб-сайтов, сотрудничать с такими организациями, как IWF и C3P, для получения списков хэшей и других необходимых ресурсов для эффективной фильтрации.

Заключение

Re-LAION 5B является значительным шагом в миссии LAION по предоставлению открытых, прозрачных и безопасных наборов данных для исследовательского сообщества машинного обучения. Решая проблемы, выявленные в исходном наборе данных LAION-5B и устанавливая новый стандарт безопасности в веб-масштабных наборах данных, LAION подтвердила свое обязательство продвижению области машинного обучения ответственным и этичным образом. По мере того, как исследователи и профессионалы продолжают исследовать потенциал фундаментальных моделей, наборы данных, такие как Re-LAION 5B, будут играть важную роль в обеспечении того, что эта работа проводится на прочной и безопасной основе.

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи