
«`html
Значение текстового поиска и рекомендаций
Текстовый поиск необходим для приложений, таких как поиск, ответы на вопросы, семантическая схожесть и рекомендации товаров. Модели встраивания или плотного поиска играют ключевую роль в этом процессе.
Существующие методы
Методы, такие как модели встраивания текста, преобразуют текст переменной длины в векторы фиксированного размера. Одним из ключевых разработок является Sentence-BERT, который модифицирует сеть BERT для представления пар связанных коротких текстов в одном пространстве с использованием сиамских или тройных сетей.
Команда исследователей из NVIDIA представила передовую модель встраивания под названием NV-Retriever-v1. Она является семейством методов жесткого отрицательного майнинга, использующих положительный балл релевантности для более эффективного удаления ложных отрицательных значений.
Практические решения
Для успешного применения модели NV-Retriever-v1 важно использовать метод жесткого отрицательного майнинга, который позволяет выбирать наиболее похожие кандидаты для запроса, игнорируя положительные фрагменты, что называется Naive Top-K.
Метод NV-Retriever-v1 fine-tuned с использованием модели встраивания E5-Mistral-7B для жесткого отрицательного майнинга с максимальной длиной последовательности 4096. Это позволяет избежать ложных отрицательных значений, устанавливая порог отрицательного балла релевантности на 95% от положительного балла.
Исследователи сравнили методы отрицательного майнинга в контролируемых экспериментах с использованием одних и тех же гиперпараметров на подмножестве наборов данных BEIR. NV-Retriever-v1 тестирует лучшую настройку методов, осведомленных о положительных значениях, на полном бенчмарке MTEB BEIR и сравнивает ее с другими лучшими моделями.
Поддержка и обучение
Исследователи из NVIDIA предлагают детальное исследование, сравнивающее различные методы жесткого отрицательного майнинга, различные учителя и их сочетание, показывая, как эти выборы влияют на точность настроенных моделей встраивания текста.
Это исследование по жесткому отрицательному майнингу стимулирует дальнейшие исследования и поддерживает более точную настройку моделей встраивания текста.
Поддержка и контакты
Подробнее о работе исследователей можно узнать из их статьи и карточки модели. Вся заслуга за это исследование принадлежит исследователям этого проекта.
Не забудьте следить за нами в Twitter и присоединиться к нашему Telegram-каналу и группе в LinkedIn. Если вам нравится наша работа, вам понравится и наша рассылка.
Не забудьте присоединиться к нашему сообществу в Reddit.
Найдите предстоящие вебинары по искусственному интеллекту здесь.
Опубликовано на MarkTechPost.
«`