Улучшение производительности поиска ближайших соседей с помощью динамического подхода к построению графа и сокращения объема используемой памяти в системах обработки больших объемов данных

«`html

Графовые методы в поиске данных и машинном обучении

Графовые методы становятся все более важными в поиске данных и машинном обучении, особенно в поиске ближайших соседей (NN). Поиск ближайших соседей помогает идентифицировать точки данных, ближайшие к заданному запросу, что становится критически важным при работе с высокоразмерными данными, такими как текст, изображения или аудио. Приближенные методы поиска ближайших соседей (ANN) возникли из-за неэффективности точных поисков в высокоразмерных пространствах. Методы ANN, особенно графовые подходы, обеспечивают баланс времени отклика и точности, что делает их широко используемыми в реальных приложениях, таких как системы рекомендаций, электронной коммерции и поисковые системы на основе ИИ. Эти системы сильно зависят от своевременного и точного извлечения соответствующих данных из больших наборов данных.

Основной вызов в поиске ближайших соседей

Одной из основных проблем в поиске ближайших соседей является необходимость комбинировать поиск на основе векторов с дополнительными числовыми ограничениями. Например, пользователь на платформе электронной коммерции может захотеть найти товары, похожие на определенный товар в определенном ценовом диапазоне. Традиционные методы ANN фильтруют нерелевантные данные перед поиском или ищут без учета ограничений и фильтруют результаты после. Оба подхода сталкиваются с проблемами производительности. Предварительная фильтрация может быть неэффективной для больших наборов данных, в то время как постфильтрация может вернуть много нерелевантных результатов, что приводит к излишнему расходу вычислительных ресурсов. Потребность в эффективных методах поиска, объединяющих векторное сходство и числовые ограничения, становится все более важной, особенно в системах, обрабатывающих массивные объемы данных в различных отраслях.

Новый метод iRangeGraph

Исследователи из Университета Наньянг Технолоджика и Университета Альборг представили новый метод, называемый iRangeGraph, для преодоления ограничений существующих процессов. Вместо предварительного вычисления графов для каждого возможного числового диапазона iRangeGraph материализует элементарные графы только для нескольких диапазонов. Эти графы могут быть использованы для динамического построения отдельного графа для любого числового диапазона запроса во время выполнения, что снижает необходимость в хранении индексов большого масштаба. Техника вызвала интерес у таких крупных игроков, как Apple и Alibaba, которые используют аналогичные методы для своих систем поиска больших масштабов. Основное преимущество iRangeGraph заключается в его способности снизить потребление памяти, сохраняя при этом высокую производительность запросов, что делает его привлекательным решением для компаний с большими наборами данных.

Преимущества и применение iRangeGraph

Техника iRangeGraph включает динамическое построение графовых индексов во время обработки запросов. Вместо построения и хранения индекса для каждого возможного диапазона метод конструирует эти графы по мере необходимости, используя заранее подготовленные элементарные графы, охватывающие умеренное количество диапазонов. Такой подход экономит память и обеспечивает эффективное время отклика запроса. iRangeGraph особенно полезен в сценариях, где числовые ограничения, применяемые к поиску, не являются очень селективными или неселективными, и где существующие методы обычно плохо справляются. iRangeGraph может обрабатывать многомерные запросы RFANN, что означает, что запросы, включающие более одного числового ограничения, могут быть обработаны эффективно.

Тестирование производительности iRangeGraph

Тестирование производительности iRangeGraph было проведено на нескольких реальных наборах данных, включая WIT-Image, TripClick, Redcaps и YouTube. Тесты показали, что iRangeGraph значительно превзошел существующие методы. При точности 0,9 iRangeGraph достиг 2-5-кратного улучшения производительности запросов в секунду (qps) по сравнению с конкурентами. Потребление памяти было последовательно меньше, что является ключевым преимуществом при работе с системами большого масштаба, где хранение критически важно. По сравнению с посвященными графовыми индексами, материализованными для каждого диапазона запроса, iRangeGraph был медленнее не более чем в 2 раза, при этом потребляя гораздо меньше памяти. Для многомерных запросов RFANN iRangeGraph продемонстрировал улучшение производительности в 2-4 раза по сравнению с наиболее конкурентоспособными базовыми методами.

Заключение

iRangeGraph представляет собой новаторское и эффективное решение для запросов приближенного поиска ближайших соседей с числовыми ограничениями. Динамическое построение графовых индексов во время выполнения запроса и использование элементарных графов для снижения потребностей в памяти успешно решает недостатки существующих техник RFANN. Способность iRangeGraph обеспечивать высокую производительность в различных сценариях запросов при существенном снижении потребления памяти делает его идеальным выбором для систем с большими объемами данных. Гибкость метода в обработке многомерных запросов расширяет его применимость в реальных сценариях. Исследовательские результаты подчеркивают потенциал iRangeGraph для революционизации фильтрации диапазонов в поиске ближайших соседей, особенно для систем, управляющих высокоразмерными данными с числовыми ограничениями.

«`

saile.ru • ИИ в продажах

Графовые методы в поиске данных и машинном обучении

Основной вызов в поиске ближайших соседей

Новый метод iRangeGraph

Преимущества и применение iRangeGraph

Тестирование производительности iRangeGraph

Заключение

Бесплатный ИИ: для автоматизации продаж

Как выстроить мотивацию маркетинга за продажи: ИИ предложит модель KPI и бонусов

Как синхронизировать маркетинговый бюджет и планы продаж: ИИ создаст таблицу целей и вложений

Как продавать через сторителлинг: ИИ предложит 3 истории для продукта

Как рассчитать идеальную цену для новых товаров: ИИ применит эластичность и сравнит с конкурентами

Как подготовиться к QBR с клиентом: ИИ предложит структуру презентации и контрольных тем

Как составить план действий на день: ИИ подскажет порядок задач на утро/день/вечер

Как быстро выявить потребность клиента: ИИ предложит 5 вопросов, которые не выглядят навязчиво

Как спрогнозировать продажи на следующий квартал с учётом сезонности: ИИ построит модель тренда и сезонных факторов

Как сегментировать клиентов для персонализированных офферов: ИИ предложит сегментацию на основе поведения

Как объяснить сложный технический продукт клиенту за 3 минуты: ИИ предложит структуру демо-презентации с понятными примерами

Как обучить продавцов работать с эмоциями клиента: ИИ составит упражнение по активному слушанию и эмпатии

Как адаптировать международную методику (Challenger/NEAT/MEDDIC) под локальную специфику: ИИ адаптирует формулировки

Умные продажи

13 Самых мощных суперкомпьютеров в мире

Как продавать C-уровню: стратегии успешных сделок

Создание системы на основе AI-агентов с LangGraph: руководство для начинающих

Ученые из Университета Брауна представляют Symplectic Graph Neural Networks (SympGNNs) для революции в моделировании высокоразмерных гамильтоновых систем

Как подготовить тренинг по технике SPIN: ИИ создаст сценарий + упражнения под вашу нишу

CoordTok: Масштабируемый видео-токенизатор, который связывает координаты с соответствующими участками видео.

Руководство по установлению продажных квот

Куки-политика

Пресс-релизы

Страница главного редактора

Подписка

Отказ от ответственности

Реклама