Itinai.com beautiful russian high fashion sales representativ 0edfe09d 3b43 4794 add3 7ea2d8b87dbc 1
Itinai.com beautiful russian high fashion sales representativ 0edfe09d 3b43 4794 add3 7ea2d8b87dbc 1

Улучшение производительности поиска ближайших соседей с помощью динамического подхода к построению графа и сокращения объема используемой памяти в системах обработки больших объемов данных

 iRangeGraph: A Dynamic Approach for Enhancing Range-Filtering Nearest Neighbor Search Performance Through Efficient Graph Construction and Reduced Memory Footprint in Large-Scale Data Systems

«`html

Графовые методы в поиске данных и машинном обучении

Графовые методы становятся все более важными в поиске данных и машинном обучении, особенно в поиске ближайших соседей (NN). Поиск ближайших соседей помогает идентифицировать точки данных, ближайшие к заданному запросу, что становится критически важным при работе с высокоразмерными данными, такими как текст, изображения или аудио. Приближенные методы поиска ближайших соседей (ANN) возникли из-за неэффективности точных поисков в высокоразмерных пространствах. Методы ANN, особенно графовые подходы, обеспечивают баланс времени отклика и точности, что делает их широко используемыми в реальных приложениях, таких как системы рекомендаций, электронной коммерции и поисковые системы на основе ИИ. Эти системы сильно зависят от своевременного и точного извлечения соответствующих данных из больших наборов данных.

Основной вызов в поиске ближайших соседей

Одной из основных проблем в поиске ближайших соседей является необходимость комбинировать поиск на основе векторов с дополнительными числовыми ограничениями. Например, пользователь на платформе электронной коммерции может захотеть найти товары, похожие на определенный товар в определенном ценовом диапазоне. Традиционные методы ANN фильтруют нерелевантные данные перед поиском или ищут без учета ограничений и фильтруют результаты после. Оба подхода сталкиваются с проблемами производительности. Предварительная фильтрация может быть неэффективной для больших наборов данных, в то время как постфильтрация может вернуть много нерелевантных результатов, что приводит к излишнему расходу вычислительных ресурсов. Потребность в эффективных методах поиска, объединяющих векторное сходство и числовые ограничения, становится все более важной, особенно в системах, обрабатывающих массивные объемы данных в различных отраслях.

Новый метод iRangeGraph

Исследователи из Университета Наньянг Технолоджика и Университета Альборг представили новый метод, называемый iRangeGraph, для преодоления ограничений существующих процессов. Вместо предварительного вычисления графов для каждого возможного числового диапазона iRangeGraph материализует элементарные графы только для нескольких диапазонов. Эти графы могут быть использованы для динамического построения отдельного графа для любого числового диапазона запроса во время выполнения, что снижает необходимость в хранении индексов большого масштаба. Техника вызвала интерес у таких крупных игроков, как Apple и Alibaba, которые используют аналогичные методы для своих систем поиска больших масштабов. Основное преимущество iRangeGraph заключается в его способности снизить потребление памяти, сохраняя при этом высокую производительность запросов, что делает его привлекательным решением для компаний с большими наборами данных.

Преимущества и применение iRangeGraph

Техника iRangeGraph включает динамическое построение графовых индексов во время обработки запросов. Вместо построения и хранения индекса для каждого возможного диапазона метод конструирует эти графы по мере необходимости, используя заранее подготовленные элементарные графы, охватывающие умеренное количество диапазонов. Такой подход экономит память и обеспечивает эффективное время отклика запроса. iRangeGraph особенно полезен в сценариях, где числовые ограничения, применяемые к поиску, не являются очень селективными или неселективными, и где существующие методы обычно плохо справляются. iRangeGraph может обрабатывать многомерные запросы RFANN, что означает, что запросы, включающие более одного числового ограничения, могут быть обработаны эффективно.

Тестирование производительности iRangeGraph

Тестирование производительности iRangeGraph было проведено на нескольких реальных наборах данных, включая WIT-Image, TripClick, Redcaps и YouTube. Тесты показали, что iRangeGraph значительно превзошел существующие методы. При точности 0,9 iRangeGraph достиг 2-5-кратного улучшения производительности запросов в секунду (qps) по сравнению с конкурентами. Потребление памяти было последовательно меньше, что является ключевым преимуществом при работе с системами большого масштаба, где хранение критически важно. По сравнению с посвященными графовыми индексами, материализованными для каждого диапазона запроса, iRangeGraph был медленнее не более чем в 2 раза, при этом потребляя гораздо меньше памяти. Для многомерных запросов RFANN iRangeGraph продемонстрировал улучшение производительности в 2-4 раза по сравнению с наиболее конкурентоспособными базовыми методами.

Заключение

iRangeGraph представляет собой новаторское и эффективное решение для запросов приближенного поиска ближайших соседей с числовыми ограничениями. Динамическое построение графовых индексов во время выполнения запроса и использование элементарных графов для снижения потребностей в памяти успешно решает недостатки существующих техник RFANN. Способность iRangeGraph обеспечивать высокую производительность в различных сценариях запросов при существенном снижении потребления памяти делает его идеальным выбором для систем с большими объемами данных. Гибкость метода в обработке многомерных запросов расширяет его применимость в реальных сценариях. Исследовательские результаты подчеркивают потенциал iRangeGraph для революционизации фильтрации диапазонов в поиске ближайших соседей, особенно для систем, управляющих высокоразмерными данными с числовыми ограничениями.

«`

Бесплатный ИИ: для автоматизации продаж