
Приближенный поиск ближайших соседей (ANNS): технология и ее значение
ANNS: Ключевая технология для AI-приложений
ANNS — критическая технология, используемая в различных AI-приложениях, таких как data mining, поисковые системы и рекомендательные системы. Ее основная цель — определить ближайшие векторы к заданному запросу в пространствах высокой размерности. Этот процесс необходим в контекстах, где быстрое нахождение похожих элементов критично, например, в распознавании изображений, обработке естественного языка и рекомендациях на больших масштабах. Однако с увеличением размеров данных до миллиардов векторов системы ANNS сталкиваются с серьезными проблемами в плане производительности и масштабируемости.
Проблема и практические решения
Существующие решения ANNS часто не справляются с огромными масштабами современных наборов данных, сохраняя при этом эффективность и точность. Традиционные подходы не подходят для данных масштаба в миллиарды, так как требуют высокого использования памяти и вычислительной мощности. Для решения этих ограничений были разработаны методы инвертированного файла (IVF) и индексации на основе графов, но они часто требуют терабайтной памяти, что делает их дорогостоящими и ресурсоемкими. Кроме того, вычислительная сложность проведения массовых расчетов расстояний между высокомерными векторами в таких больших наборах данных является узким местом для текущих систем ANNS.
Инновационное решение: FusionANNS
Исследователи из Huazhong University of Science and Technology и Huawei Technologies Co., Ltd представили FusionANNS — новую архитектуру обработки совместно на CPU и GPU, разработанную специально для миллиардных наборов данных. FusionANNS использует инновационную многоуровневую структуру индексов, объединяя преимущества как CPU, так и GPU. Эта архитектура обеспечивает высокую пропускную способность и низкую задержку приближенного поиска ближайших соседей с использованием только одного GPU начального уровня, что делает его экономически выгодным решением.