
Embedić: Серия сербских моделей встраивания текста для оптимизации поиска информации и RAG
Основные особенности:
Embedić — набор моделей встраивания текста, разработанный Новаком Зиваничем, предлагает передовую производительность для задач поиска информации и RAG, с самой маленькой моделью превосходящей предыдущие стандарты, используя значительно меньшее количество параметров.
Применение и ценность:
Модели Embedić, настроенные для работы на трех уровнях (малые, базовый и большой), обладают кросс-языковыми возможностями, понимая как сербский (кириллица и латиница), так и английский языки. Это позволяет встраивать документы на английском, сербском или их комбинации. С помощью фреймворка sentence-transformers Embedić отображает предложения и абзацы в плотное векторное пространство размерности 786, что делает их особенно полезными для кластеризации и семантического поиска.
Подготовка и оценка:
Процесс разработки Embedić включал тщательное обучение и оценку, включая персональные усилия по переводу и значительные вложения в создание обширных наборов данных на сербском языке.