saile.ru • ИИ в продажах

Itinai.com beautiful russian high fashion sales representativ 6750682e a151 4348 baa0 900d7e4b1457 2

Анализ производительности различных инструментов для вывода LLM: исследование BentoML

«`html

Исследование производительности бэкендов вывода больших языковых моделей (LLMs)

Выбор правильного бэкенда вывода для обслуживания LLMs является важным шагом. Производительность и эффективность этих бэкендов напрямую влияют на пользовательский опыт и операционные расходы. Недавнее исследование, проведенное командой инженеров BentoML, предлагает ценные исследовательские данные о производительности различных бэкендов вывода, с фокусом на vLLM, LMDeploy, MLC-LLM, TensorRT-LLM и Hugging Face TGI (Text Generation Inference).

Ключевые метрики

Исследование использовало две основные метрики для оценки производительности бэкендов:

Время до первого токена (TTFT): измеряет задержку от отправки запроса до генерации первого токена. Низкий TTFT важен для приложений, требующих мгновенной обратной связи, таких как интерактивные чат-боты, поскольку существенно улучшает воспринимаемую производительность и удовлетворение пользователей.
Скорость генерации токенов: определяет, сколько токенов модель генерирует в секунду во время декодирования. Более высокая скорость генерации токенов указывает на способность модели эффективно обрабатывать высокие нагрузки, что делает ее подходящей для сред с множественными одновременными запросами.

Результаты для Llama 3 8B

Llama 3 8B была протестирована при трех уровнях одновременных пользователей (10, 50 и 100). Ключевые результаты следующие:

LMDeploy: этот бэкенд показал лучшую производительность декодирования, генерируя до 4000 токенов в секунду для 100 пользователей. Он также достиг лучшего TTFT с десятью пользователями, поддерживая низкий TTFT даже при увеличении количества пользователей.
MLC-LLM: этот бэкенд достиг незначительно более низкой скорости генерации токенов приблизительно 3500 токенов в секунду для 100 пользователей. Однако его производительность ухудшилась до около 3100 токенов в секунду после пяти минут тестирования. TTFT также значительно ухудшился при 100 пользователях.
vLLM: хотя vLLM превосходил в поддержании наименьшего TTFT на всех уровнях пользователей, его скорость генерации токенов была менее оптимальной, чем у LMDeploy и MLC-LLM, варьируя от 2300 до 2500 токенов в секунду.

«`

10 июня 2024

к.э.н. В. Дьячков

ИИ Продажи

Бесплатный ИИ: для автоматизации продаж

Помощь ИИ для отдела продаж, бесплатно и без регистрации

saile.ru • ИИ в продажах

Анализ производительности различных инструментов для вывода LLM: исследование BentoML

Исследование производительности бэкендов вывода больших языковых моделей (LLMs)

Ключевые метрики

Результаты для Llama 3 8B

Бесплатный ИИ: для автоматизации продаж

Как измерить эффективность акций и скидок: ИИ определит прирост, каннибализацию и ROI

Как повысить отклик в WhatsApp/Telegram: ИИ предложит 3 шаблона сообщений для лида

Как продать второй товар при покупке первого: ИИ предложит 3 техники апселла и кросселла на кассе

Как быстро отработать 7 типовых возражений клиента: ИИ предложит готовые формулировки под скрипт

Как определить маржинальность по менеджерам и сегментам: ИИ выделит прибыльных клиентов и зоны просадки

Как перераспределить нагрузку между менеджерами: ИИ проанализирует воронку и укажет узкие места

Как собирать контакты после диалога: ИИ предложит 3 формулировки, чтобы получить номер или подписку

Как выйти на лицо, принимающее решение: ИИ подскажет формулировки для B2B звонка

Как найти причины оттока клиентов: ИИ выявит закономерности по дате, категории, каналу

Как построить стратегию привлечения и конверсии лидов: ИИ разложит путь клиента по CJM и предложит шаги

Как сократить цикл пресейла: ИИ предложит оптимизацию демо, техобоснований и согласований

Как подготовиться к QBR с клиентом: ИИ предложит структуру презентации и контрольных тем

Умные продажи

40+ интересных инструментов ИИ, которые стоит попробовать (октябрь 2024)

Расширение для браузера с открытым исходным кодом для продвинутой обработки текста и визуализации

Лучшие курсы искусственного интеллекта для начинающих в 2024 году.

Camel-AI выпустил OASIS: новый симулятор для реалистичной динамики социальных медиа с миллионом агентов.

8 лучших CRM для интеграции с Gmail

Дифференцирование без матриц: развитие вероятностного машинного обучения

Как дискуссии пользователей влияют на развитие Reddit: анализ случая AITA subreddit

Microsoft AI Research представила MVoT: новый подход для объединения визуального и вербального мышления в сложных задачах.

Страница главного редактора

О нас

Авторские права

FAQ

Куки-политика

Политика комментариев