Neural Magic выпускает полностью квантованную версию модели Meta’s Llama 3.1 405B: FP8 Dynamic Quantization и FP8 Static Quantization

«`html

Neural Magic объявил о выпуске полностью квантованной версии FP8 модели Meta Llama 3.1 405B

Meta-Llama-3.1-405B-Instruct-FP8-dynamic

Новая модель решает ограничения памяти и увеличивает скорость вывода более чем в 2 раза, используя быструю память и вычислительные возможности, и ликвидируя необходимость распределения по нескольким узлам.

Квантование и Оптимизация

Модель достигает высокой эффективности благодаря квантованию весов и активаций до типа данных FP8, что уменьшает объем диска и требования к памяти GPU.

Развертывание и Оценка

Квантованную модель Neural Magic можно развертывать эффективно, используя библиотеки `vllm` и `transformers` в Python.

Воспроизведение и Точность

Neural Magic предоставляет подробные инструкции для воспроизведения результатов оценки модели для различных задач.

Заключение

Выпуск полностью квантованной версии FP8 модели Meta Llama 3.1 405B Neural Magic открывает новые возможности для эффективного и масштабируемого применения искусственного интеллекта.

Также не забудьте следовать за нами в Twitter и присоединиться к нашему Telegram-каналу.

«`

saile.ru • ИИ в продажах

Neural Magic выпускает полностью квантованную версию модели Meta’s Llama 3.1 405B: FP8 Dynamic Quantization и FP8 Static Quantization

Neural Magic объявил о выпуске полностью квантованной версии FP8 модели Meta Llama 3.1 405B

Meta-Llama-3.1-405B-Instruct-FP8-dynamic

Квантование и Оптимизация

Развертывание и Оценка

Воспроизведение и Точность

Заключение

Бесплатный ИИ: для автоматизации продаж

Как создать серию упражнений по отработке “дорого/надо подумать”: ИИ сгенерирует 5 ролевых кейсов

Как провести ABC-анализ клиентов и распределить усилия: ИИ подскажет фокусные сегменты

Как провести конкурентный анализ: ИИ сгенерирует таблицу сравнения и выводы

Как спрогнозировать продажи на следующий квартал с учётом сезонности: ИИ построит модель тренда и сезонных факторов

Как закрыть сделку на Zoom: ИИ предложит 5 реплик, которые работают на финале воронки

Как быстро выявить потребность клиента: ИИ предложит 5 вопросов, которые не выглядят навязчиво

Как подготовить тренинг по технике SPIN: ИИ создаст сценарий + упражнения под вашу нишу

Как составить отчет по воронке продаж с комментариями: ИИ визуализирует этапы и предложит интерпретации

Как объяснить сложный технический продукт клиенту за 3 минуты: ИИ предложит структуру демо-презентации с понятными примерами

Как закрыть сделку сразу в момент разговора: ИИ предложит 3 фразы-дожима без давления

Как связать маркетинг и продажи через общую воронку: ИИ предложит структуру интеграции и точки контроля

Как провести технический аудит инфраструктуры клиента перед внедрением: ИИ предложит чек-лист

Умные продажи

Улучшение модульного развертывания искусственного интеллекта на платформе SambaNova SN40L через совмещение экспертов.

Google DeepMind представил управление с помощью диффузионных моделей (D-MPC): сочетание многошаговых предложений действий и динамических моделей для онлайн-управления.

Новый бенчмарк для оценки моделей RAG в сложных областях размещения ветряных электростанций и экологического лицензирования.

Увеличение скорости в моделях LLaMA для приложений с длинным контекстом.

Lingma SWE-GPT: Новые AI-решения для разработки программного обеспечения с открытыми моделями

FastSwitch: Новый подход к управлению сложными задачами LLM с улучшенной генерацией токенов и приоритетным распределением ресурсов

Инвестиции в звуковые книги: входите на 2-миллиардный рынок аудиокниг

Доступность

О нас

Пресс-релизы

Подписка

Отказ от ответственности

Вакансии