
«`html
Новая модель решает ограничения памяти и увеличивает скорость вывода более чем в 2 раза, используя быструю память и вычислительные возможности, и ликвидируя необходимость распределения по нескольким узлам.
Модель достигает высокой эффективности благодаря квантованию весов и активаций до типа данных FP8, что уменьшает объем диска и требования к памяти GPU.
Квантованную модель Neural Magic можно развертывать эффективно, используя библиотеки `vllm` и `transformers` в Python.
Neural Magic предоставляет подробные инструкции для воспроизведения результатов оценки модели для различных задач.
Выпуск полностью квантованной версии FP8 модели Meta Llama 3.1 405B Neural Magic открывает новые возможности для эффективного и масштабируемого применения искусственного интеллекта.
Также не забудьте следовать за нами в Twitter и присоединиться к нашему Telegram-каналу.
«`
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу