
«`html
Nvidia выпустила новую модель языковых моделей: Llama-Minitron 3.1 4B, созданную путем обрезки и дистилляции модели Llama 3.1 8B
Nvidia анонсировала выпуск новой модели языковых моделей, Llama-3.1-Minitron 4B, что стало важным шагом в развитии языковых моделей. Модель объединяет эффективность масштабных моделей с меньшими моделями благодаря передовым техникам, таким как обрезка и дистилляция знаний.
Особенности модели Llama-3.1-Minitron 4B
Llama-3.1-Minitron 4B — это усовершенствованная и уменьшенная версия большой модели Llama-3.1 8B. Для создания этой модели Nvidia использовала структурированную обрезку в глубинном и широком направлениях. Обрезка — это техника удаления менее важных слоев или нейронов сети для уменьшения размера модели и сложности, сохраняя при этом ее производительность.
Кроме обрезки, Nvidia также применила классическую дистилляцию для увеличения эффективности Llama-3.1-Minitron 4B. Дистилляция знаний — это процесс обучения меньшей модели, ученика, имитировать поведение более крупной и сложной, учителя. Таким образом, в меньшей модели сохраняется большая часть предсказательной способности оригинальной модели, но при этом она работает быстрее и более экономично.
Модель Llama-3.1-Minitron 4B показывает конкурентоспособную производительность по сравнению с большими современными моделями с открытым исходным кодом. Она превосходит другие маленькие языковые модели в большинстве областей, таких как Minitron 4B, Phi-2 2.7B, Gemma2 2.6B и Qwen2-1.5B. Обширное тестирование подтвердило эффективность этой модели в области лучшей точности и эффективности для рассуждений, кодирования и математики.
Одно из ключевых преимуществ модели Llama-3.1-Minitron 4B заключается в ее способности конкурировать на равных, сохраняя при этом ресурсоемкость. Она использует долю числа обучающих токенов, требуемых для обучения с нуля, до 40 раз меньше. Это приводит к значительной экономии затрат на вычисления. Таким образом, эта модель становится привлекательным вариантом для развертывания в сценариях, где могут быть ограничения по вычислительным ресурсам для использования масштабных языковых моделей.
Nvidia дополнительно оптимизировала модель Llama-3.1-Minitron 4B для развертывания с использованием своего инструментария TensorRT-LLM, что улучшает ее инферентную производительность.
В заключение, выпуск модели Llama-3.1-Minitron 4B от Nvidia становится значительным шагом в развитии языковых моделей. Модель обладает хорошей производительностью и ресурсоемкостью, что делает ее очень полезной во многих задачах обработки естественного языка.
«`