
Большие языковые модели (LLM) имеют сложности с сохранением фактических знаний из-за больших объемов данных. Это влияет на их способность обобщать информацию, что затрудняет их применение в различных областях.
Для решения этой проблемы предлагается увеличивать размер моделей и наборы данных, использовать оптимизацию и изменять размер пакетов данных. Также предлагается удаление дубликатов данных для эффективного обучения.
Исследователи из KAIST, UCL и KT предложили эксперимент, в ходе которого модели систематически вводились новые фактические знания. Это позволило оптимизировать стратегии обучения для улучшения долговременной памяти в LLM.
Исследование показало, что увеличение размера моделей и использование качественных данных способствуют лучшему сохранению фактических знаний. Оптимизация размера пакетов данных также играет важную роль в улучшении производительности LLM.
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу