
Решения для увеличения эффективности LVLMs через Self-Training on Image Comprehension (STIC)
Проблема:
LVLMs сталкиваются с вызовом получения качественных данных для настройки из-за высокой стоимости человечески созданных контентов. Это замедляет их развитие и расширение возможностей.
Решение:
Метод STIC позволяет самостоятельно обучать LVLMs на изображениях, создавая предпочтительные и непредпочтительные ответы для улучшения понимания изображений.
Процесс:
STIC использует модель llava-v1.6-mistral-7b для самообучения с предпочтительными данными, проходя два этапа: обучение на описании изображения и настройку с описанием. Результаты оцениваются на семи показателях, показывая значительное улучшение производительности.
Значимость:
STIC демонстрирует существенное улучшение производительности LVLMs, используя только самостоятельно созданные данные. Это открывает путь к более эффективному развитию LVLMs и показывает потенциал для дальнейших исследований и улучшений.