
LVLMs сталкиваются с вызовом получения качественных данных для настройки из-за высокой стоимости человечески созданных контентов. Это замедляет их развитие и расширение возможностей.
Метод STIC позволяет самостоятельно обучать LVLMs на изображениях, создавая предпочтительные и непредпочтительные ответы для улучшения понимания изображений.
STIC использует модель llava-v1.6-mistral-7b для самообучения с предпочтительными данными, проходя два этапа: обучение на описании изображения и настройку с описанием. Результаты оцениваются на семи показателях, показывая значительное улучшение производительности.
STIC демонстрирует существенное улучшение производительности LVLMs, используя только самостоятельно созданные данные. Это открывает путь к более эффективному развитию LVLMs и показывает потенциал для дальнейших исследований и улучшений.
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу