
Большие языковые модели требуют больших наборов данных для обучения — от запросов пользователей до правильных ответов. Это обеспечивает понимание и генерацию текста, близкую к человеческой. Однако для арабского языка недостаточно таких наборов данных, что существенно ограничивает применимость LLMs для арабоязычных регионов.
Исследователи из aiXplain Inc. представили два инновационных метода создания больших наборов данных для арабских инструкций. Первый метод включает перевод существующих англоязычных наборов данных на арабский с последующей оценкой качества. Этот метод позволяет получить около 20 миллионов высококачественных арабских инструкций. Второй метод направлен на создание новых инструкций непосредственно из существующих арабских наборов данных.
Новые инструкции были использованы для настройки модели Qwen2 7B. Тестирование показало, что настройка на меньшем количестве инструкций привела к улучшению производительности модели.
Исследование подчеркивает необходимость разработки устойчивых методов для создания наборов данных на языках, отличных от английского.
Оставьте заявку — мы свяжемся с вами и расскажем, как начать работу