Itinai.com beautiful russian high fashion sales representativ 7228b7fc bdfd 4051 874d 5c04b514c2c9 1
Itinai.com beautiful russian high fashion sales representativ 7228b7fc bdfd 4051 874d 5c04b514c2c9 1

Метод машинного обучения для оценки диалогов человека и ИИ в конкретной области

 This AI Paper from Microsoft Present RUBICON: A Machine Learning Technique for Evaluating Domain-Specific Human-AI Conversations

«`html

Оценка качества разговорных помощников на основе искусственного интеллекта

Оценка разговорных помощников на базе искусственного интеллекта, таких как GitHub Copilot Chat, представляет собой сложную задачу из-за их зависимости от языковых моделей и интерфейсов на основе чата. Существующие метрики качества разговора нуждаются в пересмотре для диалогов, специфичных для области, что затрудняет оценку эффективности этих инструментов разработки программного обеспечения. Техники, такие как SPUR, используют большие языковые модели для анализа удовлетворенности пользователя, но они могут упускать специфические для области нюансы. Данное исследование сосредотачивается на автоматическом создании высококачественных, задачно-ориентированных рубрик для оценки разговорных помощников на основе искусственного интеллекта, акцентируя важность контекста и прогресса задач для улучшения точности оценки.

Техника RUBICON для оценки диалогов человек-ИИ

Исследователи из Microsoft представляют технику RUBICON для оценки диалогов человек-ИИ в специфической области с использованием больших языковых моделей. RUBICON генерирует кандидатов для оценки качества разговора и выбирает наилучшие. Он улучшает SPUR, интегрируя специфические для области сигналы и максимы Грайса, создавая пул рубрик, оцениваемых итеративно. RUBICON был протестирован на 100 разговорах между разработчиками и чат-ассистентом для отладки на C#, используя GPT-4 для генерации и оценки рубрик. Он превзошел альтернативные наборы рубрик, достигнув высокой точности в предсказании качества разговора и продемонстрировав эффективность своих компонентов через исследования абляции.

Оценка качества разговоров с помощью RUBICON

RUBICON оценивает качество разговоров для специфических областных ассистентов, изучая рубрики удовлетворения (SAT) и неудовлетворения (DSAT) на основе помеченных диалогов. Он включает три этапа: генерацию разнообразных рубрик, выбор оптимизированного набора рубрик и оценку разговоров. Рубрики представляют собой утверждения естественного языка, захватывающие атрибуты разговора. Разговоры оцениваются с использованием 5-балльной шкалы Ликерта, нормализованной до диапазона [0, 10]. Генерация рубрик включает надзорное извлечение и суммирование, а выбор оптимизирует рубрики для точности и охвата. Потери правильности и четкости направляют выбор оптимального поднабора рубрик, обеспечивая эффективную и точную оценку качества разговора.

Оценка эффективности RUBICON и перспективы развития

Оценка RUBICON включает три ключевых вопроса: его эффективность по сравнению с другими методами, влияние Доменной Сенсибилизации (DS) и Принципов Дизайна Разговора (CDP), а также производительность его политики выбора. Результаты показали, что RUBICON превосходит базовые показатели в разделении положительных и отрицательных разговоров и классификации разговоров с высокой точностью, подчеркивая важность инструкций DS и CDP.

Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter @itinairu45358.

Попробуйте AI Sales Bot https://itinai.ru/aisales. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи