
«`html
Оценка крупных языковых моделей для эффективного выявления мошенничества и злоупотреблений в различных реальных сценариях
Несколько значимых бенчмарков были разработаны для оценки понимания языка и конкретных приложений крупных языковых моделей (LLM). Известные бенчмарки включают GLUE, SuperGLUE, ANLI, LAMA, TruthfulQA и Persuasion for Good, которые оценивают LLM в задачах, таких как анализ настроения, здравый смысл и фактическая точность. Однако ограниченная работа была направлена на обнаружение мошенничества и злоупотреблений с использованием LLM, с проблемами, связанными с ограниченной доступностью данных и распространением числовых наборов данных, не подходящих для обучения LLM.
Оценка специализированной рамки
Нехватка общедоступных наборов данных и сложности текстового представления шаблонов мошенничества подчеркнули необходимость специализированной рамки оценки. Эти ограничения побудили разработку более целенаправленных исследований и ресурсов для улучшения обнаружения и уменьшения вреда злонамеренного языка с использованием LLM. Новое исследование по искусственному интеллекту от Amazon представляет новый подход к решению этих проблем и развитию возможностей LLM в обнаружении мошенничества и злоупотреблений.
Методология DetoxBench
Исследователи представляют «DetoxBench» — комплексную оценку LLM для обнаружения мошенничества и злоупотреблений, рассматривая их потенциал и проблемы. В статье подчеркивается возможности LLM в обработке естественного языка, но выделяется необходимость дальнейшего исследования в высокостейких приложениях, таких как обнаружение мошенничества. Основное внимание уделяется общественному вреду, причиняемому мошенничеством, на существующей зависимости от традиционных моделей и отсутствии комплексных бенчмарков для LLM в этой области. Целью эталонного набора является оценка эффективности LLM, поощрение развития этичного ИИ и смягчение вреда в реальном мире.
Методология DetoxBench включает разработку набора задач для оценки LLM в выявлении и уменьшении мошенничества и злоупотреблений. Набор включает задачи, такие как обнаружение спама, ненавистной речи и идентификация мизогинского языка, отражая реальные вызовы. Для оценки были выбраны несколько передовых LLM, включая те, которые представлены компаниями Anthropic, Mistral AI и AI21, обеспечивая всестороннюю оценку возможностей различных моделей в обнаружении мошенничества и злоупотреблений.
Эксперименты подчеркивают разнообразие задач для оценки обобщения LLM в различных сценариях обнаружения мошенничества и злоупотреблений. Метрики производительности анализируются для выявления сильных и слабых сторон моделей, особенно в задачах, требующих тонкого понимания. Сравнительный анализ показывает изменчивость производительности LLM, указывая на необходимость дальнейшей настройки для высокостейких приложений. Полученные результаты подчеркивают важность постоянного развития и ответственного внедрения LLM в критических областях, таких как обнаружение мошенничества.
Оценка DetoxBench восьми крупных языковых моделей (LLM) в различных задачах обнаружения мошенничества и злоупотреблений показала значительные различия в производительности. Модель Mistral Large показала наивысшие F1-оценки в пяти из восьми задач, демонстрируя ее эффективность. Модели Anthropic Claude проявили высокую точность, превысив 90% в некоторых задачах, но заметно низкую полноту, опускаясь ниже 10% для обнаружения токсичного чата и ненавистной речи. Модели Cohere показали высокую полноту, составляющую 98% для обнаружения мошеннических электронных писем, но более низкую точность, на уровне 64%, что приводит к более высокой частоте ложноположительных срабатываний. Время вывода варьировалось: модели AI21 были самыми быстрыми, затрачивая 1,5 секунды на экземпляр, в то время как модели Mistral Large и Anthropic Claude занимали примерно 10 секунд на экземпляр.
Подход с небольшим числом примеров привел к ограниченному улучшению по сравнению с подходом с нулевым числом примеров, с конкретными улучшениями в задачах, таких как обнаружение фальшивых вакансий и обнаружение мизогинии. Несбалансированные наборы данных, содержащие меньше случаев злоупотреблений, были скорректированы случайной недопроработкой, создавая сбалансированные тестовые наборы для более точной оценки. Проблемы с соответствием формату исключили модели, такие как Cohere’s Command R, из окончательных результатов. Эти результаты подчеркивают важность выбора модели, специфичной для задачи, и указывают на то, что настройка LLM может дополнительно улучшить их производительность в обнаружении мошенничества и злоупотреблений.
В заключение, DetoxBench устанавливает первый систематический бенчмарк для оценки LLM в обнаружении мошенничества и злоупотреблений, раскрывая ключевые аспекты производительности модели. Крупные модели, такие как Anthropic объемом 200 миллиардов и Mistral AI объемом 176 миллиардов, проявили себя наилучшим образом, особенно в контекстном понимании. Исследование показало, что подход с небольшим числом примеров часто не превосходил подход с нулевым числом примеров, указывая на изменчивость эффективности подходов. Будущие исследования направлены на настройку LLM и изучение передовых техник, подчеркивая важность тщательного выбора модели и стратегии для улучшения возможностей обнаружения в этой критической области.
Используйте DetoxBench для развития вашего бизнеса
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте DetoxBench: Comprehensive Evaluation of Large Language Models for Effective Detection of Fraud and Abuse Across Diverse Real-World Scenarios.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями об ИИ в нашем Телеграм-канале https://t.me/aisalesbotnews
Попробуйте AI Sales Bot https://saile.ru/ Это AI ассистент для продаж, он помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж, снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить процесс продаж в вашей компании с решением от saile.ru будущее уже здесь!

