
«`html
OpenLogParser: Новый метод разбора журналов с использованием открытых LLM для повышения точности, конфиденциальности и экономичности в обработке данных большого масштаба
Исследование в области разбора журналов является критическим компонентом анализа производительности и надежности программного обеспечения. Оно преобразует огромные объемы неструктурированных журнальных данных, часто варьирующихся от сотен гигабайт до терабайт ежедневно, в структурированные форматы. Это преобразование необходимо для понимания выполнения системы, обнаружения аномалий и проведения анализа причин.
Основные проблемы в разборе журналов
Основное препятствие в разборе журналов — это объем и сложность данных, генерируемых реальными программными системами. Эти журналы, содержащие смесь статического текста и динамически генерируемых переменных, важны для понимания и отладки систем разработчиками. Однако непосредственный анализ этих журналов затруднен из-за их полунеструктурированной природы.
Решение с помощью OpenLogParser
OpenLogParser представляет собой инновационный подход к разбору журналов, использующий открытые LLM, что позволяет снизить затраты на обработку данных и обеспечить конфиденциальность. Этот метод повышает как точность, так и эффективность разбора журналов.
Технология OpenLogParser
Технология OpenLogParser построена на трех основных компонентах: группировке журналов, разборе на основе открытых LLM и памяти шаблонов журналов. Эта архитектура позволяет OpenLogParser обрабатывать журналы в 2,7 раза быстрее, чем другие разборщики на основе LLM, с улучшением точности разбора в среднем на 25%.
Преимущества OpenLogParser
По сравнению с другими современными разборщиками, OpenLogParser показывает более высокую точность группировки и разбора, обрабатывая целый набор данных LogHub-2.0 за всего 5,94 часа, что значительно превосходит результаты других разборщиков.
Заключение
Использование открытых LLM решает критические проблемы конфиденциальности, затрат и точности, которые преследовали предыдущие подходы. Инновационное сочетание группировки журналов, разбора на основе открытых LLM и памяти шаблонов повышает эффективность и устанавливает новый стандарт точности в разборе журналов.
«`