Itinai.com beautiful russian high fashion sales representativ a1922e6e 86c0 4f4f ace3 d2864b5eacac 0
Itinai.com beautiful russian high fashion sales representativ a1922e6e 86c0 4f4f ace3 d2864b5eacac 0

Обзор методов Text-to-SQL на основе LLM

 This Survey Paper Presents a Comprehensive Review of LLM-based Text-to-SQL

«`html

Проблемы с текстом-к-SQL

Преобразования из-за неоднозначности и сложных структур: из-за неоднозначности и сложности вопросов естественного языка требуется много знаний и фоновой информации для их корректного преобразования в SQL-запросы.

Схемы баз данных могут быть сложными и существенно отличаться, что затрудняет эффективное представление; решения текст-к-SQL требуют глубоких знаний этих схем.

Некоторые SQL-запросы содержат сложные или нестандартные операции, которые редко встречаются в обучающих данных, что затрудняет моделям корректное их создание.

Из-за различий в терминологии, структуре схемы и образцах вопросов модели часто не могут обобщать через домены. Однако с минимальным обучением в конкретной области они могут быть эффективно адаптированы.

Эволюционный процесс

С момента своего возникновения текст-к-SQL пережил огромный рост в обществе обработки естественного языка (NLP), переходя от методов, основанных на правилах, к методам, основанным на глубоком обучении, и, недавно, объединению PLM и LLM.

Методы, основанные на правилах:

В начале системы использовали эвристику и правила, созданные вручную людьми, для преобразования текста, написанного человеком, в SQL-запросы. Методы были хороши для небольших областей, но требовали большей обобщаемости и гибкости.

Методология на основе предварительно обученных языковых моделей (PLM):

Работы по тексту-к-SQL были оптимизированы с использованием семантических знаний предварительно обученных языковых моделей (PLM), таких как BERT и RoBERTa. Для создания более точных SQL-запросов PLM, осведомленные о схеме, интегрировали знания о структурах баз данных.

Методы на основе больших языковых моделей (LLM):

В генерации SQL, большие языковые модели (LLM), такие как серия GPT, продемонстрировали потенциал благодаря своевременной инженерии и тонкой настройке. Это новое направление исследований направлено на улучшение эффективности и обобщаемости текста-к-SQL с использованием знаний и способностей рассуждения LLM.

Оценка и бенчмарки в тексте-к-SQL

Категоризация набора данных: оригинальная дата выпуска набора данных определяет, считается ли он «оригинальным набором данных» или «пост-аннотированным набором данных», в зависимости от того, был ли он изменен из другого набора данных или нет. Анализируется оригинальные наборы данных для таблиц, строк, баз данных и примеров. Используются источник и специальные настройки для идентификации пост-аннотированных наборов данных.

И оригинальные, и пост-аннотированные наборы данных используют кросс-доменные данные для имитации приложений в реальном мире.

Наборы данных с дополнительными знаниями: BIRD и Spider-DK — примеры баз данных, использующих аннотированные человеком внешние знания для улучшения генерации SQL за счет включения областной информации.

Базы данных, зависящие от контекста: SParC и CoSQL — генераторы разговорного SQL, создающие несколько подзапросов-SQL для имитации разговоров.

Базы данных для устойчивости: Spider-Realistic и ADVETA — два набора данных для проверки устойчивости системы путем тестирования точности с нарушенными содержаниями баз данных.

CSpider (китайский) и DuSQL (китайский и английский) — два кросс-языковых набора данных, которые могут помочь в проблемах в приложениях не на английском языке.


«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи