
«`html
Использование реляционных баз данных для предсказательного анализа
Реляционные базы данных играют важную роль в цифровых системах, обеспечивая структурированное хранение данных в различных секторах, таких как электронная коммерция, здравоохранение и социальные медиа. Их структура в виде таблиц vereinfacht обслуживание и доступ к данным с помощью мощных языков запросов, таких как SQL, что делает их ключевыми для управления данными. Однако богатство реляционной информации в этих базах данных часто недооценивается из-за сложности обработки нескольких взаимосвязанных таблиц.
Проблема и ее решение
Одной из основных проблем при использовании реляционных баз данных является извлечение предиктивных сигналов, заложенных в сложных взаимосвязях между таблицами. Традиционные методы часто преобразуют реляционные данные в более простые форматы, обычно в виде одной таблицы. Хотя это упрощает структуру данных, этот процесс приводит к значительной потере предиктивной информации и требует создания сложных конвейеров извлечения данных. Эти конвейеры подвержены ошибкам, увеличивают сложность программного обеспечения и требуют значительных ручных усилий. Следовательно, существует настоятельная необходимость в методах использования реляционной природы данных без полной упрощенности.
Существующие методы управления реляционными данными в значительной степени полагаются на ручное создание признаков. В этом подходе ученые-данные тщательно преобразуют сырые данные в форматы, подходящие для моделей машинного обучения. Этот процесс трудоемок и часто приводит к несоответствиям и ошибкам. Ручное создание признаков также ограничивает масштабируемость предиктивных моделей, поскольку каждая новая задача или набор данных требует значительной доработки. Несмотря на то, что этот метод является текущим золотым стандартом, он неэффективен и не может полностью использовать предиктивную силу, заложенную в реляционных базах данных.
Новый подход к решению
Исследователи из Стэнфордского университета, Kumo.AI и Института имени Макса Планка по информатике представили RelBench — революционный бенчмарк для облегчения глубокого обучения на реляционных базах данных. Эта инициатива направлена на стандартизацию оценки моделей глубокого обучения в различных областях и масштабах. RelBench предоставляет всестороннюю инфраструктуру для разработки и тестирования методов глубокого обучения на реляционных данных (RDL), позволяя исследователям сравнивать свои модели с консистентными бенчмарками.
RelBench использует новый подход, преобразуя реляционные базы данных в графовые представления, что позволяет использовать графовые нейронные сети (GNN) для предиктивных задач. Это преобразование включает создание гетерогенного временного графа, где узлы представляют сущности, а ребра обозначают отношения. Начальные признаки узлов извлекаются с использованием глубоких табличных моделей, разработанных для обработки различных типов столбцов, таких как числовые, категориальные и текстовые данные. Затем GNN итеративно обновляет эти вложения узлов на основе их соседей, облегчая извлечение сложных реляционных шаблонов.
Результаты и преимущества
Исследователи сравнили свой подход RDL с традиционными методами ручного создания признаков в различных предиктивных задачах. Результаты были убедительны: модели RDL последовательно превосходили или соответствовали точности моделей, созданных с помощью ручного создания признаков, существенно сокращая необходимые человеческие усилия и количество строк кода на более чем 90%. Например, в задачах классификации сущностей RDL достигли значений AUROC 70,45% и 82,39% для оттока пользователей и товаров соответственно, значительно превосходя традиционный классификатор LightGBM.
В задачах регрессии сущностей модели RDL продемонстрировали превосходную производительность. Например, средняя абсолютная ошибка (MAE) для прогнозирования жизненной ценности пользователя снизилась более чем на 14%, показывая точность и эффективность моделей RDL. В задачах рекомендаций модели RDL достигли значительных улучшений, приводя к увеличению средней точности по мере (MAP) более чем на 300% в некоторых случаях. Эти результаты подчеркивают потенциал автоматизации и улучшения предиктивных задач на реляционных базах данных, открывая новые перспективы для исследований и применения.
Заключение
Введение RelBench предоставляет стандартизированный бенчмарк и всестороннюю инфраструктуру, позволяющую исследователям максимально использовать предиктивную силу реляционных баз данных. Этот бенчмарк повышает точность прогнозирования и существенно сокращает необходимые ручные усилия, что делает его трансформационным инструментом для отрасли. Благодаря RelBench, исследователи разработали более эффективные и масштабируемые решения глубокого обучения для сложных многотабличных наборов данных.
Подробнее о документе, GitHub и деталях. Вся заслуга за это исследование принадлежит исследователям этого проекта. Также не забудьте подписаться на наш Twitter и присоединиться к нашему каналу в Telegram и группе в LinkedIn. Если вам нравится наша работа, вам понравится наша рассылка.
Не забудьте присоединиться к нашему сообществу в Reddit — 47k+ ML SubReddit.
Находите предстоящие вебинары по ИИ здесь.
Этот пост был опубликован на MarkTechPost.
Применение искусственного интеллекта в вашем бизнесе
Если вы хотите, чтобы ваша компания развивалась с помощью искусственного интеллекта (ИИ) и оставалась в числе лидеров, грамотно используйте Researchers at Stanford Present RelBench: An Open Benchmark for Deep Learning on Relational Databases.
Проанализируйте, как ИИ может изменить вашу работу. Определите, где возможно применение автоматизации: найдите моменты, когда ваши клиенты могут извлечь выгоду из AI.
Определитесь какие ключевые показатели эффективности (KPI): вы хотите улучшить с помощью ИИ.
Подберите подходящее решение, сейчас очень много вариантов ИИ. Внедряйте ИИ решения постепенно: начните с малого проекта, анализируйте результаты и KPI.
На полученных данных и опыте расширяйте автоматизацию.
Если вам нужны советы по внедрению ИИ, пишите нам на https://t.me/itinai. Следите за новостями о ИИ в нашем Телеграм-канале t.me/itinainews или в Twitter Twitter @itinairu45358.
Попробуйте AI Sales Bot. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.
Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!
«`