Itinai.com beautiful russian high fashion sales representativ bcd5566a 4c6e 4173 99a0 8b2fad9f6248 3
Itinai.com beautiful russian high fashion sales representativ bcd5566a 4c6e 4173 99a0 8b2fad9f6248 3

Как искусственный интеллект масштабируется с увеличением объема данных? Новый подход к индивидуальной масштабированию данных для машинного обучения представлен в статье из Стэнфордского университета.

 How AI Scales with Data Size? This Paper from Stanford Introduces a New Class of Individualized Data Scaling Laws for Machine Learning

«`html

Масштабирование ИИ в зависимости от размера данных: новый класс индивидуальных законов масштабирования данных для машинного обучения от Стэнфордского университета

Модели машинного обучения для зрения и языка в последнее время показали значительные улучшения благодаря увеличению размеров моделей и большому количеству высококачественных обучающих данных. Исследования показывают, что большее количество обучающих данных предсказуемо улучшает модели, что приводит к законам масштабирования, объясняющим связь между уровнем ошибок и размером набора данных. Эти законы помогают определить баланс между размером модели и размером данных, но они рассматривают набор данных в целом, не учитывая отдельные обучающие примеры. Это ограничение, поскольку некоторые точки данных ценнее, чем другие, особенно в шумных наборах данных, собранных из сети. Поэтому важно понять, как каждая точка данных или источник влияет на обучение модели.

Практические решения и ценность

Существуют методы, позволяющие оценить влияние отдельных точек данных на производительность модели. Они могут выявлять неправильно помеченные данные, фильтровать высококачественные данные, увеличивать вес полезных примеров и выбирать перспективные новые точки данных для активного обучения.

Исследователи из Стэнфордского университета предложили новый подход, изучив масштабирование поведения отдельных точек данных. Они обнаружили, что вклад точки данных в производительность модели предсказуемо уменьшается по мере увеличения размера набора данных, следуя логарифмическому закону. Однако это уменьшение различно для различных точек данных, что означает, что некоторые точки полезнее в меньших наборах данных, в то время как другие становятся более ценными в больших наборах данных.

Эксперименты проводились для подтверждения параметрического закона масштабирования на трех типах моделей: логистической регрессии, SVM и MLP (в частности, двухслойных сетей ReLU). Эти модели тестировались на трех наборах данных: MiniBooNE, CIFAR-10 и обзорах фильмов IMDB. Для логистической регрессии использовались 1000 точек данных и 1000 образцов для каждого значения k. Для SVM и MLP из-за большей вариации маргинальных вкладов использовались 200 точек данных и 5000 образцов для каждого размера набора данных k.

Предложенные методы были протестированы на предсказание точности маргинальных вкладов при каждом размере набора данных. Например, с набором данных IMDB и логистической регрессией ожидания можно точно предсказать для размеров набора данных от k = 100 до k = 1000.

В заключение, исследователи из Стэнфордского университета разработали новый метод, изучив, как меняется ценность отдельных точек данных с увеличением масштаба. Они обнаружили подтверждение этого закона масштабирования, показав четкую логарифмическую тенденцию и проверив, насколько хорошо он предсказывает вклады при разных размерах набора данных.

Практические решения и ценность

Этот закон масштабирования может быть использован для прогнозирования поведения на более крупных наборах данных, чем те, которые изначально тестировались. Однако измерение этого поведения для всего обучающего набора данных дорого, поэтому исследователи разработали способы измерения параметров масштабирования с использованием небольшого количества шумных наблюдений на каждую точку данных.

Подробнее ознакомиться с исследованием можно в этой статье. Вся заслуга за это исследование принадлежит его авторам.

Присоединяйтесь к нашему Telegram-каналу и группе в LinkedIn.

Если вам нравится наша работа, вам понравится и наша рассылка.

Не забудьте присоединиться к нашему сообществу в ML SubReddit.

Используйте AI Sales Bot здесь. Этот AI ассистент в продажах помогает отвечать на вопросы клиентов, генерировать контент для отдела продаж и снижать нагрузку на первую линию.

Узнайте, как ИИ может изменить ваши процессы с решениями от AI Lab itinai.ru. Будущее уже здесь!

«`

Бесплатный ИИ: для автоматизации продаж

Умные продажи