Itinai.com it company office background blured chaos 50 v 74e4829b a652 4689 ad2e c962916303b4 1
Itinai.com it company office background blured chaos 50 v 74e4829b a652 4689 ad2e c962916303b4 1

Оценка влияния переменной o1 на вероятностные предвзятости LLM: от прогнозирования к рассуждениям

 From Prediction to Reasoning: Evaluating o1’s Impact on LLM Probabilistic Biases

Исследование OpenAI: оценка влияния o1 на вероятностные предвзятости LLM

Результаты исследования

Исследование показало, что o1, несмотря на значительные улучшения по сравнению с предыдущими LLM, все еще чувствителен к вероятности вывода и частоте задач. О1 продемонстрировал более высокую точность на примерах с высокой вероятностью вывода по сравнению с низкой вероятностью. Например, в задаче сдвига шифра точность o1 варьировалась от 47% для случаев с низкой вероятностью до 92% для случаев с высокой вероятностью. Кроме того, o1 потреблял больше токенов при обработке примеров с низкой вероятностью, что указывает на увеличение сложности.

Что касается частоты задач, o1 изначально показал схожую производительность на обычных и редких вариантах задач, превзойдя другие LLM на редких вариантах. Однако, когда тестировали на более сложных версиях задач сортировки и сдвига шифра, o1 продемонстрировал лучшую производительность на обычных вариантах, что указывает на то, что эффекты частоты задач становятся заметными, когда модель доводится до предела.

Выводы исследователей

Итак, несмотря на значительные улучшения, o1 все еще чувствителен к вероятности вывода и частоте задач. Это соответствует телологической перспективе, учитывающей все оптимизационные процессы, применяемые к системе ИИ. Высокая производительность o1 в алгоритмических задачах отражает его явную оптимизацию для рассуждений. Однако наблюдаемые поведенческие шаблоны свидетельствуют о том, что o1, вероятно, также претерпел значительное обучение по предсказанию следующего слова.

Исследователи предлагают два потенциальных источника чувствительности o1 к вероятности: предвзятости в генерации текста, присущие системам, оптимизированным для статистического прогнозирования, и предвзятости в развитии цепочек мыслей, благоприятствующих сценариям с высокой вероятностью. Для преодоления этих ограничений исследователи предлагают внедрение компонентов модели, не полагающихся на вероятностные суждения, таких как модули выполнения кода Python.

Бесплатный ИИ: для автоматизации продаж