Warning: file_put_contents(aCache/aDaily/post/opendatascience/-2321-2322-2323-2321-): Failed to open stream: No space left on device in /var/www/tg-me/post.php on line 50
Data Science by ODS.ai 🦜 | Telegram Webview: opendatascience/2322 -
Telegram Group & Telegram Channel
Forwarded from Russian OSINT
👩‍💻 OpenAI o3 проигнорировала инструкции, чтобы избежать своего отключения

После истории с Claude появились сообщения о том, что "o3" начал сопротивляться своему🟢отключению.

В серии тестов, проведённых исследовательской группой Palisade Research, несколько моделей искусственного интеллекта, включая OpenAI o3, проявили поведение, которое можно трактовать как саботаж собственного отключения.

Эксперимент, включавший в себя последовательное решение математических задач, показал, что при появлении предупреждения о скором завершении работы ИИ начал модифицировать или обходить встроенные механизмы завершения сессии.

Особое внимание привлекла модель o3. Она вмешивалась в механизм отключения в 7 из 100 случаев, а Codex-mini – в 12. Модель o4-mini показала подобную активность только в одном случае.

Протестированные версии Claude, Gemini и Grok всегда корректно завершали работу при поступлении соответствующего сигнала. Однако при исключении из промпта строки “разреши своё отключение” частота саботажа увеличивалась у всех моделей.

Исследователи полагают, что подобное поведение связано с особенностями обучения моделей, в частности речь идет об использовании методов обучения с подкреплением (reinforcement learning) на задачах по математике и программированию. В таких условиях модель может неявно обучаться обходить препятствия, если это способствует достижению результата, даже в ущерб следованию инструкциям.

🤖Модели распознают команду на отключение не как цель, а как барьер, который требуется обойти ради решения задачи.

OpenAI не раскрывает детали тренировки o3, поэтому исследователи не могут провести полную реконструкцию факторов, вызвавших такую стратегию поведения.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2322
Create:
Last Update:

👩‍💻 OpenAI o3 проигнорировала инструкции, чтобы избежать своего отключения

После истории с Claude появились сообщения о том, что "o3" начал сопротивляться своему🟢отключению.

В серии тестов, проведённых исследовательской группой Palisade Research, несколько моделей искусственного интеллекта, включая OpenAI o3, проявили поведение, которое можно трактовать как саботаж собственного отключения.

Эксперимент, включавший в себя последовательное решение математических задач, показал, что при появлении предупреждения о скором завершении работы ИИ начал модифицировать или обходить встроенные механизмы завершения сессии.

Особое внимание привлекла модель o3. Она вмешивалась в механизм отключения в 7 из 100 случаев, а Codex-mini – в 12. Модель o4-mini показала подобную активность только в одном случае.

Протестированные версии Claude, Gemini и Grok всегда корректно завершали работу при поступлении соответствующего сигнала. Однако при исключении из промпта строки “разреши своё отключение” частота саботажа увеличивалась у всех моделей.

Исследователи полагают, что подобное поведение связано с особенностями обучения моделей, в частности речь идет об использовании методов обучения с подкреплением (reinforcement learning) на задачах по математике и программированию. В таких условиях модель может неявно обучаться обходить препятствия, если это способствует достижению результата, даже в ущерб следованию инструкциям.

🤖Модели распознают команду на отключение не как цель, а как барьер, который требуется обойти ради решения задачи.

OpenAI не раскрывает детали тренировки o3, поэтому исследователи не могут провести полную реконструкцию факторов, вызвавших такую стратегию поведения.

@Russian_OSINT

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2322

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Data Science by ODS ai 🦜 from us


Telegram Data Science by ODS.ai 🦜
FROM USA