Иллюзия мышления: почему OpenAI

😎

DeepSeek, Claude, Gemini и OpenAI o1/o3 буквально рассыпаются в пыль на более-менее интересных тасках. И даже на существующих алгоритмах вроде загадки с Ханойскими башнями при повышении сложности правильность решений резко падает вниз.

Абсолютно все reasoning-модели имеют свой предел сложности, где точность падает до нуля.

И хотя проблемы становились сложнее, модели использовали меньше токенов (по факту, сдавались в решении проблем) даже при неограниченном бюджете. Хотя решение выдавалось быстрее, но оно было неправильным.

Более того, инженеры Apple буквально дали готовый алгоритм, расписали все этапы (как будто по рецепту) и всё равно все модели не могли превысить определённый порог сложности.

Это противоречит самой сути таких моделей, ведь если мы даём инструкции - рез должен быть ожидаем. Вместо этого все они рассыпались как бумажный (или карточный) домик.

Например: хотя модели могли справиться с 100+ ходами в Ханойских башнях, всего после 4 ходов в задачке про пересечению рек они уже выдавали невалидные результаты.

⏳ А ведь WWDC уже завтра - интересно, почему отчёт вышел сейчас.

⬇️ Сохраните его и попробуйте сами сделать выводы. До суперинтеллекта пока далеко.

😃

iOS Dev

Please open Telegram to view this post

VIEW IN TELEGRAM

22🔥4914❤‍🔥9👍5🫡2🎉1💯1🤝11

www.tg-me.com/us/telegram/com.iosdev/1587

4.66K viewsJun 8 at 09:39

tg-me.com/iosdev/1587

Create: 2025-06-08
Last Update: 2025-07-08 23:33:23

Иллюзия мышления: почему OpenAI, DeepSeek и Claude не могут заменить разработчиков по мнению Apple

Сегодня ночью вышел шокирующий (не в пользу подписок по 200 баксов в месяц) отчёт, в котором исследователи Apple уничтожают маркетинговые трюки и уловки создателей якобы «думающих моделей».

В отличие от большинства исследований, инженеры Apple придумали свои математические загадки и задачи, а не воспользовались тем, что есть в открытом доступе.

😎 DeepSeek, Claude, Gemini и OpenAI o1/o3 буквально рассыпаются в пыль на более-менее интересных тасках. И даже на существующих алгоритмах вроде загадки с Ханойскими башнями при повышении сложности правильность решений резко падает вниз.

Абсолютно все reasoning-модели имеют свой предел сложности, где точность падает до нуля.

И хотя проблемы становились сложнее, модели использовали меньше токенов (по факту, сдавались в решении проблем) даже при неограниченном бюджете. Хотя решение выдавалось быстрее, но оно было неправильным.

Более того, инженеры Apple буквально дали готовый алгоритм, расписали все этапы (как будто по рецепту) и всё равно все модели не могли превысить определённый порог сложности.

Это противоречит самой сути таких моделей, ведь если мы даём инструкции - рез должен быть ожидаем. Вместо этого все они рассыпались как бумажный (или карточный) домик.

Например: хотя модели могли справиться с 100+ ходами в Ханойских башнях, всего после 4 ходов в задачке про пересечению рек они уже выдавали невалидные результаты.

⏳ А ведь WWDC уже завтра - интересно, почему отчёт вышел сейчас.

⬇️ Сохраните его и попробуйте сами сделать выводы. До суперинтеллекта пока далеко.

😃 iOS Dev

telegram Telegram | DID YOU KNOW?

Should You Buy Bitcoin?

Иллюзия мышления: почему OpenAI