Вы не готовы: «думающие» модели на самом деле… не думают 😱
Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.
Результат УБИЛ:
— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет😭
— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;
— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;
— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;
— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.
Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра?☕️
Apple неожиданно выпустили исследование, в котором они изучали, как работает цепочка размышлений в популярных CoT-моделях вроде Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
Тестировали на логических головоломках, таких как Ханойские башни или загадка про волка, козу и капусту, постепенно усложняя их.
Результат УБИЛ:
— TL;DR: все модели пытаются прикинуться, что «думают», но на самом деле просто ищут похожие задачи в своей базе данных. AGI не будет
— Нашлась интересная проблема с overthinking: если задачка достаточно простая, модель быстро находит ответ, а потом тратит кредиты, проверяя другие варианты, из-за чего иногда случайно выдаёт неправильный ответ;
— Модели с большим бюджетом на размышления не так эффективны, как кажется — если задачка слишком сложная, нейросети просто быстрее «опускают руки». Даже бесконечный бюджет на размышления не поможет пробить барьер сложности;
— Few-shot prompting (когда вы даёте примеры решения вашей задачи) с таким типом моделей неэффективен: даже если расписать пошаговый алгоритм решения, модель всё равно не справится со слишком сложной задачей;
— Ну и самое интересное: модели почти идеально справились с Ханойскими башнями, даже когда для решения нужно было прописать более 100 (!) шагов. А вот в очень простой задаче про перевозку волка, козы и капусты модели начинали нести чушь уже на 4 шаге. Разгадка проста: детская загадка с рекой не так часто встречалась в тренировочном датасете моделей.
Интересно, что Apple подкололи всех своих конкурентов примерно за сутки до WWDC 2025. А сами что-то покажут завтра?
Please open Telegram to view this post
VIEW IN TELEGRAM
Чудеса импортозамещения: бренд DEXP выпустил народную видюху GT 1030 за 6800 рублей.
Примерные спеки:
• Skyrim (2011) — 60 FPS (низкие);
• GTA V (2015) — 45–60 FPS (низкие-средние, 720p-1080p);
• The Elder Scrolls Online (2014) — 50 FPS (низкие);
• Far Cry 3 (2012) — 60 FPS (низкие);
• Cyberpunk 2077 (2020) — не надо, дядя.
Примерные спеки:
• Skyrim (2011) — 60 FPS (низкие);
• GTA V (2015) — 45–60 FPS (низкие-средние, 720p-1080p);
• The Elder Scrolls Online (2014) — 50 FPS (низкие);
• Far Cry 3 (2012) — 60 FPS (низкие);
• Cyberpunk 2077 (2020) — не надо, дядя.
ХАХАХА, в России хотят отрубать интернет на ночь, чтобы повысить рождаемость 😂
Депутаты считают, что молодежь не рожает, потому что зависает в телефонах, а не друг с другом. Решение есть — обязательное «цифровое воздержание» с 23:00 до 02:00 для всех бездетных пар.
«Сынок, мы тебя родили, чтобы мама могла трукрайм перед сном смотреть»😂
Депутаты считают, что молодежь не рожает, потому что зависает в телефонах, а не друг с другом. Решение есть — обязательное «цифровое воздержание» с 23:00 до 02:00 для всех бездетных пар.
«Сынок, мы тебя родили, чтобы мама могла трукрайм перед сном смотреть»
Please open Telegram to view this post
VIEW IN TELEGRAM
Так выглядит новая iOS 26 и мне НРАВИТСЯ, реально красиво.
Похожий дизайн ОС получат все гаджеты Apple😊
Похожий дизайн ОС получат все гаджеты Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Оооо, iPhone научился переводить звонки и сообщения!
Пока без голосового перевода, а только текстовая транскрибация, но уже что-то.
Пока без голосового перевода, а только текстовая транскрибация, но уже что-то.
iOS 26: Apple снова изобрела Android, AI и немного Steam. Самое важное без воды:
— Русский язык? Мимо. Apple Intelligence заговорила на новых языках, но русского по-прежнему нет😞
— Liquid Glass-дизайн. Прозрачности теперь везде — как в visionOS. Выглядит футуристично и свежо, мне нравится.
— Новая система — новое имя. Версии ОС теперь по году: iOS 26 = 2025, и так для всего.
— Фотки с 3D-эффектом на локскрин. Тоже красивое.
— Новое приложение камеры. Переключение 1080p в 4K без боли. Интерфейс наконец-то удобный.
— CarPlay Ultra. Теперь это полноценная часть интерфейса авто, с виджетами и навигацией и кастомными приборками. Пока только для БОГАЧЕЙ.
— Android-style нижние кнопки. Действия внизу экрана в системных приложениях. Удобно? Возможно. Спорно? Тоже да.
— Image Playground API. Фреймворк для генерации изображений внутри приложений. Местами как DALL·E в iOS.
— Call Translation API. Живой перевод звонков с одного языка на другой. Речь — в текст, сразу на нужном языке.
— Visual Intelligence. Распознавание объектов, текста и фото. Да, они придумали Google Lens.
— Apple Music теперь переводит тексты песен. Работает через тот же Translation API. Выглядит органично.
— Apple Pay показывает заказы. В РФ, конечно, не работает.
— Новое приложение Games. Скорее, просто вытащили вкладку из App Store, но выглядит как задел на «мини-Steam» внутри iOS.
— Русский язык? Мимо. Apple Intelligence заговорила на новых языках, но русского по-прежнему нет
— Liquid Glass-дизайн. Прозрачности теперь везде — как в visionOS. Выглядит футуристично и свежо, мне нравится.
— Новая система — новое имя. Версии ОС теперь по году: iOS 26 = 2025, и так для всего.
— Фотки с 3D-эффектом на локскрин. Тоже красивое.
— Новое приложение камеры. Переключение 1080p в 4K без боли. Интерфейс наконец-то удобный.
— CarPlay Ultra. Теперь это полноценная часть интерфейса авто, с виджетами и навигацией и кастомными приборками. Пока только для БОГАЧЕЙ.
— Android-style нижние кнопки. Действия внизу экрана в системных приложениях. Удобно? Возможно. Спорно? Тоже да.
— Image Playground API. Фреймворк для генерации изображений внутри приложений. Местами как DALL·E в iOS.
— Call Translation API. Живой перевод звонков с одного языка на другой. Речь — в текст, сразу на нужном языке.
— Visual Intelligence. Распознавание объектов, текста и фото. Да, они придумали Google Lens.
— Apple Music теперь переводит тексты песен. Работает через тот же Translation API. Выглядит органично.
— Apple Pay показывает заказы. В РФ, конечно, не работает.
— Новое приложение Games. Скорее, просто вытащили вкладку из App Store, но выглядит как задел на «мини-Steam» внутри iOS.
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая MacOS тоже неплохая:
— Дизайн тоже обновили, как в iOS новой;
— Можно перекрасить папочки — ваша девушка будет в восторге;
— Самое интересное: теперь можно пилить автоматизации с ИИ прямо в Spotlight. Эдакий n8n на минималках, но без гемора;
— А ещё прокачали быстродействие в играх, теперь будет работать в 30+ FPS (но это не точно)😂
— Дизайн тоже обновили, как в iOS новой;
— Можно перекрасить папочки — ваша девушка будет в восторге;
— Самое интересное: теперь можно пилить автоматизации с ИИ прямо в Spotlight. Эдакий n8n на минималках, но без гемора;
— А ещё прокачали быстродействие в играх, теперь будет работать в 30+ FPS (но это не точно)
Please open Telegram to view this post
VIEW IN TELEGRAM
Xcode 26: теперь с ИИ из коробки! Apple не забыли и про свою IDE.
— ChatGPT и другие LLM подключаются по API-ключу или работают локально (на Mac с Apple Silicon).
— Генерация кода, тестов, документации, рефакторинг — прямо в редакторе.
— Поддержка ChatGPT встроена сразу, можно начать даже без аккаунта. Но на нормальные лимиты не рассчитывайте.
А ещё:
— Новый UI для Coding Tools — подсказки, генерация playground’ов, фиксы на лету.
— Умная навигация, переработка локализаций.
— Полный Voice Control: можно писать Swift голосом и управлять Xcode без рук. Вайб-кодинг стал доступнее😁
— ChatGPT и другие LLM подключаются по API-ключу или работают локально (на Mac с Apple Silicon).
— Генерация кода, тестов, документации, рефакторинг — прямо в редакторе.
— Поддержка ChatGPT встроена сразу, можно начать даже без аккаунта. Но на нормальные лимиты не рассчитывайте.
А ещё:
— Новый UI для Coding Tools — подсказки, генерация playground’ов, фиксы на лету.
— Умная навигация, переработка локализаций.
— Полный Voice Control: можно писать Swift голосом и управлять Xcode без рук. Вайб-кодинг стал доступнее
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM