Telegram Group Search
🍏Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов


🧱 Лимиты моделей:

| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.


🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Работа с многомерными данными — это вызов. Хотите узнать, как избавиться от лишнего «шума» и сохранить только важную информацию?

🔍 На открытом вебинаре вы узнаете, как методы уменьшения размерности помогают обрабатывать сложные данные, ускорять машинное обучение и находить скрытые закономерности. Мы разберем популярные техники: PCA, t-SNE, UMAP и автоэнкодеры, а также покажем, как эффективно применять их на практике.

🚀 С помощью простых и мощных методов вы научитесь повышать интерпретируемость моделей и ускорять их работу — это даст ощутимые преимущества в реальных проектах. Отличная возможность повысить свою квалификацию в Data Science!

📅 Урок пройдет в преддверии старта курса «Machine Learning. Professional».

🔗 Зарегистрируйтесь и получите скидку на обучение: https://otus.pw/uR54/?erid=2W5zFJBYgVN

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🧠 PyTorch Distributed Checkpointing теперь поддерживает HuggingFace safetensors

📦 Что произошло:
Платформа DCP (Distributed Checkpointing) в PyTorch теперь встраивает нативную поддержку формата safetensors от HuggingFace. Это важный шаг к полной совместимости с экосистемой HF, которая активно используется в инференсе и дообучении.

🔍 В чём была проблема:
• DCP раньше использовал свой собственный формат чекпоинтов
• Чтобы работать с HuggingFace, приходилось писать конвертеры
• Чекпоинты приходилось загружать локально, что усложняло пайплайны

🚀 Что изменилось:
• Теперь можно сохранять и загружать модели напрямую в safetensors
• Поддерживается любой `fsspec`-совместимый storage (S3, GCS, локалка и т.д.)
• Интеграция уже улучшила UX в torchtune, став первым пользователем новой фичи

🛠 Как использовать:
• Просто передай новый load planner и storage reader в load()
• И аналогично — save planner + writer для save()
• Всё остальное работает как раньше

📈 Что это даёт:
• Меньше костылей и меньше кода
• Единый формат чекпоинтов для HF и PyTorch
• Более гибкие и производительные пайплайны

#PyTorch #HuggingFace #safetensors #ML #checkpointing #opensource

https://pytorch.org/blog/huggingface-safetensors-support-in-pytorch-distributed-checkpointing

@data_analysis_ml
✔️ Welcome Time в Яндексе — дружелюбная встреча для аналитиков

📍 21 июня, Москва, штаб-квартира на Льва Толстого

Что такое R&D и чем аналитики в этой команде отличаются от продуктовых? Узнаете на тёплой встрече с командами исследований Яндекса.

В программе доклады от практиков:

🔸 *Ирина Барская* — руководитель службы аналитики и исследований
→ Расскажет, какие технологии развивают в R&D

🔸 *Иван Дёгтев* — руководитель аналитики генеративных моделей
→ Объяснит, как работает и развивается YandexGPT

🔸 *Елена Вольф* — аналитик-разработчик YandexGPT
→ Расскажет, как GPT помогает саппорту в роли RAG-ассистента

🔸 *Артём Хуршудов* — руководитель аналитики визуальных моделей
→ Покажет, как генерируют изображения с помощью YandexART и VLM

🔸 *Арсений Нестюк* — руководитель аналитики распознавания речи
→ Поговорит про голосовые технологии и Алису

📊 Бонус: быстрая диагностика навыков по аналитике и статистике.
🧠 Успешное прохождение = автоматический зачёт техсекции на собеседовании в Яндекс (действует 2 года).

📅 Успей зарегистрироваться до 19 июня — будет интересно, полезно и без галстуков.

➡️ Регистрация на Welcome Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉 Apple на WWDC 2025: обновления для разработчиков и новый дизайн

📦 Что нового:

On-device AI для всех
Apple открывает доступ к своим LLM-моделям прямо на устройствах. Теперь разработчики могут использовать Apple Intelligence в своих приложениях — без интернета и с полной защитой приватности.

Xcode 26 + ChatGPT
Новая версия Xcode умеет генерировать код, помогать с тестами и исправлять баги с помощью встроенной интеграции ChatGPT и других LLM.

Liquid Glass — новый дизайн Apple
Полупрозрачные и живые элементы интерфейса приходят во все системы: iOS 26, macOS Tahoe, iPadOS, watchOS, visionOS. Всё выглядит как будущее.

Icon Composer для дизайнеров
Создавайте адаптивные иконки с эффектами бликов, размытием и прозрачностью. Никаких ручных svg больше не нужно.

250 000+ API и новые фреймворки
Улучшения в SwiftUI, Metal, RealityKit и множестве других SDK. Новые API для AI, AR, visionOS и работы с пространственными интерфейсами.

🧪 Бета уже доступна для участников Apple Developer Program.
Публичная бета — в июле. Финальный релиз — осенью.

💡 Это шаг в сторону мощных оффлайн-приложений с AI, нового визуального языка и реального удобства разработки.

https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/

@data_analysis_ml
🧠 NVIDIA выпустила *Nemotron-Personas* — 100 000 синтетических персон на Hugging Face!

🔓 Открытый датасет, сгенерированный нейросетью, но основанный на *реальных распределениях* пользователей. Что это даёт:

🧩 Больше *разнообразия* в данных
🛡 Снижение *предвзятости* моделей
🧠 Защита от *model collapse* при масштабном обучении

📦 Подходит для тестирования, дообучения и анализа LLM в сценариях с разными типами людей: по мотивации, профессии, эмоциям, взглядам и пр.

🔗 Датасет уже доступен на Hugging Face: NVIDIA Nemotron-Personas

https://huggingface.co/datasets/NVIDIA/nemotron-personas

@data_analysis_ml
🧠 Cartridges: как ускорить LLM в 26 раз без потери качества

Что, если вместо того, чтобы каждый раз загонять в контекст LLM весь репозиторий, мы предварительно обучим мини-контекст — и будем просто вставлять его при генерации?

🔍 Это и есть идея Cartridges — небольшой KV-кэш, обученный заранее с помощью метода self-study (обучение во время инференса).

📦 Репозиторий: содержит код для тренировки "картриджа" — легкого представления большого текстового дампа (например, всей кодовой базы), которое вставляется в LLM как контекст.

📉 Проблема:
• Если вставлять много текста в LLM, KV-кэш раздувается, скорость падает, стоимость растёт

🚀 Решение:
• Обучаем маленький KV-кэш для документации или репо
• Используем его как "сжатый контекст" при генерации

📈 Результаты:
• До 26× ускорения
• Качество ответов сохраняется
• Простая реализация и универсальный подход

📖 Подробнее в статье: *Cartridges: Lightweight and general-purpose long context representations via self-study*

git clone https://github.com/HazyResearch/cartridges && cd cartridges
pip install uv
uv pip install -e .


📎 Идея простая, но мощная: пусть LLM "запоминает" ваш проект заранее — и работает с ним быстро, как с привычным знанием.

Github
Forwarded from Machinelearning
⚡️ Mistral выпустила ризонинг-модель Magistral.

Magistral — первая модель рассуждений от Mistral AI. Она сочетает глубокую логическую обработку с возможностью отслеживать каждый шаг её «мышления».

Модель получила поддержку 8 языков, включая русский и выпущена в 2 вариантах:

🟢опенсорсный Magistral Small с 24 млрд. параметров;

🟠корпоративный Magistral Medium.

Внутри Magistral работает в режиме рассуждений, разбивая задачи на цепочки логических шагов, а Flash Answers ускоряет вывод в 10 раз по сравнению с конкурентами. Для интеграции в рабочие процессы модель умеет взаимодействовать с внешними инструментами (API или базами данных).

В тестах Magistral Medium показал 73,6% точности на задачах AIME2024, демонстрируя силу в физических симуляциях и математических расчетах.

Для разработчиков доступны версии на Hugging Face, AWS и IBM WatsonX, а в будущем — на Azure и Google Cloud. Демо Magistral доступно в интерфейсе Le Chat или по API в La Plateforme.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Техотчет
🟡Web Demo


@ai_machinelearning_big_data

#AI #ML #LLM #Magistral #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 NVIDIA представила гигантский синтетический датасет для беспилотных автомобилей!

🔥 Что внутри?
81,802 синтетических видео с разнообразными сценариями:
— Городские/шоссейные дороги
— Экстремальные погодные условия (дождь, снег, туман)
— Редкие ситуации (аварии, нестандартные ПДД)

Мультисенсорные данные:
— Камеры, лидары, радары
— Разметка объектов (пешеходы, машины, знаки)

Dataset: https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams
Project Page: https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams/

@data_analysis_ml
🧠 16 июня все самое важное в мире технологий ищите в Санкт-Петербурге!

В ТехноХабе Сбера состоится большая сессия в рамках серии мероприятий международной конференции AI Journey.

Именно здесь соберутся лидеры AI-индустрии из разных стран, чтобы обсудить реальные кейсы внедрения AI, архитектуры нового поколения, крутой апгрейд нейронки GigaChat, самое свежее в исследованиях GenAI и то, что уже завтра станет новым стандартом!

📌 Подключайтесь к трансляции, чтобы не отставать от будущего.
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🔥 Manus Chat Mode — бесплатно и без ограничений для всех.

💬 Работает супер быстро прямо в чате.

🚀 Так же доступен Agent Mode с расширенными возможностями.

От простых вопросов до сложных задач — всё в одном окне : https://manus.im/

@ai_machinelearning_big_data

#news #ai #ml #manus
🎉 cuOpt от NVIDIA стал open source!

Теперь можно легко ускорять задачи оптимизации —
🔸 линейное программирование (LP)
🔸 целочисленные задачи (MIP)
🔸 маршрутизацию транспорта (VRP)
— с помощью GPU, почти не меняя код.

💡 Работает с Python, REST API и CLI
💡 Поддерживает PuLP и AMPL
💡 Запускается локально или в облаке
💡 Настраивается за пару минут

pip install --extra-index-url=https://pypi.nvidia.com cuopt-server-cu12==25.5.* cuopt-sh==25.5.*

📈 Результат — решения почти в реальном времени, даже для сложных задач.

👉 Попробуй
2025/06/11 22:39:49
Back to Top
HTML Embed Code: