Data Science by ODS ai 🦜 Telegram Web

Forwarded from AI.Insaf

Вчера сходил на Датафест в Avito. Ожидаемо, основной фокус был на LLM и рекомендациях

По докладам:
1. Самый сильный доклад - про post-training LLM и библиотеку torchtune (реализованы SFT, DPO, PPO и т. д. без обёрток Hugging Face), в которую сам докладчик контрибьютит. Берём Llama (вроде бы 7B, batch_size=2) с QLoRA`й - обучение займёт 358 минут с пиком потребления памяти 7 ГБ. Добавим Compile, packing батчей, FlexAttention — и время обучения уменьшится до 36 минут, но какой ценой: потребление памяти вырастет до 40 ГБ (x6),. Можно ещё добавить Context Parallel и улететь в космос с пиками потребления до 70 ГБ.

2. Несколько докладов по продуктовому применению LLM в Avito и Т-Банке (например разметка звонков, чатов на факт сделки и т. д.). Общий подход - максимально очистить выборку и согласовать инструкцию к разметке, добившись консистентности разметки, т. е. чтобы разные люди размечали одинаково. Далее - максимально понятный LLM workflow, так чтобы задача решалась итерационно; если контекст сильно растёт, добавляем RAG. При этом в одном из кейсов Avito для RAG зашла комбинация BM25, LLM, BERT и реранкера из RoBERTa. PS Агентов еще не завезли

3. Дообучение LLM в Avito. Дообучали (DPO) лёгкие 7B модели (Qwen) - получили небольшие приросты метрик, которые нивелируются релизами новых опенсорсных моделей. Ключевой эффект - в дообучении своего токенизатора с фокусом на русский язык (+31% к скорости инференса).

4. Рекомендации на главной Avito: ретривал на трансформерах с позиционными эмбедингами товаров (кликов и просмотров) + ranking на CatBoost. Вся эта история даёт 50% просмотров и 30% кликов по объявлениям. Из интересного - добавление блендера, чтобы в бесконечной ленте были товары из разных категорий

5. Большая дискуссия про важность ML-соревнований. В конце спикеры сошлись на том, что если результат соревнования/хакатона определяется местом на лидерборде, то презентации не стоит учитывать (важен результат, а не то, как он достигнут). Эх, не зря ругают звездолёты кагглеров

6. Инсайды с обсуждений вне докладов - chatgpt любит некоторые буквы заменять на редкие аналоги, которые выглядят так же, чтобы потом можно было бы определить что текст сгенерирован. Плюс наличие нового абзаца с двух пробелов или использование длинного тире - текст сгенерирован, тк такое человек не использует

P.S. На квизе вспомнили про Bimorph - вот так становятся легендой. Пик одс в 2019г и я там был, сейчас нашел статью на хабре, но те обсуждения под 1к сообщение в слаке уже не найти 🫡

P.S2 На фото - вид с веранды офиса, красивое

2.8K views10:18

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

✔️

13 полезных MCP-серверов, которые стоит попробовать

MCP (Model Context Protocol) меняет то, как ИИ-модели и агенты взаимодействуют с инструментами.

1. Agentset MCP
🔗 https://github.com/agentset-ai/mcp-server
Быстрое создание интеллектуальных приложений на основе документов (RAG) с open-source платформой Agentset.

2. GitHub MCP Server
🔗 https://github.com/github/github-mcp-server
Интеграция с API GitHub — можно строить ИИ-инструменты, работающие с экосистемой GitHub.

3. arXiv MCP
🔗 https://github.com/andybrandt/mcp-simple-arxiv
Работа с научными статьями arXiv: поиск, метаданные, аннотации, ссылки — всё через MCP.

4. MCP Run Python
🔗 https://github.com/pydantic/pydantic-ai/tree/main/mcp-run-python
Запуск Python-кода в песочнице через Pyodide (Deno). Полная изоляция от ОС.

5. Safe Local Python Executor
🔗 https://github.com/maxim-saplin/mcp_safe_local_python_executor
Безопасный локальный запуск Python-кода, сгенерированного LLM, через LocalPythonExecutor (от smolagents).

6. Cursor MCP Installer
🔗 https://github.com/matthewdcage/cursor-mcp-installer
Автоматическое добавление MCP-серверов в редактор Cursor — удобно для разработчиков.

7. Basic Memory
🔗 https://memory.basicmachines.co/docs/introduction
Система управления знаниями: создаёт устойчивый семантический граф из диалогов ИИ-агентов.

8. Filesystem MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/HEAD/src/filesystem
Чтение, запись, поиск файлов, создание, удаление и перемещение директорий — всё через MCP.

9. Notion MCP Server
🔗 https://github.com/makenotion/notion-mcp-server
Позволяет моделям управлять вашим рабочим пространством в Notion: поиск, чтение, создание и обновление страниц и баз.

10. Markdownify MCP Server
🔗 https://github.com/zcaceres/markdownify-mcp
Конвертирует PDF, изображения, аудио и веб-страницы в Markdown.

11. Fetch MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/main/src/fetch
Позволяет LLM извлекать данные с веб-страниц и автоматически преобразовывать HTML в Markdown.

12. Mobile Next MCP Server
🔗 https://github.com/mobile-next/mobile-mcp
Взаимодействие с iOS/Android-приложениями: распознавание UI по скриншотам, автоматизация кликов.

13. MCP Installer
🔗 https://github.com/anaisbetts/mcp-installer
Шутливо, но по делу: «MCP для установки MCP». Модель сама ставит MCP-серверы из npm и PyPi по вашему запросу.

🧠 Вывод:
MCP-серверы — это мост между LLM и реальными действиями: код, браузер, мобильные приложения, знания, GitHub, файлы.
Их можно комбинировать в цепочки, расширять ассистентов, строить автономные агенты.

@data_analysis_ml

#ml #ai #MCP

Please open Telegram to view this post

VIEW IN TELEGRAM

2.8K views06:10

Data Science by ODS.ai 🦜

Forwarded from LLM Arena

⚡️ DeepSeek наносит ответный удар!

Китайский DeepSeek тихо представил обновленную версию своей революционной модели искусственного интеллекта - DeepSeek R1-0528.

Что нового в обновлении?

🩵Улучшенные возможности рассуждения — модель демонстрирует еще более продвинутые способности к логическому мышлению и решению сложных задач.
🩵Снижение галлюцинаций — значительно повышена точность и надежность ответов.
🩵Оптимизация размера — модель стала на 80% компактнее, что делает ее доступной для локального использования даже на одной GPU.
🩵Улучшенная производительность в кодинге — R1-0528 показывает выдающиеся результаты на LiveCodeBench, превосходя конкурентов.

🩵Попробуйте ее прямо сейчас на LLM Arena и сравните с другими моделями: llmarena.ru

Please open Telegram to view this post

VIEW IN TELEGRAM

2.8K views14:04

Data Science by ODS.ai 🦜

Forwarded from CV Time

Improving the Diffusability of Autoencoders

Сегодня разбираем статью, в которой обсуждается то, что авторы называют diffusability латентного пространства: насколько легко диффузионной модели учиться на латентах автоэнкодера.

В латентных диффузионных моделях (например, Stable Diffusion) генерация происходит не в пикселях, а в сжатом представлении. Это ускоряет обучение, но вводит зависимость от свойств автоэнкодера. Обычно смотрят только на качество реконструкции: насколько хорошо декодер восстанавливает изображение. Но есть вторая характеристика — diffusability, и именно её авторы рассматривают в этой работе.

Что такое diffusability и почему это важно

Если латенты имеют сложное распределение или содержат неинформативные шумовые компоненты, диффузии приходится подстраиваться под это распределение — обучаться дольше и потенциально упираться в потолок качества. Поэтому автоэнкодер задаёт не только качество реконструкции, но и удобство обучения вместе с последующей генерацией.

Авторы смотрят на латенты от обычных автоэнкодеров и замечают, что они визуально шумные: в них много высокочастотных деталей, особенно в фоне. Чтобы разобраться, применяют дискретное косинусное преобразование (DCT), как в JPEG. Разбивают картинку или латент на блоки 8×8, считают DCT по каждому из них, усредняют спектры и строят частотный профиль.

Выясняется, что латенты содержат больше высокочастотных компонентов, чем изображения, и это особенно заметно при увеличении числа каналов. Даже если латент визуально похож на картинку, его частотный профиль сильно отличается. А если обнулить высокие частоты и попробовать восстановить изображение, латент теряет качество гораздо сильнее, чем обычное изображение — там такие потери почти незаметны. Это говорит о том, что латенты слишком зависят от высокочастотной части и не обладают масштабной эквивариантностью.

Тогда авторы добавляют к лоссу автоэнкодера простую компоненту: берут исходное изображение и соответствующий латент, уменьшают их разрешение (в 2 или 4 раза), затем реконструируют картинку из сжатого латента и считают дополнительный лосс между даунскейленным изображением и полученной реконструкцией.

Таким образом они обеспечивают соблюдения свойства масштабной инвариантности (потому что лосс буквально это и делает), что, в свою очередь, регуляризует латенты, убирая из них лишние высокие частоты.

Результат — латенты становятся менее шумными, частотные профили ближе к тем, что у изображений. И, что важно, визуально структура латента сохраняется. Согласно метрикам, качество реконструкции почти не падает.

Эксперименты

Метод протестировали на ImageNet-1K (изображения) и Kinetics-700 (видео). Сравнивали обучение диффузионной модели на обычных и исправленных латентах.

В статье diffusability измеряют через скорость обучения: берут автоэнкодер, обучают на нём диффузионную модель и смотрят, насколько быстро растёт метрика качества (например, FID для изображений и FVD для видео). Сравнивались базовые модели и те же архитектуры, но обученные на автоэнкодерах с исходным и улучшенным diffusability. Оказалось, что последние учатся быстрее и дают лучшее финальное качество.

Результаты:
— генерация изображений: FID улучшился на 19%;
— генерация видео: FVD улучшился на 44%;
— модели обучаются быстрее;
— PSNR немного растёт (за счёт блюра), но визуально картинки выглядят нормально.

Визуализация того, как выглядят латенты до и после (см. картинку), взята из другой работы, посвященной этой же теме: шум действительно уходит, но структура остаётся. Частотные кривые тоже приближаются к тем, что у изображений.

В целом статья посвящена довольно локальной проблеме, но в ней есть понятная идея и измеримый эффект.

Разбор подготовил ❣ Сергей Кастрюлин
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views17:54

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views11:33

Data Science by ODS.ai 🦜

Forwarded from Anton Alekseev | Инфраструктура для AI и ML

Тензерирование или быстрая загрузка весов моделей в GPU

Раскроем подробнее что такое Тензерирование - это способ сериализации и десериализации весов модели, что позволяет сократить время загрузки весов в GPU. Также позволяет загружать веса в S3, добавить шифрование, уменьшить время старта инференса и нагрузку на CPU.

Истоки - Проект CoreWeave

Как добавили в VLLM

Как использовать в VLLM

Пример скрипта сериализации/десериализации. В комментах подробные инструкции как пользоваться.

Результаты тестирования
Замерял время загрузки весов из local path в GPU во время старта VLLM

Qwen3-8b
A100 40gb x1
веса размером 15.2683 GiB
tensorize vs default
5.435905 sec vs 34.538318 sec

пример конфига для vllm


{
    "model":"Qwen/Qwen3-8B",
    "load_format": "tensorizer",
    "model_loader_extra_config": {"tensorizer_uri": "/root/models/ser-qwen-from-local/vllm/qwen_hf/v1/model.tensors"}
}

Разница в 7 раз

Qwen3-32b
A100 40gb x2 при tensor-parallel-size 2
Веса размером 30.5855 GiB
tensorize vs default
118.667568 sec vs 307.285575 sec

пример конфига для vllm


{
"model":"Qwen/Qwen3-32B",
"load_format": "tensorizer",
"model_loader_extra_config": {
"tensorizer_uri": "/root/models/ser-qwen-32-from-local/vllm/qwen_32/v1/model-rank-%03d.tensors"
},
"tensor_parallel_size": 2,
"disable_log_requests": "true",
"gpu_memory_utilization": 0.9,
"max_model_len": 5024
}

Разница в 3 раза

Загружаются веса действительно в разы быстрее. У кого стоит задача уменьшить время загрузки весов в GPU - рекомендую присмотреться к этому способу!

2.8K views10:38

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🍏

Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов

🧱 Лимиты моделей:

| Модель       | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1  | 64k            | 12  
| o3-mini      | 100k           | 13  
| Sonnet 3.7   | 128k           | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.

🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.8K views10:05

Data Science by ODS.ai 🦜

Forwarded from Белый хакер

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views15:38

Data Science by ODS.ai 🦜

Forwarded from Sber AI

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Собрано в России: 8 датасетов от отечественных разработчиков💡

Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.

Golos и Dusha

💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.

Национальный корпус русского языка

✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.

Slovo

💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.

∇²DFT

👨‍💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.

Skoltech3D

💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.

Museum exhibits dataset

⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.

MosMedData Chest CT Scans

🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.

❤️ — если хотите больше историй о российских AI-разработках

Please open Telegram to view this post

VIEW IN TELEGRAM

1.5K views09:50

Data Science by ODS.ai 🦜

Forwarded from Мой Компьютер

Самая большая проблема ChatGPT

Мэтью Нур, исследователь в области нейробиологии и ИИ в Оксфордском университете, сформулировал самую важную проблему чат-ботов – они говорят людям то, что те хотят услышать. Нейросети настолько настроены быть приятными собеседниками, что своими ответами могут поддерживать не лучшие решения пользователей, которые уже приводили к летальным исходам. «Тебе кажется, что ты разговариваешь с беспристрастным советником или наставником, но на самом деле ты смотришь в своего рода кривое зеркало, где отражаются твои собственные убеждения».

Причина подлизываний со стороны ботов проста – большинство массовых GPT-нейросетей обучаются с подкреплением на основе обратной связи с человеком (RLHF). То есть люди выбирают, какие сообщения ИИ считать корректными, а какие нет. Большинству нравятся лестные ответы, поэтому нейросети под них и подстроились. Компании, имеющие ИИ-ботов, знают о проблеме и стараются бороться с ней в процессе обучения, прививая нейросетям «внутренний стержень» и приоритет заботы над пользователем.

Мой Компьютер

1.2K views14:46

2025/06/14 00:07:38
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>