Анализ данных Data analysis Telegram Web

✔ PySpur

PySpur — это полезны и легкий инструмент для создания и управления рабочими процессами, с минимальным количеством зависимостей.

Он позволяет легко добавлять новые узлы через файл на Python и использует формат JSON для настройки графов.

Инструмент поддерживает асинхронное выполнение задач, работу с несколькими модальностями данных и оптимизацию конвейеров. Кроме того, он предоставляет возможность генерации узлов с использованием технологий искусственного интеллекта.

▪Github

4.2K views09:34

Анализ данных (Data analysis)

🧩 Задача для продвинутых дата-сайентистов: "Парадокс усечённых данных"

📖 Описание задачи

У вас есть DataFrame df с данными о зарплатах сотрудников в компании:


import pandas as pd

data = {
    'employee_id': range(1, 11),
    'department': ['IT', 'IT', 'IT', 'HR', 'HR', 'Finance', 'Finance', 'Finance', 'Finance', 'Finance'],
    'salary': [120000, 125000, None, 70000, None, 90000, None, 95000, None, 100000]
}

df = pd.DataFrame(data)
print(df)

Результат:


   employee_id department    salary
0            1         IT  120000.0
1            2         IT  125000.0
2            3         IT       NaN
3            4         HR   70000.0
4            5         HR       NaN
5            6    Finance   90000.0
6            7    Finance       NaN
7            8    Finance   95000.0
8            9    Finance       NaN
9           10    Finance  100000.0

👉 В задаче требуется:

> **Заполнить пропущенные зарплаты медианой по департаменту.
> Затем найти департамент с наибольшим средним уровнем зарплаты.**

Вы пишете такой код:


df['salary_filled'] = df.groupby('department')['salary'].transform(lambda x: x.fillna(x.median()))
top_department = df.groupby('department')['salary_filled'].mean().idxmax()
print(top_department)

❗️ Результат: "Finance"

Но через неделю выясняется, что HR утверждает:
> “Наш средний уровень зарплаты выше, чем в Finance!”

📝 Ваша задача:

1. Объяснить почему результат показывает Finance, хотя HR утверждает обратное?
2. Где ошибка в логике?
3. Как правильно посчитать среднюю зарплату, учитывая реальную ситуацию?

---

🎯 Подвох (ключевой момент):

Медиана по HR = 70000 (только одно известное значение).
Пропущенная зарплата в HR тоже заполняется 70000, т.е. обе записи будут 70000.

В Finance медиана = 95000 (из трёх известных: 90000, 95000, 100000).
Две пропущенные зарплаты в Finance тоже заполняются 95000.

✅ Но на самом деле в HR могли быть более высокие зарплаты, а мы по сути искусственно “усекли” распределение зарплат, заменив пропуски фиксированной медианой.

👉 Такая замена снижает дисперсию и искажает среднее, особенно если выборка мала.

---

💡 Правильный подход:

1. Вместо заполнения медианой, использовать **множественную имputation** (например, через `sklearn.impute.IterativeImputer`).
2. Либо **не заполнять NaN при вычислении среднего**, а использовать `mean(skipna=True)`, чтобы не “усекать” данные.
3. Либо **показать доверительный интервал** для среднего по каждой группе.

Пример альтернативного подхода:

```python
top_department = df.groupby('department')['salary'].mean().idxmax()
print(top_department)
```

✅ Таким образом NaN просто не участвуют в расчёте среднего, и мы не искажаем данные искусственным заполнением.

---

🔥 Усложнение (ещё один подвох):

А что если пропуски не случайны?
Например, все высокие зарплаты в HR отсутствуют, потому что сотрудники не раскрыли данные?

→ Тогда импутация медианой дополнительно “занижает” зарплаты HR, и классическая mean() даёт biased estimate.

В таком случае нужна модель пропусков (MAR, MCAR, MNAR) и специфические методы восстановления.

---

📝 Что проверяет задача:

✅ Понимание влияния методов заполнения пропусков
✅ Знание статистических эффектов усечения данных
✅ Умение интерпретировать результат с учётом bias
✅ Навык выбирать подходящий метод обработки пропусков в зависимости от их природы

4.2K views16:04

Анализ данных (Data analysis)

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 LTX-Video 13B — один из самых мощных open-source видеогенераторов.

Разработчики внедрили в модель мультимасштабный рендеринг.

✅ Обычные генеративные модели видео рендерят всё изображение целиком, одним разрешением.
Когда в сцене много движущихся объектов или деталей, модель может "размазать" их, потерять чёткость или неправильно совместить фон и передний план.

📝 А мультимасштабный рендеринг — это параллельная отрисовка картинки на разных уровнях детализации:

один поток отвечает за фон (низкая детализация, большой масштаб),

другой — за объекты в центре, движущиеся элементы (высокая детализация, малый масштаб).

Потом всё объединяется в один кадр, как слои в Photoshop.

🎯 Зачем это нужно?

Фон остаётся стабильным, не "дергается"

Движущиеся объекты остаются чёткими и отдельными от фона

Картинка в целом не разваливается (нет смешивания движений, артефактов)

Такой подход помогает удерживать высокое качество картинки даже при сложном движении — например, если в кадре бежит персонаж на фоне движущегося города.

👉 По сути, это умное раздельное внимание к разным частям кадра, чтобы не терять детали ни в статике, ни в движении.

Что нового?

– Модель 13 миллиардов параметров
– Multiscale rendering → больше деталей, чётче текстуры
– Лучше понимает движение и сцену
– Запускается локально на GPU
– Поддержка keyframes, движения камеры/персонажей, мультисценных секвенций

Запускается даже на RTX 4090.

#AI #videoAI #ltxvideo #deeplearning #generativeAI #opensource #videogeneration

▪Попробовать можно тут→ https://app.ltx.studio/ltx-video
▪Code → https://github.com/Lightricks/LTX-Video
▪Weights → https://huggingface.co/Lightricks/LTX-Video

5.6K views21:27

Анализ данных (Data analysis)

Учитесь в универе и хотите вырваться из рутины? Подайте заявку на бесплатный студкемп Яндекс Образования и НГУ! Здесь вы не просто переключитесь с повседневных задач, а нырнёте в одно из самых перспективных IT-направлений — NLP.

За две недели — с 14 по 26 июля — вы разберётесь, как работают языковые модели вроде YandexGPT и Qwen, поймёте, что такое мультимодальность и RAG, поработаете с реальными данными и создадите собственный проект. На интенсиве ждут студентов со всей России и каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте подать заявку до 18 мая!

3.9K views09:01

Анализ данных (Data analysis)

Forwarded from Machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

2.6K views11:49

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

📄 DocsGPT — открытый RAG-ассистент для работы с документами. Это не просто чат-бот, а целая экосистема, которая умеет извлекать информацию из PDF, DOCX, веб-страниц и даже GitHub-репозиториев, сохраняя привязку к исходным данным.

Что выделяет проект:
▪️Поддержка локальных моделей (Ollama, llama.cpp) и облачных API (OpenAI, Anthropic)
▪️Готовые интеграции для Discord, Telegram и веб-сайтов
▪️Возможность расширения функционала через инструменты и вебхуки

Для старта достаточно клонировать репозиторий и запустить setup-скрипт — через пару минут вы получите работающий инстанс с интерфейсом на localhost.

🤖 GitHub

@data_analysis_ml

4.3K views12:09

Анализ данных (Data analysis)

Железо + софт = будущее.

Стартовала регистрация на «Я.Железо-2025»

Как видит мир автономный грузовик, зачем лидару «подогрев стёкол» и что позволяет роверу ориентироваться в городе? Приглашаем 24 мая на конференцию «Я.Железо» — поговорим о разработке роботов, умных устройств, автономного транспорта и серверной инфраструктуры.
Вас ждут два трека с докладами, экспозона и нетворкинг.

О чём расскажут спикеры:

На треке Hardware — об устройстве сенсорсета, микрофонов в AOSP на примере ТВ-станции, а также сделают обзор системы очистки.
На треке Software — о смарт-функциях в ТВ Станциях, TBD Светофорах на роботе-доставщике и радаре в BEVFusion.

Что покажут на экспо:

•Собственные лидары. Как работают дальнобойный PBR-ONE и круговой nanoHomer и что позволяет роботам «видеть» сквозь дождь и туман.
•Автономные грузовики. Как тягач принимает решения, маневрирует и соблюдает ПДД, а лидары определяют объекты за сотни метров.
•Роботы-доставщики. Как ровер ориентируется в городе, видит пешеходов и решает, когда остановиться.
•Складские роботы. Как работает нейросеть и «грабер» в механической руке и сколько палето-мест в час может обработать робот-инвентаризатор.

Конференция пройдёт онлайн и офлайн в Москве 24 мая. Чтобы получить приглашение на «Я.Железо», зарегистрируйтесь по ссылке.

4.2K views15:00

Анализ данных (Data analysis)

2:32

Media is too big

VIEW IN TELEGRAM

🔥

AgenticSeek — мощнейший опенсорс ИИ-агент.

Это лучшая бесплатная альтернатива Manus AI за 200$. Есть всё, что нужно — поиск по интернету, поддержка голосового управления + он хороший помощник по кодингу.

И он умеет почти всё:

• Спланирует тур за границу: подберёт билеты, отели, маршруты
• Проведёт аудит бизнеса и предложит варианты оптимизации
• Возьмёт на себя работу в таблицах, анализ данных и отчётов
• Напишет код под любую задачу
• Прочитает книги, статьи, репозитории, просёрфит сайты и соберёт данные
• А теперь представьте: вы даёте ему сотню таких задач одновременно — это уже не ассистент, а полноценный бизнес-комбайн

AgenticSeek полностью управляет браузером и приложениями, интегрируется в ваши процессы и автоматически подбирает агентов под задачи.

✅ Управлять можно голосом
✅ Все приватные данные остаются только у вас

На GitHub уже 1800 звезд.

https://github.com/Fosowl/agenticSeek

Please open Telegram to view this post

VIEW IN TELEGRAM

4.7K views17:04

Анализ данных (Data analysis)

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

Hugging Face представили бесплатного Open Computer Agent — открытый аналог Operator, запускающийся на виртуальной Linux-машине. Этот агент умеет искать и бронировать билеты, заказывать столик в ресторане и решать множество других задач.

Есть два «но»: он иногда не справляется с CAPTCHA, а из-за высокой нагрузки ответы могут идти чуть дольше. Зато всё бесплатно и с открытым исходным кодом!

Попробовать можно прямо сейчас:

https://huggingface.co/spaces/smolagents/computer-agent

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

4.6K views11:49

Анализ данных (Data analysis)

NVIDIA открыла исходный код моделей Open Code Reasoning - 32B, 14B и 7B - лицензировано APACHE 2.0 🔥

> Превосходит O3 mini и O1 (низкий) на LiveCodeBench 😍

Модели в среднем на 30% эффективнее других эквивалентных моделей Reasoning.

Работает с llama.cpp, vLLM, transformers, TGI и другими — проверьте их сегодня!!

🟢

Models

🟢

Dataset

🟢

Paper

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

4.8K views09:28

Анализ данных (Data analysis)

🔥

Проект: fast-agent

fast-agent — это современный фреймворк для быстрой разработки и тестирования интеллектуальных агентов и рабочих процессов, поддерживающих протокол MCP (Model-Context-Protocol). Он предоставляет простой декларативный синтаксис и мощные инструменты для построения многоагентных систем с поддержкой OpenAI, Anthropic и других моделей.

▪ Основные возможности

• Быстрое создание агентов с помощью декораторов @fast.agent, минимизируя количество кода.

• Поддержка рабочих процессов: цепочки (`chain`), параллельные вызовы (`parallel`), маршрутизаторы (`router`), оркестраторы (`orchestrator`), схемы с оценкой и оптимизацией (`evaluator_optimizer`).

• Мультимодальность: обработка изображений, PDF-файлов и интеграция с внешними ресурсами MCP.

• Интерактивная отладка: настройка и диагностика агентов до, во время и после выполнения рабочих процессов.

• Гибкая конфигурация через fastagent.config.yaml и fastagent.secrets.yaml.

• Интеграция с LLM: OpenAI (GPT-4 и др.), Anthropic (Haiku, Sonnet, Opus) и другие модели через MCP-серверы.

▪ Быстрый старт

1️⃣ Установите менеджер пакетов uv для Python.

2️⃣ Установите fast-agent:


uv pip install fast-agent-mcp

3️⃣ Создайте пример агента и конфигурационные файлы:


uv run fast-agent setup

4️⃣ Запустите агента:


uv run agent.py

5️⃣ Для запуска примеров рабочих процессов:


uv run fast-agent quickstart workflow

▪ Документация и примеры

• Официальный сайт: [fast-agent.ai](https://fast-agent.ai)

• Документация: [fast-agent-docs](https://github.com/evalstate/fast-agent-docs)

• Примеры: директория examples в репозитории.

▪ Сообщество и развитие

• Проект активно развивается, ⭐ 1.7k+ звёзд на GitHub.

• Обсуждения: [Discussions](https://github.com/evalstate/fast-agent/discussions)

• Последние релизы: [Releases](https://github.com/evalstate/fast-agent/releases)

▪ Видеообзор

[First Look at Fast-Agent (or Manus) – Coding an AI ...](https://www.youtube.com/watch?v=GaVQyYougPc&utm_source=chatgpt.com)

🔍 GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

3.3K views09:58

Анализ данных (Data analysis)

🌧️ Superlinked — фреймворк для гибридного поиска, где вектора и метаданные работают вместе. Этот инструмент решает главную боль RAG-систем и рекомендательных сервисов — как эффективно комбинировать эмбеддинги с структурированными данными.

В отличие от чистых векторных поисков, здесь можно создать единую модель, где описание товара и его оценка влияют на результаты совместно. Проект широкой интеграции: от тестов в Jupyter-ноутбуке до продакшн-развёртывания REST API одним командой.

🤖 GitHub

@data_analysis_ml

3.8K views16:02

Анализ данных (Data analysis)

🐼 Pandas-задача с подвохом: “Почему ничего не работает?”

📘 Условие

Дано: DataFrame df:


import pandas as pd
import numpy as np

df = pd.DataFrame({
    'user_id': [1, 1, 2, 2, 3, 3],
    'score': [100, 90, np.nan, 85, 75, 95]
})

Ты хочешь:

1) Для каждого пользователя найти средний score,
2) Заполнить пропущенные значения score средним по этому пользователю.

Ты пишешь код:


df['score_filled'] = df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))

Ожидаешь, что пропущенное значение будет заменено на `85.0`.
Но вместо этого… возникает ошибка или неверный результат.

❓ Вопрос:

1) Почему этот код не работает как ты ожидаешь?
2) Какое поведение apply() вызывает подвох?
3) Как правильно решить задачу?

---

✅ Разбор:

💥 Проблема в `.apply()` + присваивание по индексу

Функция `groupby().apply()` возвращает **объединённый результат с вложенным индексом**, который **не совпадает с индексом исходного DataFrame**.

Пример:

```python
df.groupby('user_id')['score'].apply(lambda x: x.fillna(x.mean()))
```

→ возвращает Series с уровнем индекса: `(user_id, original_index)`,
а `df['score_filled'] = ...` ожидает индекс, совпадающий с `df.index`.

📌 Результат: pandas либо выбрасывает `ValueError`, либо вставляет неправильные значения.

✅ Правильные способы

Способ 1: использовать `transform` (индекс сохраняется!):

```python
df['score_filled'] = df['score'].fillna(
df.groupby('user_id')['score'].transform('mean')
)
```

Способ 2: в два шага:

```python
user_means = df.groupby('user_id')['score'].transform('mean')
df['score_filled'] = df['score']
df.loc[df['score'].isna(), 'score_filled'] = user_means
```

🎯 Так `NaN` будет корректно заполнен значением `85.0`.

⚠️ Подвох

• `groupby().apply()` не гарантирует совпадение индексов
• `transform()` — безопаснее, если хочешь сохранить структуру
• Даже опытные часто используют `apply` “по привычке” и попадают в ловушку
• Такие ошибки не всегда приводят к crash — они хуже: создают **тихие баги**

Хочешь сделать вторую часть , ставь 👍

3.5K views11:53

Анализ данных (Data analysis)

Forwarded from Machinelearning

✔️

Qwen официально выпустили квантованные версии Qwen3!

Теперь Qwen3 можно развернуть через Ollama, LM Studio, SGLang и vLLM — выбирайте удобный формат (GGUF, AWQ или GPTQ) для локального деплоя.

Все модели доступны в коллекции Qwen3 на Hugging Face и ModelScope:

➡️

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

➡️

ModelScope: https://modelscope.cn/collections/Qwen3-9743180bdc6b48

@ai_machinelearning_big_data

#Qwen

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views12:55

Анализ данных (Data analysis)

🌐 Reader от Jina AI — переводчик веб-страниц для языковых моделей. Этот необычный проект решает проблему всех RAG-систем, превращая контент веб-страниц в удобоваримый для LLM формат. Просто добавьте https://r.jina.ai/ перед любой ссылкой и получите очищенный от рекламы, JS-кода и лишних элементов текст с автоматически подписанными изображениями.

Также запрос через s.jina.ai не просто выдает список ссылок, а сразу загружает и обрабатывает топ-5 результатов. Технология уже используется в продакшене и полностью бесплатна.

🤖 GitHub

@data_analysis_ml

2.7K views13:02

Анализ данных (Data analysis)

⚡️Создаём свою нейросеть в PyTorch

Хотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.

Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex и Huawei.

Что будет на вебинаре?
🟠Установим PyTorch в Google Colab и настроим работу на бесплатном GPU;
🟠Поймём, что такое тензоры и почему они — фундамент всех нейросетей;
🟠Скачаем готовый датасет, разберём его структуру и подготовим для обучения;
🟠Научимся использовать DataLoader для эффективной загрузки данных;
🟠Пошагово соберём облегчённую версию классической свёрточной нейронной сети (CNN);
🟠Обучим и протестируем модель.

🕗 Встречаемся 14 мая в 18:30 по МСК, будет много практики, ответы на вопросы и полезные инсайты от эксперта.

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

2.1K views16:00

Анализ данных (Data analysis)

🩺 HealthBench — новый бенчмарк от OpenAI для оценки ИИ в медицине

OpenAI представила HealthBench — масштабный бенчмарк, разработанный для оценки возможностей языковых моделей в медицинских сценариях. Он создан в сотрудничестве с 262 врачами из 60 стран и включает 5 000 реалистичных медицинских диалогов.

🔍 Основные особенности HealthBench:

- Реалистичные кейсы: Диалоги отражают реальные взаимодействия между пациентами и врачами, охватывая различные медицинские специальности и контексты.

- Многоязычность: Бенчмарк поддерживает несколько языков, что позволяет оценивать модели в глобальном масштабе.

- Оценка по рубрикам: Каждый ответ модели оценивается по набору критериев, разработанных врачами, с учетом полноты, точности и уместности.

Открытый доступ: Код и данные доступны на GitHub, что способствует прозрачности и сотрудничеству в исследовательском сообществе.

HealthBench устанавливает новый стандарт для оценки ИИ в здравоохранении, обеспечивая более надежные и безопасные инструменты для пациентов и врачей.

🔗 Подробнее: https://openai.com/index/healthbench/

1.8K views18:03

2025/05/13 01:06:40
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>