Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⭐️

Команда дня: Smallpond

В центре внимания сегодня — Smallpond, который оптимизирует работу с большими объемами данных, обеспечивая высокую производительность и гибкость при решении задач в области ИИ.

Архитектура Smallpond:
🔴 DuckDB — основное ядро для обработки данных в памяти, высокая производительность и низкая латентность
🔴 3FS — распределенная файловая система, поддерживающая работу с данными в формате Parquet, SSD и RDMA, что позволяет эффективно работать с большими объемами данных и хранить контрольные точки
🔴 Ray — мощный механизм распределения задач, популярный Ray Core для параллельной обработки и масштабируемости

Как использовать Smallpond:
🔴 Установите: pip install smallpond
🔴 Пример использования:

import smallpond  

sp = smallpond.init(job_name="flightdatajob", ray_address="http://127.0.0.1:8265")  

df = sp.read_parquet("flight_summary.parquet")  
df = df.repartition(10, hash_by="DEST_COUNTRY_NAME")  
df = sp.partial_sql("SELECT DEST_COUNTRY_NAME, count(distinct ORIGIN_COUNTRY_NAME) as ORIGIN FROM {0} GROUP BY DEST_COUNTRY_NAME HAVING DEST_COUNTRY_NAME='United States'", df)  

print(df.to_pandas())

Что происходит в коде:
🔴 Инициализация: подключение к кластеру Ray (или создание нового)
🔴 Чтение данных: импорт данных в формате Parquet, с разбиением по партициям (например, по хешу)
🔴 SQL-запросы: выполнение запросов с использованием DuckDB для обработки на каждой партиции
🔴 Вывод: результаты можно сохранить в форматах Parquet или pandas

🔘

Модель выполнения

Smallpond использует ленивые вычисления, создавая DAG (направленный ациклический граф) и выполняя задачи только при вызове действий, таких как to_pandas(). Это позволяет эффективно управлять вычислениями и минимизировать ресурсы.

🔘

Зачем нужен Smallpond

Smallpond подходит для задач, где требуется высокая производительность и оптимизация работы с большими данными. Его простота и интеграция с популярными инструментами делают его отличным выбором для проектов в области ИИ.

🔗

Узнать больше: https://clc.to/bPm0Xw

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤‍🔥1❤1

www.tg-me.com/us/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6320

1.86K viewsApr 9 at 06:52

tg-me.com/dsproglib/6320

Create: 2025-04-09
Last Update: 2025-07-09 22:22:24

⭐️ Команда дня: Smallpond

В центре внимания сегодня — Smallpond, который оптимизирует работу с большими объемами данных, обеспечивая высокую производительность и гибкость при решении задач в области ИИ.

Архитектура Smallpond:
🔴 DuckDB — основное ядро для обработки данных в памяти, высокая производительность и низкая латентность
🔴 3FS — распределенная файловая система, поддерживающая работу с данными в формате Parquet, SSD и RDMA, что позволяет эффективно работать с большими объемами данных и хранить контрольные точки
🔴 Ray — мощный механизм распределения задач, популярный Ray Core для параллельной обработки и масштабируемости

Как использовать Smallpond:
🔴 Установите: pip install smallpond
🔴 Пример использования:

import smallpond  

sp = smallpond.init(job_name="flightdatajob", ray_address="http://127.0.0.1:8265")  

df = sp.read_parquet("flight_summary.parquet")  
df = df.repartition(10, hash_by="DEST_COUNTRY_NAME")  
df = sp.partial_sql("SELECT DEST_COUNTRY_NAME, count(distinct ORIGIN_COUNTRY_NAME) as ORIGIN FROM {0} GROUP BY DEST_COUNTRY_NAME HAVING DEST_COUNTRY_NAME='United States'", df)  

print(df.to_pandas())

🔘

🔗

Узнать больше: https://clc.to/bPm0Xw

Библиотека дата-сайентиста #буст

Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

How to Invest in Bitcoin?

⭐️ Команда дня: SmallpondВ центре внимания сегодня — Smallpond