tg-me.com/dsproglib/6320
Last Update:
В центре внимания сегодня — Smallpond, который оптимизирует работу с большими объемами данных, обеспечивая высокую производительность и гибкость при решении задач в области ИИ.
Архитектура Smallpond:
Как использовать Smallpond:pip install smallpond
import smallpond
sp = smallpond.init(job_name="flightdatajob", ray_address="http://127.0.0.1:8265")
df = sp.read_parquet("flight_summary.parquet")
df = df.repartition(10, hash_by="DEST_COUNTRY_NAME")
df = sp.partial_sql("SELECT DEST_COUNTRY_NAME, count(distinct ORIGIN_COUNTRY_NAME) as ORIGIN FROM {0} GROUP BY DEST_COUNTRY_NAME HAVING DEST_COUNTRY_NAME='United States'", df)
print(df.to_pandas())
Что происходит в коде:
Smallpond использует ленивые вычисления, создавая DAG (направленный ациклический граф) и выполняя задачи только при вызове действий, таких как
to_pandas()
. Это позволяет эффективно управлять вычислениями и минимизировать ресурсы.Smallpond подходит для задач, где требуется высокая производительность и оптимизация работы с большими данными. Его простота и интеграция с популярными инструментами делают его отличным выбором для проектов в области ИИ.
Библиотека дата-сайентиста #буст