Napredna obdelava velepodatkov s cuDF in Polars
- Izobraževanje
- petek, 3. april 2026
- 10.00 - 13.00
- Microsoft Teams
- Domen Veber, Jani Dugonik
Na delavnici bomo spoznali napredne tehnike obdelave velepodatkov v programskem jeziku Python z uporabo knjižnic Polars in cuDF. Udeleženci bodo spoznali knjižnico Polars in njeno leno izvajanje poizvedb, ki omogoča bistveno hitrejšo obdelavo podatkov kot Pandas. V drugem delu bomo spoznali knjižnico cuDF, ki z izkoriščanjem grafičnih procesnih enot (GPE) omogoča GPE-pospešeno analizo podatkov s skoraj enakim vmesnikom kot Pandas.
Delavnica bo sestavljena iz kratke teoretične predstavitve in obsežnih praktičnih vaj v okolju Jupyter Notebook in Google Colab. Udeleženci bodo primerjali zmogljivosti knjižnic Pandas, Polars in cuDF na podatkovnih zbirkah, izmerili pohitritve in spoznali, kdaj je katera knjižnica najprimernejša. Ob koncu bomo pokazali primer napredne obdelave podatkov na superračunalniku z GPE vozlišči.
Pridobljena znanja:
- razumevanje razlik med Pandas, Polars in cuDF ter kdaj uporabiti katero knjižnico,
- uporaba knjižnice Polars: DataFrames, leno izvajanje, izrazni sistem in agregacije,
- napredne operacije v Polarsu: združevanje, sortiranje, okenska funkcija in pivot,
- osnove GPE-pospešene obdelave podatkov s knjižnico cuDF,
- merjenje in primerjava zmogljivosti (benchmarking) med knjižnicami,
- izvajanje GPE-pospešene analize podatkov na superračunalniku.
POTREBŠČINE:
Osebni računalnik z nameščenim orodjem, ki omogoča dostop do oddaljenih sistemov (ssh). Udeleženci naj imajo dostop do Google Colab in superračunalnika Arnes.