Ce este RDD în Scala?
Ce este RDD în Scala?

Video: Ce este RDD în Scala?

Video: Ce este RDD în Scala?
Video: RDD in Spark 2024, Mai
Anonim

Seturi de date distribuite rezistente ( RDD ) este o structură de date fundamentală a Spark. Este o colecție imuabilă distribuită de obiecte. RDD-uri poate conține orice tip de Python, Java sau Scala obiecte, inclusiv clase definite de utilizator. Formal, an RDD este o colecție de înregistrări partiționată numai în citire.

De asemenea, întrebarea este, care este diferența dintre RDD și DataFrame?

RDD – RDD este o colecție distribuită de elemente de date răspândite pe mai multe mașini în cluster. RDD-uri sunt un set de obiecte Java sau Scala care reprezintă date. DataFrame - A DataFrame este o colecție distribuită de date organizate în coloane numite. Conceptual este egal cu un tabel într-o baza de date relationala.

În plus, cum este distribuit RDD? Rezistent Distribuit Seturi de date ( RDD-uri ) Ei sunt distribuite colecție de obiecte, care sunt stocate în memorie sau pe discuri ale diferitelor mașini ale unui cluster. Un singur RDD poate fi împărțit în mai multe partiții logice, astfel încât aceste partiții să poată fi stocate și procesate pe diferite mașini ale unui cluster.

cum funcționează spark RDD?

RDD-uri în Scânteie au o colecție de înregistrări care conțin partiții. RDD-uri în Scânteie sunt împărțite în bucăți logice mici de date - cunoscute sub numele de partiții, atunci când o acțiune este executată, o sarcină va fi lansată pe partiție. Separatii in RDD-uri sunt unitățile de bază ale paralelismului.

Care este mai rapid RDD sau DataFrame?

RDD - În timpul efectuării unor operațiuni simple de grupare și agregare RDD API-ul este mai lent. DataFrame - În efectuarea analizei exploratorii, crearea de statistici agregate asupra datelor, cadre de date sunt Mai repede . RDD - Când doriți transformare și acțiuni la nivel scăzut, folosim RDD-uri . De asemenea, atunci când avem nevoie de abstracții la nivel înalt, folosim RDD-uri.

Recomandat: