Ce este reducerea prin cheie?
Ce este reducerea prin cheie?

Video: Ce este reducerea prin cheie?

Video: Ce este reducerea prin cheie?
Video: CHEI AUTO de 1 MILION DE EURO 🤑 2024, Mai
Anonim

Funcția Spark RDD reduceByKey îmbină valorile pentru fiecare cheie folosind un asociativ reduce funcţie. Aceasta înseamnă intuitiv că această funcție produce același rezultat atunci când este aplicată în mod repetitiv pe același set de date RDD cu mai multe partiții, indiferent de ordinea elementelor.

Atunci, care este diferența dintre groupByKey și reduceByKey?

groupByKey () este doar pentru a vă grupa setul de date pe baza unei chei. reduceByKey () este ceva de genul grupare + agregare. reduceByKey poate fi folosit atunci când rulăm pe un set mare de date. aggregateByKey() este logic același cu reduceByKey () dar vă permite să returnați rezultatul în diferit tip.

De asemenea, știți, de ce reducerea este acțiunea în scânteie? Reducerea scânteilor operațiunea este o acțiune tip de operație și declanșează o execuție completă a DAG pentru toate instrucțiunile leneșe aliniate. Scânteie RDD reduce funcția reduce elementele acestui RDD folosind operatorul binar comutativ și asociativ specificat. Reducerea scânteilor funcționarea este aproape similară cu reduce metoda la Scala.

Alături de mai sus, ce este Pairrdd?

Spark oferă operațiuni speciale pe RDD-uri care conțin perechi cheie/valoare. Aceste RDD-uri sunt numite RDD-uri perechi. Perechi RDD-urile sunt un element de construcție util în multe programe, deoarece expun operațiuni care vă permit să acționați asupra fiecărei chei în paralel sau să regrupați datele în rețea. PairRDD-uri sunt perechi KEY/VALUE.

reduceByKey este o acțiune?

reduce() produce o colecție care nu se adaugă la graficul aciclic direcționat (DAG), așa că este implementată ca un acțiune . In orice caz, reduceByKey () returnează un RDD care este doar un alt nivel/stare în DAG, prin urmare este o transformare.

Recomandat: