Care este motorul de procesare a datelor din spatele Amazon Elastic MapReduce?
Care este motorul de procesare a datelor din spatele Amazon Elastic MapReduce?

Video: Care este motorul de procesare a datelor din spatele Amazon Elastic MapReduce?

Video: Care este motorul de procesare a datelor din spatele Amazon Elastic MapReduce?
Video: What is Amazon EMR and how can I use it for processing data? 2024, Noiembrie
Anonim

Amazon EMR folosește Apache Hadoop ca distribuție motor de prelucrare a datelor . Hadoop este o sursă deschisă, cadru software Java care acceptă date -aplicații distribuite intensive care rulează pe clustere mari de hardware de marfă.

Mai mult, ce este Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) este o Amazon Web Services ( AWS ) instrument de prelucrare și analiză a datelor mari. Amazon EMR procesează date mari printr-un cluster Hadoop de servere virtuale Amazon Elastic Compute Cloud ( EC2 ) și Amazon Serviciu de stocare simplu ( S3 ).

În plus, este Amazon EMR gestionat în totalitate? E o pe deplin gestionat Serviciu data lake care poate decupla stocarea datelor de resursele de calcul și, în schimb, face clusterele de calcul scalabile, disponibile pentru a fi utilizate la cerere și include posibilitatea ca mai multe clustere să acceseze aceleași seturi de date simultan.

De asemenea, cineva se poate întreba cum funcționează AWS EMR?

În general, atunci când procesați date în Amazon EMR , intrarea este date stocate ca fișiere în sistemul de fișiere de bază ales de dvs., cum ar fi Amazon S3 sau HDFS. Aceste date trec de la un pas la altul în secvența de procesare. Pasul final scrie datele de ieșire într-o locație specificată, cum ar fi un Amazon Găleată S3.

Care este diferența dintre ec2 și EMR?

Spre deosebire de EMR , EC2 nu clasifică nodurile slave în noduri de bază și sarcini. Acest lucru crește riscul de a pierde date HDFS în cazul în care un nod este eliminat/pierdet. EC2 folosește bibliotecile Apache (s3a) pentru a accesa datele de pe s3. Pe de altă parte, EMR folosește codul proprietar AWS pentru a avea acces mai rapid la s3.

Recomandat: