Care este problema cu fișierele mici din Hadoop?
Care este problema cu fișierele mici din Hadoop?

Video: Care este problema cu fișierele mici din Hadoop?

Video: Care este problema cu fișierele mici din Hadoop?
Video: Hadoop Small File Issue | Hadoop Interview Questions 2024, Mai
Anonim

1) Problemă cu fișierul mic în HDFS : Stocarea o mulțime de fișiere mici care sunt extrem de mai mica decât dimensiunea blocului nu poate fi gestionată eficient de HDFS . Citind fișiere mici implică o mulțime de căutări și o mulțime de sărituri între nod de date la nod de date, ceea ce este, la rândul său, o procesare ineficientă a datelor.

Pe lângă aceasta, ce fișiere se ocupă cu probleme de fișiere mici în Hadoop?

1) HAR ( Hadoop Arhiva) Fișiere a fost prezentat rezolvați problema cu fișierele mici . HAR a introdus un strat deasupra HDFS , care oferă interfață pentru fişier accesând. Folosind Hadoop comanda arhivare, HAR fișiere sunt create, care rulează a MapReduce treaba de a împacheta fișiere fiind arhivată în mai mica Un numar de fișiere HDFS.

În plus, pot avea mai multe fișiere în HDFS să utilizeze diferite dimensiuni de bloc? Mod implicit mărimea de bloc este de 64 MB. tu poate sa schimbați-l în funcție de cerințele dvs. Venind la întrebarea ta, da tu poate crea mai multe fișiere prin variind dimensiunile blocurilor dar în timp real asta voi nu favorizează producţia.

Mai mult, de ce HDFS nu gestionează în mod optim fișierele mici?

Probleme cu fișiere mici și HDFS Fiecare fişier , director și bloc în HDFS este reprezentat ca un obiect în memoria namenode-ului, fiecare dintre acestea ocupând 150 de octeți, ca regulă generală. În plus, HDFS nu este pregătit pentru a accesa eficient fișiere mici : aceasta este concepute în primul rând pentru accesul în flux de mari dimensiuni fișiere.

De ce este Hadoop lent?

Încet Viteza de procesare Acest disc are nevoie de timp, ceea ce face ca întregul proces să fie foarte bun încet . Dacă Hadoop procesează datele în volum mic, este foarte încet comparativ. Este ideal pentru seturi mari de date. La fel de Hadoop are motor de procesare batch la bază viteza sa pentru procesarea în timp real este mai mică.

Recomandat: