Ce este formatul de date pentru parchet?
Ce este formatul de date pentru parchet?

Video: Ce este formatul de date pentru parchet?

Video: Ce este formatul de date pentru parchet?
Video: An introduction to Apache Parquet 2024, Mai
Anonim

Apache Parchet este o coloană gratuită și open-source date depozitare format a ecosistemului Apache Hadoop. Este compatibil cu majoritatea date cadre de procesare în mediul Hadoop. Oferă eficient date scheme de compresie și codare cu performanțe îmbunătățite pentru a gestiona complexe date en gros.

Pur și simplu, care este formatul fișierului cu parchet?

Parchet , o sursă deschisă tipul fisierului pentru Hadoop. Parchet stochează structuri de date imbricate într-o coloană plată format . În comparație cu o abordare tradițională în care datele sunt stocate într-o abordare orientată pe rând, parchet este mai eficient în ceea ce privește stocarea și performanța.

În plus, la ce se folosește parchetul? Parchet este un format de fișier open source disponibil oricărui proiect din ecosistemul Hadoop. Apache Parchet este proiectat pentru un format de stocare în coloană plat, eficient și performant, în comparație cu fișierele bazate pe rând, cum ar fi fișierele CSV sau TSV.

În plus, cum stochează datele formatul parchetului?

DATE BLOC Fiecare bloc din parchet fisierul este stocate sub formă de grupuri de rânduri. Asa de, date într-o parchet fișierul este împărțit în mai multe grupuri de rânduri. Aceste grupuri de rânduri constă, la rândul lor, din una sau mai multe bucăți de coloană care corespunde unei coloane din date a stabilit. The date pentru fiecare bucată de coloană scrisă sub formă de pagini.

Este parchetul lizibil de om?

ORC, Parchet , și Avro sunt, de asemenea, mașini- lizibil formate binare, ceea ce înseamnă că fișierele arată ca o farfurie oameni . Dacă aveți nevoie un om - lizibil format ca JSON sau XML, atunci probabil că ar trebui să vă reconsiderați de ce utilizați Hadoop în primul rând.

Recomandat: