Cuprins:

Care sunt diferitele formate de fișiere în Hadoop?
Care sunt diferitele formate de fișiere în Hadoop?

Video: Care sunt diferitele formate de fișiere în Hadoop?

Video: Care sunt diferitele formate de fișiere în Hadoop?
Video: Parquet file, Avro file, RC, ORC file formats in Hadoop | Different file formats in Hadoop 2024, Mai
Anonim

Din fericire pentru tine, comunitatea de date mari s-a hotărât practic pe trei optimizate formate de fișiere pentru utilizare în Hadoop clustere: Optimized Row Columnar (ORC), Avro și Parquet.

Ulterior, se poate întreba, de asemenea, care sunt diferitele tipuri de formate de date?

Se află trei tipuri de date cartografiere și GIS formatele de date . Fiecare tip este tratat diferit.

Tipuri de format de date

  • Pe bază de fișiere - Shapefiles, Microstation Design Files (DGN), imagini GeoTIFF.
  • Bazat pe director - Acoperiri ESRI ArcInfo, US Census TIGER.
  • Conexiuni la baze de date - PostGIS, ESRI ArcSDE, MySQL.

În plus, ce format de fișier este cel mai bun în stup? RCFile este coloană de rând tipul fisierului . Aceasta este o altă formă de Format de fișier Hive care oferă rate ridicate de compresie la nivel de rând. Dacă aveți nevoie de a efectua mai multe rânduri simultan, puteți utiliza RCFile format.

Ținând cont de acest lucru, care sunt formatele de intrare comune în Hadoop?

InputFormat creează Inputsplit

  • Cele mai comune InputFormat sunt:
  • FileInputFormat- Este clasa de bază pentru toate fișierele-basedInputFormat.
  • TextInputFormat- Este formatul implicit de intrare pentru MapReduce.
  • KeyValueTextInputFormat- Este similar cu TextInputFormat.
  • Urmați linkul pentru a afla mai multe despre InputFormat în Hadoop.

Ce este formatul de fișier orc în Hadoop?

Format de fișier ORC Columna de rând optimizată ( ORC ) tipul fisierului oferă o modalitate foarte eficientă de stocare a datelor Hive. A fost conceput pentru a depăși limitările celuilalt Stup formate de fișiere . Folosind fișiere ORC îmbunătățește performanța atunci când Hive citește, scrie și procesează date.

Recomandat: