Hadoop'un hangi dosya formatı sütunlu veri depolama formatına izin verir?
Hadoop'un hangi dosya formatı sütunlu veri depolama formatına izin verir?

Video: Hadoop'un hangi dosya formatı sütunlu veri depolama formatına izin verir?

Video: Hadoop'un hangi dosya formatı sütunlu veri depolama formatına izin verir?
Video: Introduction to Big Data -Talha Kılıç 2024, Mart
Anonim

Sütunlu Dosya Formatları (Parke, RC Dosyası )

Hadoop sütunlu dosya depolaması için dosya formatlarındaki en son sıcaklık. Temel olarak bu, yalnızca veri satırlarını birbirine bitişik depolamak yerine, birbirine bitişik sütun değerlerini de depolamanız anlamına gelir. Böylece veri kümeleri hem yatay hem de dikey olarak bölümlenir.

Bunun yanında, Hadoop verileri hangi formatta işler?

Bir kaç tane var Hadoop -özel dosya formatlar MapReduce ile iyi çalışacak şekilde özel olarak yaratılmıştır. Bunlar Hadoop -özel dosya formatlar dahil dosya tabanlı veri dizi dosyaları, serileştirme gibi yapılar formatlar Avro gibi ve sütunlu formatlar RCFile ve Parke gibi.

Bir de sorabilir, sütunlu dosya biçimi nedir? Satır ve sütunlu Kovan için Depolama. ORC bir sütunlu depolamak biçim Hivetables için Hadoop'ta kullanılır. verimli bir dosya formatı Kayıtların birçok sütun içerdiği verileri depolamak için. Bir örnek, web sitesi etkinliğini ve performansını analiz etmek için Tıklama akışı (web) verileridir.

Benzer şekilde Hadoop'ta dosya formatının ne olduğu sorulur.

Temel dosya formatları şunlardır: Metin biçim , Anahtar-Değer biçim , Sıra biçim . Başka formatlar kullanılan ve iyi bilinenler şunlardır: Avro, Parquet, RC veya Row-Columnar biçim , ORC veya Optimize Satır Sütunlu biçim.

Veri ambarında neden sütunlu dosya biçimleri kullanılıyor?

ORC depoları satırı veri içinde sütunlu biçim . Bu sıra- sütunlu biçim sıkıştırma için oldukça verimlidir ve depolamak . Kümelenme genelinde paralel işlemeye izin verir ve sütunlu biçim daha hızlı işleme ve açma için gereksiz sütunların atlanmasına izin verir.

Önerilen: