Scala'da RDD nedir?
Scala'da RDD nedir?

Video: Scala'da RDD nedir?

Video: Scala'da RDD nedir?
Video: Yeni Başlayanlar İçin Scala Programlama #1 | Scala Nedir ve Scala Ortam Kurulumu 2024, Kasım
Anonim

Esnek Dağıtılmış Veri Kümeleri ( RDD ) Spark'ın temel bir veri yapısıdır. Değişmez dağıtılmış bir nesne koleksiyonudur. RDD'ler herhangi bir Python, Java veya Skala Kullanıcı tanımlı sınıflar dahil nesneler. Resmi olarak, bir RDD salt okunur, bölümlenmiş bir kayıt koleksiyonudur.

Ayrıca soru şu ki, RDD ve DataFrame arasındaki fark nedir?

RDD – RDD birçok makineye yayılmış veri öğelerinin dağıtılmış bir koleksiyonudur içinde küme. RDD'ler verileri temsil eden bir dizi Java veya Scala nesnesidir. Veri çerçevesi - A Veri çerçevesi adlandırılmış sütunlar halinde düzenlenmiş dağıtılmış bir veri koleksiyonudur. Kavramsal olarak bir tabloya eşittir içinde ilişkisel veritabanı.

Ayrıca, RDD nasıl dağıtılır? esnek dağıtılmış veri kümeleri ( RDD'ler ) Onlar bir dağıtılmış Bir kümenin farklı makinelerinin belleğinde veya disklerinde depolanan nesneler topluluğu. Bir tek RDD birden çok mantıksal bölüme ayrılabilir, böylece bu bölümler bir kümenin farklı makinelerinde saklanabilir ve işlenebilir.

kıvılcım RDD nasıl çalışır?

RDD'ler içinde Kıvılcım bölümleri içeren kayıt koleksiyonuna sahiptir. RDD'ler içinde Kıvılcım küçük mantıksal veri parçalarına bölünür - bölümler olarak bilinir, bir eylem yürütüldüğünde, bölüm başına bir görev başlatılır. Bölmeler RDD'ler paralelliğin temel birimleridir.

Hangisi daha hızlı RDD veya DataFrame?

RDD - Basit gruplama ve toplama işlemleri yapılırken RDD API daha yavaştır. Veri çerçevesi - Keşfedici analizlerin yapılmasında, veriler üzerinde toplu istatistikler oluşturulması, veri çerçeveleri NS Daha hızlı . RDD - Düşük seviyeli dönüşüm ve aksiyon istediğinizde, RDD'ler . Ayrıca, üst düzey soyutlamalara ihtiyaç duyduğumuzda kullanırız. RDD'ler.

Önerilen: