Trong bài học này, chúng ta tìm hiểu về Pair RDDs, các phép biến đổi (Transformations) và hành động (Actions) phổ biến dành riêng cho Pair RDDs. Pair RDDs là các RDD có dạng (key, value), giúp tổ chức và xử lý dữ liệu hiệu quả hơn trong Spark.

Pair RDDs trong Spark 🚀

Trong bài học này, chúng ta tìm hiểu về Pair RDDs, các phép biến đổi (Transformations) và hành động (Actions) phổ biến dành riêng cho Pair RDDs. Pair RDDs là các RDD có dạng (key, value), giúp tổ chức và xử lý dữ liệu hiệu quả hơn trong Spark.


1. Pair RDD là gì?

Pair RDD là một loại RDD đặc biệt chứa các cặp (key, value). Điều này giúp chúng ta có thể:

📌 Ví dụ tạo Pair RDD


val data = List(("Alice", 100), ("Bob", 200), ("Alice", 300))
val rdd = sc.parallelize(data)  // Tạo RDD từ danh sách

Pair RDD sẽ có cấu trúc như sau:


("Alice", 100)
("Bob", 200)
("Alice", 300)


2. Các phép biến đổi (Transformations) quan trọng trên Pair RDDs

a) groupByKey – Nhóm các value theo key

📌 Cú pháp: