Trong bài học này, chúng ta tìm hiểu về Pair RDDs, các phép biến đổi (Transformations) và hành động (Actions) phổ biến dành riêng cho Pair RDDs. Pair RDDs là các RDD có dạng (key, value), giúp tổ chức và xử lý dữ liệu hiệu quả hơn trong Spark.
Trong bài học này, chúng ta tìm hiểu về Pair RDDs, các phép biến đổi (Transformations) và hành động (Actions) phổ biến dành riêng cho Pair RDDs. Pair RDDs là các RDD có dạng (key, value), giúp tổ chức và xử lý dữ liệu hiệu quả hơn trong Spark.
Pair RDD là một loại RDD đặc biệt chứa các cặp (key, value). Điều này giúp chúng ta có thể:
📌 Ví dụ tạo Pair RDD
val data = List(("Alice", 100), ("Bob", 200), ("Alice", 300))
val rdd = sc.parallelize(data) // Tạo RDD từ danh sách
✅ Pair RDD sẽ có cấu trúc như sau:
("Alice", 100)
("Bob", 200)
("Alice", 300)
groupByKey – Nhóm các value theo key📌 Cú pháp: