Shuffling: What it is and why it's important - Shuffling là gì và tại sao nó quan trọng?

1. Shuffling là gì và tại sao nó quan trọng?

Khái niệm:

Shuffling là quá trình di chuyển dữ liệu giữa các máy (nodes) trong một cluster khi thực hiện các thao tác nhóm hay kết hợp dữ liệu, như groupByKey.
Tại sao cần quan tâm:

Vì dữ liệu trong Spark được phân phối trên nhiều máy, nên khi thực hiện một thao tác như groupByKey để gom tất cả các giá trị của cùng một khóa về cùng một máy, Spark phải chuyển dữ liệu qua mạng. Việc này gây ra độ trễ (latency) và ảnh hưởng đến hiệu năng, nhất là với dữ liệu lớn.

Giả sử chúng ta có một RDD gồm các đối tượng CFFPurchase với thông tin:

Tạo Pair RDD:

Ta chuyển RDD ban đầu thành cặp key-value với:
- Key: customerId
- Value: price Ví dụ: (100, 20.0), (200, 35.0), (100, 15.0),...
Thực hiện groupByKey:

Khi gọi groupByKey, Spark sẽ gom tất cả các giá trị (giá vé) của mỗi customerId lại với nhau.
- Ví dụ: key 100 sẽ có giá trị [20.0, 15.0]. Tuy nhiên, vì các giá trị có thể nằm trên nhiều máy, nên Spark phải di chuyển (shuffle) dữ liệu để tất cả giá trị của key 100 tập trung lại trên một máy duy nhất.
Tính toán sau khi shuffling:

Sau khi dữ liệu đã được gom lại, ta có thể dễ dàng tính số chuyến đi (dùng size) và tổng tiền (dùng sum) cho từng khách hàng.

Shuffling không phải là thao tác do ta gọi trực tiếp: Nó xảy ra tự động khi dùng các phép toán như groupByKey.
Hiệu năng: Quá trình chuyển dữ liệu qua mạng chậm hơn xử lý trong bộ nhớ. Nếu ta lạm dụng các thao tác gây shuffling, hiệu năng xử lý của chương trình sẽ bị giảm đáng kể.