Bài tập này yêu cầu bạn cài đặt thuật toán K-means phân cụm dữ liệu StackOverflow dựa trên điểm số của các câu trả lời. Bạn sẽ làm việc với Spark RDD để xử lý dữ liệu lớn một cách phân tán.


1. Tổng quan các bước

Bạn cần thực hiện các bước sau:

  1. Đọc dữ liệu từ file CSV và chuyển thành dạng RDD.
  2. Ghép nối câu hỏi với các câu trả lời của nó.
  3. Tính điểm cao nhất của câu trả lời cho từng câu hỏi.
  4. Tạo vector đặc trưng để phân cụm.
  5. Cài đặt thuật toán K-means để nhóm các câu hỏi.
  6. Phân tích và xuất kết quả.

2. Hướng dẫn cài đặt từng phương thức

Dưới đây là hướng dẫn chi tiết từng phần bạn cần cài đặt:

2.1 Ghép nối câu hỏi với câu trả lời (groupedPostings)

Cách làm:

  1. Tách câu hỏi và câu trả lời thành hai RDD riêng biệt.
  2. Chuẩn bị dữ liệu để join:
  3. Dùng phép join để ghép câu hỏi với danh sách các câu trả lời.