Phân tích cụm là một kỹ thuật thống kê được sử dụng để xác định cách các đơn vị khác nhau (chẳng hạn như người, nhóm hoặc xã hội) có thể được nhóm lại với nhau do các đặc điểm chung của chúng. Còn được gọi là phân cụm, nó là một công cụ phân tích dữ liệu khám phá được thiết kế để nhồi nhét các đối tượng khác nhau vào các nhóm sao cho khi chúng thuộc cùng một nhóm thì chúng có liên quan nhất và khi chúng không thuộc cùng một nhóm. Mức độ liên kết là thấp nhất. Không giống như một số kỹ thuật thống kê khác, các cấu trúc được tìm thấy bằng phân tích cụm không yêu cầu giải thích hoặc diễn giải – nó tìm các cấu trúc trong dữ liệu mà không giải thích tại sao chúng tồn tại.
Bạn đang tìm kiếm gì: phân tích rời rạc
Cụm
là gì?
Các cụm tồn tại trong hầu hết mọi khía cạnh của cuộc sống hàng ngày của chúng ta. Ví dụ, các mặt hàng trong một cửa hàng tạp hóa. Các loại mặt hàng khác nhau luôn được bày ở cùng một nơi hoặc gần nhau – thịt, rau, nước ngọt, ngũ cốc, sản phẩm giấy, .ᴠ. Các nhà nghiên cứu thường muốn làm điều tương tự với dữ liệu và nhóm các đối tượng hoặc chủ đề thành các cụm có ý nghĩa.
Lấy khoa học xã hội làm ví dụ, giả sử chúng ta đang nghiên cứu các quốc gia và muốn nhóm chúng thành các cụm dựa trên các đặc điểm như phân công lao động, quân sự, công nghệ hoặc dân số sẵn có, trình độ học vấn, v.v. Chúng ta sẽ thấy rằng Anh, Nhật Bản, Pháp, Đức và Hoa Kỳ có những đặc điểm giống nhau và sẽ xích lại gần nhau. Uganda, Nicaragua và Pakistan cũng sẽ được xếp vào một nhóm khác, vì họ có nhiều đặc điểm, bao gồm mức độ giàu có thấp, phân công lao động đơn giản, hệ thống chính trị tương đối không ổn định, quyết tâm phi dân chủ và trình độ phát triển có trình độ tay nghề thấp.
Phân tích cụm thường được sử dụng trong giai đoạn nghiên cứu khám phá khi nhà nghiên cứu không có bất kỳ giả thuyết nào được hình thành trước. Nó thường không phải là phương pháp thống kê duy nhất được sử dụng, nhưng được thực hiện sớm trong dự án để giúp định hướng phần còn lại của phân tích. Do đó, các thử nghiệm ý nghĩa thường không liên quan hoặc không liên quan.
Có một số loại phân tích cụm khác nhau. Hai phương pháp được sử dụng phổ biến nhất là phân cụm k-mean và phân cụm phân cấp.
k-means clustering
k-means clustering coi các quan sát trong dữ liệu là các đối tượng có vị trí và khoảng cách tương tự (lưu ý rằng các khoảng cách được sử dụng trong phân cụm thường không đại diện cho khoảng cách không gian). Nó chia các đối tượng thành k cụm loại trừ lẫn nhau để các đối tượng trong mỗi cụm càng gần nhau càng tốt trong khi các đối tượng trong các cụm khác càng nhiều càng tốt. Mỗi cụm sau đó được đặc trưng bởi điểm trung bình hoặc trung tâm của nó.
Phân cụm phân cấp
Phân cụm phân cấp là một phương pháp điều tra đồng thời các tập dữ liệu trên các quy mô và khoảng cách khác nhau. Nó thực hiện điều này bằng cách tạo các cây cụm với các cấp độ khác nhau. Không giống như phân cụm k-mean, cây không phải là tập hợp của các cụm duy nhất. Thay vào đó, cây là một hệ thống phân cấp nhiều cấp, trong đó các cụm ở một cấp được kết hợp thành các cụm ở cấp cao hơn tiếp theo. Thuật toán được sử dụng bắt đầu với từng cá thể hoặc biến trong một cụm riêng biệt, sau đó kết hợp các cụm cho đến khi chỉ còn lại một. Điều này cho phép nhà nghiên cứu quyết định mức độ phân cụm phù hợp nhất cho nghiên cứu của mình.
Thực hiện phân tích cụm
Hầu hết các chương trình phần mềm thống kê có thể thực hiện phân tích cụm. Trong spss, chọn Phân tích từ trình đơn, sau đó chọn Phân loại và Phân cụm. Proc chức năng cụm có sẵn trong sas.