Pengertian Analisis Gerombol (Cluster Analysis)
Analisis klaster atau analisis gerombol adalah metode multivariat yang bertujuan untuk mengklasifikasikan sampel subjek (atau objek) berdasarkan seperangkat variabel terukur ke dalam sejumlah kelompok yang berbeda sedemikian rupa sehingga subjek yang serupa ditempatkan dalam kelompok yang sama. Contoh di mana ini dapat digunakan adalah di bidang psikiatri, di mana karakterisasi pasien berdasarkan kelompok gejala dapat berguna dalam mengidentifikasi bentuk terapi yang tepat. Dalam pemasaran, mungkin berguna untuk mengidentifikasi kelompok pelanggan potensial yang berbeda sehingga, misalnya, iklan dapat ditargetkan dengan tepat.
Kelemahan Analisis Klaster
Kelemahan dari analisis klaster atau gerombol adalah Analisis klaster tidak memiliki mekanisme untuk membedakan antara variabel yang relevan dan tidak relevan. Oleh karena itu pemilihan variabel yang dimasukkan dalam analisis klaster harus didukung oleh pertimbangan konseptual. Hal ini sangat penting karena klaster yang terbentuk bisa sangat bergantung pada variabel yang dimasukkan.
Pendekatan Analisis Klaster
Ada sejumlah metode berbeda yang dapat digunakan untuk melakukan analisis klaster; metode-metode ini dapat diklasifikasikan sebagai berikut:
Metode hirarkis
1. Metode agglomeratif, di mana subjek memulai dalam kelompoknya sendiri yang terpisah. Dua klaster yang 'terdekat' (paling mirip) kemudian digabungkan dan hal ini dilakukan secara berulang-ulang hingga semua subjek berada dalam satu klaster. Pada akhirnya, jumlah klaster yang optimal kemudian dipilih dari semua solusi klaster.
2. Metode pembagian, di mana semua subjek dimulai pada klaster yang sama dan strategi di atas diterapkan secara terbalik hingga setiap subjek berada dalam klaster yang terpisah. Metode agglomerative lebih sering digunakan daripada metode memecah belah.
Metode non-hierarkis (sering dikenal sebagai metode pengelompokan k-means)
Jenis data dan ukuran jarak
Data yang digunakan dalam analisis klaster dapat berupa interval, ordinal atau kategorikal. Namun, memiliki campuran berbagai jenis variabel akan membuat analisis menjadi lebih rumit. Ini karena dalam analisis kluster Anda perlu memiliki beberapa cara untuk mengukur jarak antara pengamatan dan jenis pengukuran yang digunakan akan bergantung pada jenis data yang Anda miliki.
Sejumlah ukuran berbeda telah diusulkan untuk mengukur 'jarak' untuk data biner dan kategorikal. Untuk detailnya lihat buku karya Everitt, Landau dan Leese. Pembaca juga dirujuk ke teks ini untuk perincian tentang apa yang harus dilakukan jika Anda memiliki campuran tipe data yang berbeda. Untuk data interval ukuran jarak yang paling umum digunakan adalah jarak Euclidean.
Euclidean Distance
Secara umum, jika Anda memiliki p variabel \(X_1,X_2,...,X_p\) diukur pada sampel n subjek, data pengamatan untuk subjek i dapat dilambangkan dengan \(x_{i1},x_{i2},...,x{ip}\) dan data pengamatan untuk subjek j oleh \(x_{j1},x_{j2},...,x_{jp}\). Jarak Euclidean antara kedua mata pelajaran ini diberikan oleh
$d_{ij}=\sqrt{(x_{i1}-x_{j1})^2+(x_{i2}-x_{j2})^2+...+(x_{ip}-x_{j1})^2}$
Saat menggunakan ukuran seperti jarak Euclidean, skala pengukuran variabel yang dipertimbangkan menjadi masalah, karena mengubah skala jelas akan mempengaruhi jarak antara subjek (misalnya perbedaan 10cm bisa menjadi perbedaan 100mm). Selain itu, jika satu variabel memiliki jangkauan yang jauh lebih luas dari yang lain maka variabel ini akan cenderung mendominasi. Misalnya, jika pengukuran tubuh dilakukan untuk sejumlah orang yang berbeda, kisaran (dalam mm) tinggi badan akan jauh lebih lebar daripada kisaran lingkar pergelangan tangan, katakanlah. Untuk mengatasi masalah ini, setiap variabel dapat distandarisasi (diubah menjadi skor-z). Namun, hal ini sendiri menimbulkan masalah karena cenderung mengurangi variabilitas (jarak) antar cluster. Hal ini terjadi karena jika variabel tertentu memisahkan pengamatan dengan baik maka, menurut definisi, ia akan memiliki varians yang besar (karena variabilitas antar cluster akan tinggi). Jika variabel ini dibakukan maka jarak antar cluster akan semakin berkurang. Terlepas dari masalah ini, banyak buku teks merekomendasikan standarisasi. Jika ragu, salah satu strateginya adalah melakukan analisis klaster dua kali — sekali tanpa standarisasi dan sekali dengan — untuk melihat berapa banyak perbedaan, jika ada, hal ini membuat klaster yang dihasilkan.
Metode Algoritma Hierarkis (Hierarchical agglomerative methods)
Dalam pendekatan analisis klaster ini ada sejumlah metode berbeda yang digunakan untuk menentukan klaster mana yang harus digabungkan pada setiap tahap. Metode utama dirangkum di bawah ini.
• Metode jarak terdekat (single linkage method).
Dalam metode ini jarak antara dua cluster didefinisikan sebagai jarak antara dua anggota atau tetangga terdekat. Metode ini relatif sederhana tetapi sering dikritik karena tidak memperhitungkan struktur cluster dan dapat mengakibatkan masalah yang disebut chaining dimana cluster menjadi panjang dan tidak teratur. Namun, ini lebih baik daripada metode lain ketika cluster alami tidak berbentuk bola atau elips.
• Metode jarak terjauh (metode Complete linkage).
Dalam hal ini jarak antara dua klaster didefinisikan sebagai jarak maksimum antar anggota yaitu jarak antara dua subjek yang jaraknya paling jauh. Metode ini cenderung menghasilkan cluster-cluster kompak dengan ukuran yang sama, tetapi untuk metode tetangga terdekat, tidak memperhitungkan struktur cluster. Ini juga cukup sensitif terhadap outlier.
• Metode jarak rata-rata (antar kelompok) (kadang-kadang disebut sebagai UPGMA).
Jarak antara dua klaster dihitung sebagai jarak rata-rata antara semua pasangan subjek dalam dua klaster. Ini dianggap sebagai metode yang cukup kuat.
• Metode sentroid.
Di sini centroid (nilai rata-rata untuk setiap variabel) dari setiap cluster dihitung dan jarak antar centroid digunakan. Cluster yang centroidnya paling dekat satu sama lain akan digabungkan. Metode ini juga cukup kuat.
• Metode Ward.
Dalam metode ini semua pasangan cluster yang mungkin digabungkan dan jumlah jarak kuadrat dalam setiap cluster dihitung. Ini kemudian dijumlahkan untuk semua cluster. Kombinasi yang memberikan jumlah kuadrat terendah dipilih. Metode ini cenderung menghasilkan cluster dengan ukuran yang kira-kira sama, yang tidak selalu diinginkan. Ini juga cukup sensitif terhadap outlier. Meskipun demikian, ini adalah salah satu metode yang paling populer, bersama dengan metode hubungan rata-rata.
Memilih jumlah cluster yang optimal
Sebagaimana dinyatakan di atas, setelah analisis klaster dilakukan, maka perlu untuk memilih solusi klaster 'terbaik'. Ada beberapa cara untuk melakukannya, beberapa agak informal dan subyektif, dan beberapa lebih formal. Metode yang lebih formal tidak akan dibahas dalam handout ini. Di bawah ini, salah satu metode informal dijelaskan secara singkat.
Saat melakukan analisis klaster hierarkis, prosesnya dapat direpresentasikan dalam diagram yang dikenal sebagai dendrogram. Diagram ini menggambarkan cluster mana saja yang telah tergabung pada setiap tahapan analisis dan jarak antar cluster pada saat bergabung. Jika terjadi lompatan besar jarak antar cluster dari satu stage ke stage lainnya maka hal ini menunjukkan bahwa pada satu stage cluster yang relatif berdekatan akan bergabung sedangkan pada stage berikutnya cluster yang tergabung relatif berjauhan. Ini menyiratkan bahwa jumlah cluster yang optimal mungkin adalah jumlah yang ada tepat sebelum lompatan besar dalam jarak itu. Ini lebih mudah dipahami dengan benar-benar melihat dendrogram.
Metode pengelompokan non-hierarkis atau k-means
Dalam metode ini jumlah klaster yang diinginkan ditentukan terlebih dahulu dan solusi 'terbaik' dipilih. Langkah-langkah dalam metode tersebut adalah sebagai berikut:
1. Memilih pusat klaster awal (intinya ini adalah kumpulan pengamatan yang berjauhan setiap subjek membentuk klaster satu dan pusatnya adalah nilai variabel untuk subjek itu).
2. Tetapkan setiap subjek ke cluster 'terdekatnya', yang ditentukan dalam jarak ke pusat massa.
3. Temukan centroid dari cluster yang telah terbentuk
4. Hitung kembali jarak setiap subjek ke setiap centroid dan pindahkan pengamatan yang tidak berada di cluster yang paling dekat dengannya.
5. Lanjutkan sampai centroid relatif stabil.
Analisis klaster non-hierarkis cenderung digunakan ketika kumpulan data besar dilibatkan. Kadang-kadang lebih disukai karena memungkinkan subjek untuk berpindah dari satu klaster ke klaster lainnya (ini tidak mungkin dalam analisis klaster hierarkis di mana subjek, setelah ditetapkan, tidak dapat berpindah ke klaster yang berbeda). Dua kelemahan dari analisis klaster non-hierarkis adalah: (1) seringkali sulit untuk mengetahui berapa banyak klaster yang mungkin Anda miliki dan oleh karena itu analisis mungkin harus diulang beberapa kali dan (2) sangat sensitif terhadap pilihan. dari pusat cluster awal. Sekali lagi, mungkin ada baiknya mencoba yang berbeda untuk melihat apa dampaknya.
Salah satu strategi yang mungkin untuk diadopsi adalah dengan menggunakan pendekatan hierarkis pada awalnya untuk menentukan berapa banyak klaster yang ada dalam data dan kemudian menggunakan pusat klaster yang diperoleh dari ini sebagai pusat klaster awal dalam metode non-hierarkis.