Analisis cluster adalah teknik multivariate yang bertujuan untuk
mengelompokkan obyek pada posisi karakteristiknya. Analisis Cluster merupakan
salah satu jenis multivariat untuk mengklasifikasikan obyek atau variabel berdasarkan kesamaan
karakteristik yang mereka miliki. Analisis Cluster digunakan untuk meminimalkan
varians dalam kelompok dan memaksimalkan varians antara kelompok. Hasil dari analisis
cluster adalah sejumlah kelompok heterogen dengan isi homogen.
Cluster Analysis Sebagai
Teknik Multivariat
Cluster Analisis mengklasifikasikan obyek pada sebuah susunan
pengguna dari karakteristik yang dipilih. Hasil dari analisis cluster haruslah
menampilkan homogenitas internal (within-cluster) yang tinggi dan heterogenitas
eksternal yang tinggi (between cluster). Variat cluster mewakili representasi
matematiis pada sebuah susunan variable dimana membandingkan kesamaan obyek.
Pengembangan Konseptual
dengan Cluster Analysis
Analisis cluster dapat mengklasifikasikan obyek lain disbanding manusia
individual, termasuk struktur pasar, analisis similaritas dan perbedaan
diantara produk baru dan evaluasi performa sebuah perusahaan untuk
mengidentifikasi kelompok berbasiss pada strategi perusahaan atau orientasi
strategis.
Peran umum cluster analisis yang digunakan dalam
pengembangan konseptual yaitu :
- Reduksi Data
Analisis cluster dapat melakukan prosedur data reduksi
berdasarkan obyek dengan mengurangi informasi daripopulasi keseluruhan atau
sample untuk informasi mengenai grup spesifik.
Mengurangi
informasi dari seluruh populasi atau sampel menjadi informasi yang
lebih spesifik dengan sub
kelompok yang lebih kecil. Hasil dari reduksi, data menjadi lebih
ringkas, deskripsi dari observasi yang dapat dipahami,
dengan meminimalkan hilangnya informasi.
- Hypothesis Generation
Analisis Cluster juga sangat bermanfaat untuk
mengembangkan hipotesis yang diharapkan memperhatikan data asli dan atau
menguji pernyataan hipotesis. Memungkinkan pengembangan hipotesis tentang sifat data atau pengujian
hipotesis yang telah dinyatakan sebelumnya.
- Klasifikasi
Responden
sampel dapat diprofilkan, dapat diketahui kesamaan demografis atau kelompok pola konsumsi.
Kebutuhan dukungan
Konseptual dalam Analisis Cluster
Analisis cluster dapat dikritisasi untuk bekerja terlalu baik dalam
hasil statistik yang dihasilkan meski berdasarkan logika untuk cluster tidak
nyata.
Ø Analisis cluster menjelaskan, tak berteori, dan noninferensial
Analisis cluster tidak memiliki dasar statistic untuk
menggambarkan kesimpulan dari sample populasi, dan banyak pendapat bahwa ini
hanyalah sebuah tekni eksploratory.
Ø Analisis cluster akan selalu menciptakan cluster, tanpa
memperhatikan eksistensi struktur dalam data aktual.
Hanya dukungan konseptual yang kuat saja kemudian
validasi potensi cluster yang relevan dan bermakna.
Ø Solusi cluster tidak digeneralisasi karena sangatlah dependen
diantara variable yang digunakan sebagai basis pengukuran similaritas.
Analisis cluster dianggap lebih dependen pada pengukuran
yang dgunakan untuk mengkarakteristikkan obyek disbanding teknik multivariate.
Perbedaan Analisis Cluster dan Analisis Faktor :
Tujuan
|
Analisis Cluster
|
Analisis Faktor
|
Reduksi Data
|
Tujuan reduksi data
untuk mengidentifikasi
entitas-entitas serupa dari karakteristik yang dimiliki. Analisis Cluster mengidentifikasi dan mengklasifikasikan obyek atau variabel sehingga setiap obyek memiliki kesamaan sangat
mirip dengan obyek lain dalam cluster dengan memperhatikan
beberapa kriteria seleksi yang telah ditentukan.
Analisis Cluster harus digunakan ketika peneliti
tertarik dalam pengelompokan responden berdasarkan kesamaan / perbedaan pada
variabel yang dianalisis daripada memperoleh kelompok individu yang memiliki
pola respons yang sama
|
Tujuan reduksi data
untuk menggabungkan atau meringkas obyek dalam jumlah besar ke dalam kelompok yang jelas berbeda
dalam populasi yang lebih besar (Q analisis faktor).
|
Pengelompokan Responden
|
Pada pendekatan analisis cluster, pengelompokan responden yang dibuat berdasarkan pada pengukuran jarak
antara skor responden pada variabel yang dianalisis.
|
Pada pendekatan
analisis faktor, pengelompokan responden berdasarkan pada interkorelasi
antara mean dan standar deviasi dari responden sehingga kelompok individu
menunjukkan pola respons yang sama pada variabel yang dimasukkan dalam
analisis.
|
Bagaimana Analisis Cluster
Bekerja
Contoh Sederhana
Tujuan utama cluster nalaisis adalah untuk menjelaskan struktur data
dengan menempatkan observasi dengan kemiripan yang sama dalam sebuah grup. Yang
perlu diperhatikan yaitu :
Ø Bagaimana mengukur similaritas
Beberapa metode yang mungkin digunakan termasuk korelasi
antar obyek atau sebuah pengukuran untuk kedekatan jarak dua dimensi termasuk
jarak anatara observasi yang mengindikasikan similaritas.
Ø Bagaimana membentuk cluster
Prosedur harus dikelompokkan dengan observasi yang
memiliki kemiripan dalam sebuah cluster, dengan demikian menjelaskan anggota
grup dari tiap observasi untuk tiab cluster pu terbentuk.
Ø Berapa banyak grup yang harus dibentuk
Pilihlah sebuah kelompok cluster sebagai solusi final ;
cluster yang lebih sedikit dan kurang homogen dengan cluster dengan jumlah
besar dan lebih within group-homogenity.
Mengukur Similaritas
Similaritas mewakili derajat korespondensi diantara obyek diantara
semua karakteristik yang digunakan dalam analisa.
Hal-hal yang harus dipertimbangkan ketika memilih
ukuran kesamaan dalam
menggunakan Analisis Cluster.
1.
Analis harus mempertimbangkan bahwa
dalam banyak situasi, pengukuran jarak yang berbeda menyebabkan solusi cluster
yang berbeda. Sebaiknya menggunakan beberapa
pengukuran dan membandingkan hasil analisis dengan teori
atau pola yang telah yang dikenal sebelumnya.
2.
Ketika variabel memiliki unit
yang berbeda, harus dilakukan standarisasi data sebelum melakukan analisis cluster.
3.
Ketika variabel-variabel terinterkorelasi (baik secara positif atau negatif), pengukuran jarak
Mahalanobis kemungkinan akan menjadi yang paling tepat digunakan karena
menyesuaikan dengan interkorelasi
dan bobot semua variabel sama
Membentuk Cluster
Untuk membentuk cluster berbasis pengukuran similaritas tiap
observasi. Membentuk sejumlah solusi cluster. Saat cluster dibentuk, kemudian
pilih solusi cluster akhir dari sebuah susunan solusi yang mungkin. Aturannya
dengan mengidentifikasi dua observasi yang paling dekat kemiripannya yang belum
berada dalam satu cluster kemudian menggabungkannya.
Tahapan dalam Analisis Cluster
Tahapan dasar dalam
penerapan analisis cluster adalah sebagai berikut :
Ø
Partitioning
yaitu proses menentukan jika dan bagaimana cluster dapat
dikembangkan.
Ø
Interpretasi yaitu proses memahami karakteristik setiap cluster dan mengembangkan nama atau label yang tepat mendefinisikan
sifatnya.
Ø
Profiling yaitu proses yang melibatkan deskripsi
karakteristik dari tiap cluster untuk
menjelaskan bagaimana mereka dapat
berbeda pada dimensi yang
relevan.
Perbedaan Antara Tahap Interpretasi Dan
Tahap Profiling:
Tahap interpretasi melibatkan pemeriksaan pernyataan
yang digunakan untuk mengembangkan cluster guna menamai atau memberikan label
yang secara akurat menggambarkan sifat dari cluster. Tahap profiling melibatkan
penggambaran karakteristik tiap cluster untuk menjelaskan bagaimana mereka
dapat berbeda pada dimensi yang relevan. Analisis profil berfokus pada
menggambarkan apa yang tidak langsung menentukan cluster tetapi karakteristik
dari cluster setelah mereka diidentifikasi. Penekanannya adalah pada
karakteristik yang berbeda secara signifikan di seluruh cluster, dan bahkan
dapat digunakan untuk memprediksi keanggotaan dalam sebuah perilaku cluster
tertentu.
Tiap observasi sebagai cluster tersendiri dan kemudian menggabungkan
dua cluster dalam satu waktu hingga semua observasi berada dalam cluster
tunggal disebut prosedur hierarkis, yang juga merupakan metode aglomerasi
karena cluster dibentuk dengan menggabungkan cluster yang ada. Enam langkah
proses clustering yaitu :
- Mengidentifikasi dua observasi (E
dan F) yang paling mirip dan menggabungkan mereka ke dalam satu cluster.
Sehingga dari tujuh cluster menjadi enam cluster.
- Temukan bagian observasi selanjutnya
yang paling memiliki kedekatan.
- Menggabungkan anggota cluster
tunggal sehingga kita memiliki empat cluster.
- Gabungkan B dengan dua member
cluster C dan D yang telah dibentuk oleh langkah sebelumnya.
- Gabungkan dua tiga-anggota cluster
ke dalamn satu enam anggota cluster.
- gabungkan observasi A dengan sisa
enam cluster ke dalamn cluster tunggal dalam sebuah jarak.
Menjelaskan banyaknya cluster dalam satu solusi final
Metode hierarki menghasilkan sebuah angka solusi
cluster. Tujuannya untuk mengidentifikasi segmen dengan menggabungkan
observasi, namun pada saat yang sama memperkenalkan jumlah kecil heterogenitas.
Memilih solusi Cluster Akhir
Mencoba untuk mendapat struktur sederhana yang
paling mungkin yang merepresentasikan homogenitas grup. Peningkatan besar dalam
heterogenitas mengindikasikan cua cluster yang paling tidak mirip dalam sebuah
stage. Untuk memilih cluster akhir, diuji pengukuran perubahan homogentas untuk
mengidentifikasi peningkatan besar yang mengindikasi penggabungan cluster yang
tidak mirip :
Ø
saat
menggabungkan dua observasi kemudian kita membuat tiga anggota pertama cluster
kita melihat peningkatan besar yang wajar.
Pertimbangan Obyektif vs Subyektif
Proses Keputusan Analisis Cluster
Ø
partisi
susunan data yang terbentuk dan memilih solusi cluster
Ø
Menginterpretasi
cluster untuk memahami karakteristik tiap cluster dan mengembangkan nama atau
label yang cocok dengan keasliannya
Ø
Memvalidasi
hasil dari solusi final diantara menjelaskan karakteristik tiap cluister untuk
menjelaskan bagaimana mereka berbeda dalam dimensi yang berbeda seperti
demografi.
Stage 1 : Obyek Analisis Cluster
Tujuan utama analisis cluster adalah mempartisi
susunan obyek ke dalam dua taua lebih grup berdasarkan kemiripannya dengan
obyek untuk karakteristik tertentu.
Tujuan Analisis Cluster
Sementara tujuan utama dari analisis cluster
adalah untuk partition satu set obyek menjadi dua atau lebih kelompok berdasarkan kesamaan dari objek pada serangkaian karakteristik tertentu, kegunaan lain dari analisis cluster meliputi:
• Analisis eksplorasi untuk mengembangkan sebuah
sistem klasifikasi.
• Membangkitkan hipotesis dan analisis
konfirmatori untuk menguji struktur yang diusulkan.
Pertanyaan Riset dalam Analisis Cluster
- Taxonomy Description
Taxonomy untuk tujuan
eksploratori, berbasis empiris mengklasifikasikan obyek. Analisis cluster juga
menggenneralisasi hipotesis terkait struktur obyek. Meskipun secara prinsip
terlihat sebagai teknik eksploratiry, analisis cluster dapat digunakan untuk
tujuan konfirmatori. Typology yang merupakan teori berbasis klasifikasi dapat
dibandingkan dari yang berasal dari analisis cluster.
- Data Simplification
Dengan mendefinisikan struktur
diantara observasi,n analisis cluter juga mengembangkan oerpektif sederhana
dengan mengelompokkan observasi pada analisis yang lebih jauh. Sebaliknya
terlihat dari semua observasi yang unik, mereka terlihat unik, meraka bisa
ditampilkan sebagai anggota cluster dan diprofilkan dari karakteristik general
mereka.
- Relationship Identification
Analisis seperti diskriminan
digunakan secara empiris mengidentifikasi hubungan atau grup yang diuji dengan
metode kualitatif lain, yang disederhanakan dari analisis cluster seringnya
mengidentifkasi hubungan atau kemiripan dan perbedaan yang tidak dibuktikan
sebelumnya.
Memilih Clustering Variables
Derived Cluster merefleksikan struktur
yang melekat pada data dan didefinisikan oleh variabel.
Pertimbangan konseptual
- Karakteristik
obyek diclusterkan
- Terkait
spesifikasi obyektif dari analisis cluster.
Teknik analisis cluster tidak memiliki
arti dari mendiferensiasikan relevansi dari variabel yang tidak relevan dan berasal
dari yang paling konsisten, tapi yang berbeda, kelompok obyek diantara semua
variabel.
Praktik Pertimbangan
Analisis cluster dapat berefek
dramatis dengan inklusi hanya satu atau dua variabel yang tidak memiliki
kecocokan atau berbeda.
Stage 2 : Desain Riset dalam Cluster Analysis
Analisis cluster diantara analisis
faktor adalah seni dari sains. Pentingnya bahasan ini membuat langkah
selanjutnya menjadi lebih nyata ketika kita sadar bahwa analisis cluster
sebenarnya mencari struktur dalam data.
Analisis cluster tidak dapat
mengevaluasi seluruh partisi yang mungkin karena meskipun relativitas masalah
kecil dari partisi 25 obyek ke dalam 5 nonoverlap cluster melibatkan 2,431x1012
partisi yang mungkin.
Sample Size
Ukuran sampel harus cukup besar
untuk menyediakan representasi dari grup kecil diantara populasi dan
merepresentasikan struktur utama. Grup yang kecil secara alami ditampilkan
sebagai sejumlah kecil observasi, terutama saat ukuran sampel itu kecil. Ukuran
sampel yang kecil meningkatkan kesempatan bahwa ukuran grup yang kecil akan
direpresentasikan oleh kasus yang cukup untuk membuatnya hadir dan mudah
diidentifikasi.
Dalam menjelaskan ukuran sampel
peneliti harus menentukan ukuran grup yang dibutuhkan untuk relevansi bagi
pertanyaan yang diminta. Lebih jelasnya, apabila analisa obyektif membutuhkan
identifikasi grup kecil dalam populasi, peneliti harus berusaha mendapatkan
sampel yang lebih besar.
Mendeteksi Outliers
Outliers dapat juga mewakili :
- Penyimpangan
observasi yang tidak bermanfaat dan tidak merepresentasi populasi umumnya
- mewakili
observasi dari segmen kecil dan insignifikan dalam populasi
- undersampling
dari grup aktula dalam populasi yang menyebabkan representasi lemah grup
dari sampel.
Pendekatan Grafis
Satu dari cara paling sederhana
untuk screen data untuk outlier untuk menyiapkan gambar diagram profil. Tiap
poin mewakili bilai korespondensi variabel, dan terhubung untuk interpretasi
visual. Profil untuk semua obyek kemudian diplot pada gambar, sebuah garis
untuk tiap obyek. Outliers dari responden memiliki perbedaan profil yang sangat
berbeda dari tipikal responden lain.
Pendekatan Empiris
Mendeteksi outliers harus
melampaui batas pendekatan univariat. Karena outliers juga mungkin
didefinisikan dalam multivariat yang memiliki profil unik diantara keseluruhan
susunan bariabel yang membedakan merka dengan observasi lainnya.
Pendekatan lain adalah untuk
mengidentifikasi oulier melalui pengukuran kemiripan. Contoh yang paling jelas
dari outlier adalah observasi tunggal yang paling tidak mirip dari observasi
lain. Sebelum analisa, kemiripan dari seluruh observasi dapat dibandingkan pada
keseluruhan grup centroid. Pola
clustering juga dapat diobservasi saat program cluster sedang dijalankan.
Desain Penelitian dalam Analisis Cluster
1. Hasil dari analisis cluster adalah hanya sebaik variabel yang dimasukkan dalam
analisis.
• Variabel yang tidak relevan akan memiliki
efek substantif yang merugikan pada hasil.
• Setiap variabel harus memiliki alasan tertentu untuk diikutsertakan.
• Variabel harus
dikeluarkan apabila peneliti tidak
dapat mengidentifikasi mengapa variable tersebut harus dimasukkan dalam analisis.
2. Analisis cluster
sangat sensitif terhadap outlier
dalam dataset, karenanya peneliti harus melakukan pemeriksaan
awal pada data yang akan dianalisis.
▪ Outliers dapat berupa observasi yang
sebenarnya tidak mewakili populasi atau observasi yang mewakili
sampling dari kelompok yang sebenarnya dalam populasi.
▪ Diagram profil grafis dapat digunakan untuk
mengidentifikasi outlier.
▪ Outliers harus dinilai untuk representasi/keterwakilan dari
populasi dan dihapus jika mereka tidak representatif
3. Peneliti harus menentukan ukuran kesamaan antar obyek dan karakteristik yang akan menentukan kesamaan
antara objek-objek yang tercluster.
Mengukur Kemiripan
Interobject Similarity yaitu sebuah pengukuran
empiris dari korespondensi atau kemiripan antara obyek yang dicluster. Dalam
diskusi analisis faktor matriks korelasi antara seluruh bagian variabel
digunakan untuk mengelompokkan variabel ke dalam faktor. Pengukuran kemiripan
dihitung dari seluruh bagian obyek dengan kemiripan berdasarkan profil tiap
observasi diantara karekteristik yang ditentukan oleh peneliti. Prosedur
analisis cluster kemudian diproses pada obyek grup yang mirip ke dalam cluster.
Interobject similarity dapat diukur dengan berbagai cara, namun tiga metode ini
mendominasi aplikasi analisis cluster ;
A. Correlational measures.
B. Distance measures,
C. Association
measures.
Digunakan untuk mewakili
kemiripan antara obyek-obyek yang diukur dengan istilah nonmetrik (pengukuran
nominal atau ordinal). Seringkali pengukuran sederhana digunakan untuk
menentukan tingkat agreement atau disagreement antara sepasang hal.
Ø Correlation Measures (dengan data metrik)
Mewakili kesamaan
dengan pola menganalisis
seluruh variabel. Pengukuran ini tidak mempertimbangkan besarnya nilai variabel, hanya mempertimbangkan
pola analisisnya saja, dan dengan
demikian jarang digunakan.
Pengukuran interobyek mungkin
digunakan unruk koefisien korelasi antara pasangan obyek yang diukur dari
beberapa vvariabel.efeknya, sebaliknya dari korelasi dua set variabel yang membalik
matriks data sehingga kolom merepresentasikan obyek dan baris yang
merepresentasikan variabel.
Ø Distance Measures (dengan data metrik)
Mewakili kesamaan sebagai kedekatan observasi
satu sama lain di seluruh variabel. Pengukuran ini fokus pada besarnya nilai-nilai,
dengan cara mengelompokkan yang memiliki kesamaan/kemiripan
hal-hal yang dekat satu sama lain.
Meskipun pengukuran korelasi
memiliki intuisi banding dan digunakan dalam berbagai teknik multivariat
lainnya, mereka tidak menggunakan pengukuran similaritas dalam analisis
cluster. Pengukuran jarak
mengukur perbedaan secara aktual dengan nilai yang lebih besar yang menunjukkan
kemiripan yang kurang.
Jarak dikonversi ke dalam
pengukuran kemiripan dengan menggunakan inverse relationship. Beberapa
pengukuran jarak yang tersedia ;
1. Euclidean Distance
Sering diartikan sebagai straight-line distance. Euclidean
Distance antara poin adalah kepanjangan dari hipotalamus dari segitiga yang
benar yang dihitung dari formula dibawah figure. Euclidean distance, merupakan panjang
sisi miring pada segitiga siku-siku
yang dibentuk antara titik-titik,
adalah ukuran paling umum digunakan.
2. Squared (Absolute) Euclidean Distance
Jumlah dari perbedaan square
tanpa mengambil square root. Euclidean Distance squared memiliki keunggulan
dengan mengambil square root dimana kecepatan penghitungan ditekankan.
3. Standardisasi
Digunakan ketika
jangkauan atau skala satu variabel jauh lebih besar atau berbeda dari range yang lain.
4. City-Block (Manhattan) Distance
Tidak berbasis pada Euclidean
Distance. Sebaliknya, metode ini menggunakan jumlah perbedaan absolut dari
variabeln namun mungkin mengarah pada cluster yang invalid apabila variabel
yang dicluster terkorelasi tinggi.
5. Mahalanobis Distance (D2)
Generalisasi pengukuran jarak
yang menghitung korelasi antara variabel dengan membagi bobot sama rata. Keberadaan interkorelasi antara variabel pengelompokan: pengukuran
yang sering dipakai menggunakan jarak Mahalanobis, yang menstandarisasi data dan juga menjumlahkan
pooled dalam varians kelompok - matriks kovarians, mengkompensasi untuk
interkorelasi antar variabel.
Ø Association Measures (dengan data nonmetrik)
Pengukuran asosiasi dari similaritas menggunakan obyek
yang dibandingkan dimana karakteristik pengukuran hanya nonmetrik. Sebuah
pengukuran asosiasi dapat mengamati derajat persetujuan atau kecocokan antara
tiap pasangan responden. Bentuk paling sederhana dari pengukuran asosiasi bisa
berupa presentase persetujuan waktu yang terjadi diantara set pertanyaan.
Standardisasi data
Data yang dicluster bukan berarti skala yang sama yang harus
distandardisasi meskipun dibutuhkan untuk menghindari instant dimana variable
mempengaruhi solusi cluster yang lebih besar daripada yang seharusnya.
Standardisasi Variabel
Bentuk paling umum dari standardisasi adalah konversi tiap variable
pada skor standar dengan mensubstraksi rata-rata dan membagi dengan standar
deviasi tiap variable. Piliohan ini dapat ditemukan di tiap program computer
dan banyak lainnya bahkan secara langsung masuk dalam prosedur analisis
cluster. Ada
dua manfaat utama standardisasi;
1. Jauh lebih mudah untuk membandingkan
antara variable karena mereka berada di skala yang sama,
2. Tidak ada perbedaan terjadi dalam nilai
standardisasi hanya saat skala berubah.
Menggunakan Standar Pengukuran Jarak
Pengukuran euclidean distance yang secara langsung
terkait prosedur standardisasi adalah mahalanobis distance (D2).
Pendekatan mahalanobis tidak hanya melakukan proses standardisasi pada data dengan
menskala dalam standar deviasi namun juga menjumlahkan pooled within-grup
variance-covariance dengan penyesuaian korelasi diantara variabel. Mahalanobis
menggeneralisasi prosedur jarak yang dihitung dari sebuah pengukuran jarak
antara obyek yang dibandingkan dengan R2 dalam analisis regresi.
Standardisasi observasi
Apabila kita ingin mengidentifikasi grup
berdasarkan gaya respon mereka dan bahkan kontrol dari pola, kemudian tipe
standardisasi melalui penghitungan Z score tidaklah cocok. Kasus within-case
atau row-centering standardization dapat menjadi sangat efektif dalam
menghilangkan efek gaya respon dan utamanya sangat cocok pada berbagai bentuk
data sikap.
Pentingnya Standaridisasi
Standardisasi menyediakan perbaikan dari isu dasar
dalam pengukuran simuilaritas, sebagian pengukuran jarak, dan berbagai
penggunaan luas lainnya. Keputusan untuk menstandardisasi haruslah berdasarkan
dua alasan, yaitu landasan empiris dan konseptual.yang merepresentasikan kedua
obyektif riset dan kualitas empiris data.
Stage 3 : Asumsi Analisis Cluster
Cluster bukanlah teknik inferensial dimana
parameter dari sampel dinilai sebagai representasi populasi. Analisis cluster
adalah metode untuk mengkuantitatifkan karakteristik struktural dari susunan
observasi.
Representatif Sampel
Outlier mungkin hanya sebuah undersampling dari
grup divergen saat dibuang, memperkenalkan bias pada struktur estimasi. Semua
usaha haruslah dibuat untuk menjamin bahwa sampel itu representatif dan
hasilnya menggeneralisasikan populasi yang ingin diketahui.
Asumsi dalam Analisis Cluster
1. Data dapat berupa metrik, nonmetrik, atau
kombinasi keduanya.
Semua skala pengukuran dapat
digunakan. Tetapi harus diperhatikan bahwa penggunaan kombinasi tipe data akan
membuat interpretasi dari analisis cluster bersifat sangat tentatif/sementara.
Peneliti harus berhati-hati menafsirkan kondisi ini.
2. Analisis Cluster mengasumsikan bahwa
sampel adalah benar-benar representasi dari populasi.
Outliers yang tidak mewakili
penduduk harus dihapus.
3. Multikolinieritas antar variabel dapat
memiliki efek buruk pada analisis.
Multikolinearitas menyebabkan
variabel terkait yang akan dibobot menjadi lebih berat, sehingga menerima
penekanan yang tidak tepat dalam analisis. Satu atau lebih variabel yang sangat
kollinear harus dihapus atau menggunakan ukuran jarak, seperti jarak
Mahalanobis, yang mengkompensasi korelasi ini.
4.
Kelompok yang terjadi secara alamiah harus terdapat dalam data.
Ø
Analisis Cluster mengasumsikan bahwa partition dari observasi dalam kelompok saling
eksklusif dan memang
ada dalam sampel dan populasi.
Ø Analisis cluster tidak dapat memastikan
keabsahan pengelompokan ini. Peran ini harus dilakukan oleh peneliti dengan :
ü
Memastikan bahwa pembenaran teoritis ada untuk analisis
kelompok.
ü
Melaksanakan prosedur tindak
lanjut untuk profiling dan discriminating
antara
kelompok.
Tahap 4 : Deriving Clusters dan Menilai Overall Fit
1.
Hierarchical clustering memiliki dua pendekatan yaitu Agglomerative Method dan
Divisive Method.
Ø
Agglomerative method: dimulai dengan mengobservasi masing-masing cluster dan dengan setiap langkah menggabungkan observasi untuk membentuk cluster,
hingga dicapai hanya terdapat satu cluster besar.
Ø
Divisive method: dimulai dengan
satu cluster besar dan kemudian
cluster tersebut dibagi menjadi cluster-cluster yang lebih
kecil yang paling tidak
mermiliki kesamaan/kemiripan.
2. Clustering Algorithm
Clustering Algorithm untuk menentukan kesamaan antara multiple member cluster dalam
proses clustering. Ada 5 pendekatan untuk pembentukan
cluster dalam hierarchical
clustering, yaitu :
a.
Single linkage -
berdasarkan jarak terdekat antara
obyek.
b.
Complete linkage - berdasarkan jarak maksimum antara obyek.
c.
Average linkage - berdasarkan jarak rata-rata antara obyek.
d.
Ward's method - berdasarkan jumlah kuadrat antara kedua cluster dijumlahkan dari semua
variabel.
e.
Centroid method - berdasarkan jarak antara centroid cluster.
Metode centroid memerlukan
data metrik.
3. Non hierarchical clustering menetapkan
semua obyek dalam jarak set dari cluster seed ke cluster daripada proses
tree-building hierarchical clustering. Non
hierarchical clustering memiliki tiga pendekatan:
1) Sequential threshold - berdasarkan pada satu
cluster seed yang telah dipilih dan membership dalam cluster dipenuhi sebelum
seed yang lain dipilih.
2) Parallel threshold - berdasarkan pada
pemilihan cluster seed yang simultan dan membership jarak threshold disesuaikan
untuk memasukkan lebih banyak atau lebih sedikit obyek dalam cluster.
3) Optimizing
- sama dengan pendekatan yang laink\ kecuali memungkinkan membership reassignment
dari obyek ke cluster lain didasarkan pada beberapa optimizing criterion.
4. Meskipun tidak ada aturan yang ditetapkan untuk
jenis clustering mana yang digunakan, disarankan agar menggunakan keduanya,
baik hierarchical dan nonhierarchial
clustering algorithms.
1) Tahap Pertama - sebuah analisis hierarchical cluster digunakan untuk menghasilkan dan profil cluster.
2) Tahap Kedua - sebuah analisis nonhierarchical
cluster digunakan untuk menyempurnakan cluster membership dengan kemampuan untuk
berpindah. Dalam hal ini, centroid dari hierarchical clustering digunakan
sebagai seeds untuk nonhierarchical
clustering.
5. Tidak ada prosedur yang berlaku umum untuk
menentukan jumlah cluster yang diambil. Penentuan jumlah cluster yang diambil didasarkan
pada teori dan kepraktisan hasil. Beberapa metode yang paling umum digunakan
untuk membantu analis menentukan berapa banyak cluster yang diambil adalah
sebagai berikut:
Ø
Clustering coefficient - pengukuran jarak antara dua obyek yang digabungkan. Nilai aktual yang sebenarnya
akan tergantung pada metode clustering dan ukuran kesamaan yang digunakan.
ü
Ukuran Koefisien menunjukkan
homogenitas dari obyek yang digabungkan. Koefisien yang kecil menunjukkan kewajaran homogenitas dari
obyek yang digabungkan, sedangkan koefisien yang besar adalah hasil dari obyek yang sangat berbeda yang digabungkan.
ü
Peningkatan yang besar (mutlak atau persentase) dalam clustering
coefficient adalah indikasi dari bergabungnya dua cluster yang beragam, yang menunjukkan bahwa "kelompok alami" mungkin ada
sebelum cluster adalah digabungkan.
Ini kemudian menjadi salah satu solusi
cluster yang potensial.
ü
Peneliti kemudian harus
menguji solusi yang mungkin yang diidentifikasi
dari hasil dan memilih satu sebagai yang terbaik untuk mendukung tujuan penelitian.
Kesesuaian solusi ini harus dikonfirmasi dengan
analisis tambahan.
Ø
Dendrogram - representasi
pictorial dari proses clustering
yang mengidentifikasi bagaimana observasi digabungkan menjadi setiap cluster. Sebagaimana garis penghubung cluster menjadi lebih panjang, cluster menjadi semakin
berbeda.
Ø
Vertical icicle -
pictorially menggambarkan jumlah obyek di bagian atas dan jumlah dari cluster turun ke samping. Kekosongan mewakili
cluster dan X menunjukkan
anggota per cluster.
6.
Ketika solusi cluster tercapai,
peneliti harus memeriksa struktur dari
setiap cluster dan menentukan apakah solusinya harus ditentukan kembali
7. Penentuan kembali solusi mungkin
diperlukan jika terjadi berbagai ukuran cluster atau cluster dengan hanya satu sampai dua observasi yang ditemukan.
Tahap 5: Interpretasi dari Cluster
Cluster centroid pada setiap variabel adalah dasar
interpretasi yang paling umum.
·
Centroid
Cluster mewakili skor rata-rata untuk setiap kelompok. Skor ini dapat digunakan
untuk menetapkan label cluster.
·
Uji
statistik (F statistik dan tingkat signifikansi dari setiap variabel)
disediakan untuk menunjukkan perbedaan yang signifikan di seluruh cluster.
·
Hanya
variabel yang signifikan harus dipertimbangkan dalam menafsirkan dan pelabelan clusters.
·
Profiling
dari cluster dapat dihitung dengan analisis diskriminan, dengan memanfaatkan
variabel yang tidak digunakan dalam analisis cluster.
Tahap 6: Validasi dan Profiling dari Cluster
1.
Validasi melibatkan proses menganalisis solusi cluster untuk representasi dari
populasi dan untuk generalisasi. Di antara metode yang tersedia adalah:
·
New, separate sample adalah cluster dianalisis dan dibandingkan.
·
Split the sample menjadi dua kelompok dan cluster menganalisis
secara terpisah.
·
Mendapatkan cluster centers dari satu kelompok dan menggunakan mereka
dengan kelompok lain untuk mendefinisikan cluster.
2. Profiling
melibatkan penilaian bagaimana setiap cluster berbeda dengan cluster lain pada
dimensi deskriptif yang relevan.
·
Hanya
variabel yang tidak digunakan dalam analisis cluster yang digunakan dalam
profiling. Sering kali, variabel yang digunakan dalam langkah ini adalah
demografi, psikografis, atau pola konsumsi.
·
Analisis
diskriminan adalah teknik yang sering digunakan.
3.
Prediktif atau kriteria validitas dari cluster dapat diuji dengan memilih
criterion variable yang tidak digunakan dalam analisis cluster dan melakukan pengujian
untuk variabilitas yang diharapkan di seluruh cluster.
0 komentar:
Posting Komentar