Rabu, 26 Maret 2014

Cluster Analysis


Analisis cluster adalah teknik multivariate yang bertujuan untuk mengelompokkan obyek pada posisi karakteristiknya. Analisis Cluster merupakan salah satu jenis multivariat untuk mengklasifikasikan obyek atau variabel berdasarkan kesamaan karakteristik yang mereka miliki. Analisis Cluster digunakan untuk meminimalkan varians dalam kelompok dan memaksimalkan varians antara kelompok. Hasil dari analisis cluster adalah sejumlah kelompok heterogen dengan isi homogen.

Cluster Analysis Sebagai Teknik Multivariat
Cluster Analisis mengklasifikasikan obyek pada sebuah susunan pengguna dari karakteristik yang dipilih. Hasil dari analisis cluster haruslah menampilkan homogenitas internal (within-cluster) yang tinggi dan heterogenitas eksternal yang tinggi (between cluster). Variat cluster mewakili representasi matematiis pada sebuah susunan variable dimana membandingkan kesamaan obyek.


Pengembangan Konseptual dengan Cluster Analysis
Analisis cluster dapat mengklasifikasikan obyek lain disbanding manusia individual, termasuk struktur pasar, analisis similaritas dan perbedaan diantara produk baru dan evaluasi performa sebuah perusahaan untuk mengidentifikasi kelompok berbasiss pada strategi perusahaan atau orientasi strategis.
Peran umum cluster analisis yang digunakan dalam pengembangan konseptual yaitu :
  1. Reduksi Data
Analisis cluster dapat melakukan prosedur data reduksi berdasarkan obyek dengan mengurangi informasi daripopulasi keseluruhan atau sample untuk informasi mengenai grup spesifik.
Mengurangi informasi dari seluruh populasi atau sampel menjadi informasi yang lebih spesifik dengan sub kelompok yang lebih kecil. Hasil dari reduksi, data menjadi lebih ringkas, deskripsi dari observasi yang dapat dipahami, dengan meminimalkan hilangnya informasi.

  1. Hypothesis Generation
Analisis Cluster juga sangat bermanfaat untuk mengembangkan hipotesis yang diharapkan memperhatikan data asli dan atau menguji pernyataan hipotesis. Memungkinkan pengembangan hipotesis tentang sifat data atau pengujian hipotesis yang telah dinyatakan sebelumnya.
  1. Klasifikasi
Responden sampel dapat diprofilkan, dapat diketahui kesamaan demografis atau kelompok pola konsumsi.

Kebutuhan dukungan Konseptual dalam Analisis Cluster
Analisis cluster dapat dikritisasi untuk bekerja terlalu baik dalam hasil statistik yang dihasilkan meski berdasarkan logika untuk cluster tidak nyata.
Ø      Analisis cluster menjelaskan, tak berteori, dan noninferensial
Analisis cluster tidak memiliki dasar statistic untuk menggambarkan kesimpulan dari sample populasi, dan banyak pendapat bahwa ini hanyalah sebuah tekni eksploratory.
Ø      Analisis cluster akan selalu menciptakan cluster, tanpa memperhatikan eksistensi struktur dalam data aktual.
Hanya dukungan konseptual yang kuat saja kemudian validasi potensi cluster yang relevan dan bermakna.
Ø      Solusi cluster tidak digeneralisasi karena sangatlah dependen diantara variable yang digunakan sebagai basis pengukuran similaritas.
Analisis cluster dianggap lebih dependen pada pengukuran yang dgunakan untuk mengkarakteristikkan obyek disbanding teknik multivariate.








Perbedaan Analisis Cluster dan Analisis Faktor :
Tujuan
Analisis Cluster
Analisis Faktor
Reduksi Data
Tujuan reduksi data untuk mengidentifikasi entitas-entitas serupa dari karakteristik yang dimiliki. Analisis Cluster mengidentifikasi dan mengklasifikasikan obyek atau variabel sehingga setiap obyek memiliki kesamaan sangat mirip dengan obyek lain dalam cluster dengan memperhatikan beberapa kriteria seleksi yang telah ditentukan.
Analisis Cluster harus digunakan ketika peneliti tertarik dalam pengelompokan responden berdasarkan kesamaan / perbedaan pada variabel yang dianalisis daripada memperoleh kelompok individu yang memiliki pola respons yang sama
Tujuan reduksi data untuk menggabungkan atau meringkas obyek dalam jumlah besar ke dalam kelompok yang jelas berbeda dalam populasi yang lebih besar (Q analisis faktor).


Pengelompokan Responden
Pada pendekatan analisis cluster, pengelompokan responden yang dibuat berdasarkan pada pengukuran jarak antara skor responden pada variabel yang dianalisis.

Pada pendekatan analisis faktor, pengelompokan responden berdasarkan pada interkorelasi antara mean dan standar deviasi dari responden sehingga kelompok individu menunjukkan pola respons yang sama pada variabel yang dimasukkan dalam analisis.


Bagaimana Analisis Cluster Bekerja
Contoh Sederhana
Tujuan utama cluster nalaisis adalah untuk menjelaskan struktur data dengan menempatkan observasi dengan kemiripan yang sama dalam sebuah grup. Yang perlu diperhatikan yaitu :
Ø      Bagaimana mengukur similaritas
Beberapa metode yang mungkin digunakan termasuk korelasi antar obyek atau sebuah pengukuran untuk kedekatan jarak dua dimensi termasuk jarak anatara observasi yang mengindikasikan similaritas.
Ø      Bagaimana membentuk cluster
Prosedur harus dikelompokkan dengan observasi yang memiliki kemiripan dalam sebuah cluster, dengan demikian menjelaskan anggota grup dari tiap observasi untuk tiab cluster pu terbentuk.
Ø      Berapa banyak grup yang harus dibentuk
Pilihlah sebuah kelompok cluster sebagai solusi final ; cluster yang lebih sedikit dan kurang homogen dengan cluster dengan jumlah besar dan lebih within group-homogenity.

Mengukur Similaritas
Similaritas mewakili derajat korespondensi diantara obyek diantara semua karakteristik yang digunakan dalam analisa.

Hal-hal yang harus dipertimbangkan ketika memilih ukuran kesamaan dalam menggunakan Analisis Cluster.
1.      Analis harus mempertimbangkan bahwa dalam banyak situasi, pengukuran jarak yang berbeda menyebabkan solusi cluster yang berbeda. Sebaiknya menggunakan beberapa pengukuran dan membandingkan hasil analisis dengan teori atau pola yang telah yang dikenal sebelumnya.
2.      Ketika variabel memiliki unit yang berbeda, harus dilakukan standarisasi data sebelum melakukan analisis cluster.
3.      Ketika variabel-variabel terinterkorelasi (baik secara positif atau negatif), pengukuran jarak Mahalanobis kemungkinan akan menjadi yang paling tepat digunakan karena menyesuaikan dengan interkorelasi dan bobot semua variabel sama
Membentuk Cluster
Untuk membentuk cluster berbasis pengukuran similaritas tiap observasi. Membentuk sejumlah solusi cluster. Saat cluster dibentuk, kemudian pilih solusi cluster akhir dari sebuah susunan solusi yang mungkin. Aturannya dengan mengidentifikasi dua observasi yang paling dekat kemiripannya yang belum berada dalam satu cluster kemudian menggabungkannya.

Tahapan dalam Analisis Cluster
Tahapan dasar dalam penerapan analisis cluster adalah sebagai berikut :
Ø      Partitioning yaitu proses menentukan jika dan bagaimana cluster dapat dikembangkan.
Ø      Interpretasi yaitu proses memahami karakteristik setiap cluster dan mengembangkan nama atau label yang tepat mendefinisikan sifatnya.
Ø      Profiling yaitu proses yang melibatkan deskripsi karakteristik dari tiap cluster untuk menjelaskan bagaimana mereka dapat berbeda pada dimensi yang relevan.

Perbedaan Antara Tahap Interpretasi Dan Tahap Profiling:
Tahap interpretasi melibatkan pemeriksaan pernyataan yang digunakan  untuk  mengembangkan  cluster guna menamai atau memberikan label yang secara akurat menggambarkan sifat dari cluster. Tahap profiling melibatkan penggambaran karakteristik tiap cluster untuk menjelaskan bagaimana mereka dapat berbeda pada dimensi yang relevan. Analisis profil berfokus pada menggambarkan apa yang tidak langsung menentukan cluster tetapi karakteristik dari cluster setelah mereka diidentifikasi. Penekanannya adalah pada karakteristik yang berbeda secara signifikan di seluruh cluster, dan bahkan dapat digunakan untuk memprediksi keanggotaan dalam sebuah perilaku cluster tertentu.

Tiap observasi sebagai cluster tersendiri dan kemudian menggabungkan dua cluster dalam satu waktu hingga semua observasi berada dalam cluster tunggal disebut prosedur hierarkis, yang juga merupakan metode aglomerasi karena cluster dibentuk dengan menggabungkan cluster yang ada. Enam langkah proses clustering yaitu :
  1. Mengidentifikasi dua observasi (E dan F) yang paling mirip dan menggabungkan mereka ke dalam satu cluster. Sehingga dari tujuh cluster menjadi enam cluster.
  2. Temukan bagian observasi selanjutnya yang paling memiliki kedekatan.
  3. Menggabungkan anggota cluster tunggal sehingga kita memiliki empat cluster.
  4. Gabungkan B dengan dua member cluster C dan D yang telah dibentuk oleh langkah sebelumnya.
  5. Gabungkan dua tiga-anggota cluster ke dalamn satu enam anggota cluster.
  6. gabungkan observasi A dengan sisa enam cluster ke dalamn cluster tunggal dalam sebuah jarak.

Menjelaskan banyaknya cluster dalam satu solusi final
Metode hierarki menghasilkan sebuah angka solusi cluster. Tujuannya untuk mengidentifikasi segmen dengan menggabungkan observasi, namun pada saat yang sama memperkenalkan jumlah kecil heterogenitas.
Memilih solusi Cluster Akhir
Mencoba untuk mendapat struktur sederhana yang paling mungkin yang merepresentasikan homogenitas grup. Peningkatan besar dalam heterogenitas mengindikasikan cua cluster yang paling tidak mirip dalam sebuah stage. Untuk memilih cluster akhir, diuji pengukuran perubahan homogentas untuk mengidentifikasi peningkatan besar yang mengindikasi penggabungan cluster yang tidak mirip :
Ø      saat menggabungkan dua observasi kemudian kita membuat tiga anggota pertama cluster kita melihat peningkatan besar yang wajar.

Pertimbangan Obyektif vs Subyektif
Proses Keputusan Analisis Cluster
Ø      partisi susunan data yang terbentuk dan memilih solusi cluster
Ø      Menginterpretasi cluster untuk memahami karakteristik tiap cluster dan mengembangkan nama atau label yang cocok dengan keasliannya
Ø      Memvalidasi hasil dari solusi final diantara menjelaskan karakteristik tiap cluister untuk menjelaskan bagaimana mereka berbeda dalam dimensi yang berbeda seperti demografi.

Stage 1 : Obyek Analisis Cluster
Tujuan utama analisis cluster adalah mempartisi susunan obyek ke dalam dua taua lebih grup berdasarkan kemiripannya dengan obyek untuk karakteristik tertentu.
Tujuan Analisis Cluster
Sementara tujuan utama dari analisis cluster adalah untuk partition satu set obyek menjadi dua atau lebih kelompok berdasarkan kesamaan dari objek pada serangkaian karakteristik tertentu, kegunaan lain dari analisis cluster meliputi:
• Analisis eksplorasi untuk mengembangkan sebuah sistem klasifikasi.
• Membangkitkan hipotesis dan analisis konfirmatori untuk menguji struktur yang diusulkan.
Pertanyaan Riset dalam Analisis Cluster
  1. Taxonomy Description
Taxonomy untuk tujuan eksploratori, berbasis empiris mengklasifikasikan obyek. Analisis cluster juga menggenneralisasi hipotesis terkait struktur obyek. Meskipun secara prinsip terlihat sebagai teknik eksploratiry, analisis cluster dapat digunakan untuk tujuan konfirmatori. Typology yang merupakan teori berbasis klasifikasi dapat dibandingkan dari yang berasal dari analisis cluster.
  1. Data Simplification
Dengan mendefinisikan struktur diantara observasi,n analisis cluter juga mengembangkan oerpektif sederhana dengan mengelompokkan observasi pada analisis yang lebih jauh. Sebaliknya terlihat dari semua observasi yang unik, mereka terlihat unik, meraka bisa ditampilkan sebagai anggota cluster dan diprofilkan dari karakteristik general mereka.
  1. Relationship Identification
Analisis seperti diskriminan digunakan secara empiris mengidentifikasi hubungan atau grup yang diuji dengan metode kualitatif lain, yang disederhanakan dari analisis cluster seringnya mengidentifkasi hubungan atau kemiripan dan perbedaan yang tidak dibuktikan sebelumnya.

Memilih Clustering Variables
Derived Cluster merefleksikan struktur yang melekat pada data dan didefinisikan oleh variabel.
Pertimbangan konseptual
  1. Karakteristik obyek diclusterkan
  2. Terkait spesifikasi obyektif dari analisis cluster.
Teknik analisis cluster tidak memiliki arti dari mendiferensiasikan relevansi dari variabel yang tidak relevan dan berasal dari yang paling konsisten, tapi yang berbeda, kelompok obyek diantara semua variabel.
Praktik Pertimbangan
Analisis cluster dapat berefek dramatis dengan inklusi hanya satu atau dua variabel yang tidak memiliki kecocokan atau berbeda.

Stage 2 : Desain Riset dalam Cluster Analysis
Analisis cluster diantara analisis faktor adalah seni dari sains. Pentingnya bahasan ini membuat langkah selanjutnya menjadi lebih nyata ketika kita sadar bahwa analisis cluster sebenarnya mencari struktur dalam data.
Analisis cluster tidak dapat mengevaluasi seluruh partisi yang mungkin karena meskipun relativitas masalah kecil dari partisi 25 obyek ke dalam 5 nonoverlap cluster melibatkan 2,431x1012 partisi yang mungkin.
Sample Size
Ukuran sampel harus cukup besar untuk menyediakan representasi dari grup kecil diantara populasi dan merepresentasikan struktur utama. Grup yang kecil secara alami ditampilkan sebagai sejumlah kecil observasi, terutama saat ukuran sampel itu kecil. Ukuran sampel yang kecil meningkatkan kesempatan bahwa ukuran grup yang kecil akan direpresentasikan oleh kasus yang cukup untuk membuatnya hadir dan mudah diidentifikasi.
Dalam menjelaskan ukuran sampel peneliti harus menentukan ukuran grup yang dibutuhkan untuk relevansi bagi pertanyaan yang diminta. Lebih jelasnya, apabila analisa obyektif membutuhkan identifikasi grup kecil dalam populasi, peneliti harus berusaha mendapatkan sampel yang lebih besar.
Mendeteksi Outliers
Outliers dapat juga mewakili :
  1. Penyimpangan observasi yang tidak bermanfaat dan tidak merepresentasi populasi umumnya
  2. mewakili observasi dari segmen kecil dan insignifikan dalam populasi
  3. undersampling dari grup aktula dalam populasi yang menyebabkan representasi lemah grup dari sampel.

Pendekatan Grafis
Satu dari cara paling sederhana untuk screen data untuk outlier untuk menyiapkan gambar diagram profil. Tiap poin mewakili bilai korespondensi variabel, dan terhubung untuk interpretasi visual. Profil untuk semua obyek kemudian diplot pada gambar, sebuah garis untuk tiap obyek. Outliers dari responden memiliki perbedaan profil yang sangat berbeda dari tipikal responden lain.
Pendekatan Empiris
Mendeteksi outliers harus melampaui batas pendekatan univariat. Karena outliers juga mungkin didefinisikan dalam multivariat yang memiliki profil unik diantara keseluruhan susunan bariabel yang membedakan merka dengan observasi lainnya.
Pendekatan lain adalah untuk mengidentifikasi oulier melalui pengukuran kemiripan. Contoh yang paling jelas dari outlier adalah observasi tunggal yang paling tidak mirip dari observasi lain. Sebelum analisa, kemiripan dari seluruh observasi dapat dibandingkan pada keseluruhan grup centroid. Pola clustering juga dapat diobservasi saat program cluster sedang dijalankan.

Desain Penelitian dalam Analisis Cluster
1. Hasil dari analisis cluster adalah hanya sebaik variabel yang dimasukkan dalam analisis.
Variabel yang tidak relevan akan memiliki efek substantif yang merugikan pada hasil.
Setiap variabel harus memiliki alasan tertentu untuk diikutsertakan.
Variabel harus dikeluarkan apabila peneliti tidak dapat mengidentifikasi mengapa variable tersebut harus dimasukkan dalam analisis.
2. Analisis cluster sangat sensitif terhadap outlier dalam dataset,  karenanya peneliti harus melakukan pemeriksaan awal pada data yang akan dianalisis.
   Outliers dapat berupa observasi yang sebenarnya tidak mewakili populasi atau observasi yang mewakili sampling dari kelompok yang sebenarnya dalam populasi.
   Diagram profil grafis dapat digunakan untuk mengidentifikasi outlier.
   Outliers harus dinilai untuk representasi/keterwakilan dari populasi dan dihapus jika mereka tidak representatif
3. Peneliti  harus  menentukan  ukuran  kesamaan  antar  obyek  dan karakteristik  yang  akan menentukan kesamaan antara objek-objek yang tercluster.

Mengukur Kemiripan
Interobject Similarity yaitu sebuah pengukuran empiris dari korespondensi atau kemiripan antara obyek yang dicluster. Dalam diskusi analisis faktor matriks korelasi antara seluruh bagian variabel digunakan untuk mengelompokkan variabel ke dalam faktor. Pengukuran kemiripan dihitung dari seluruh bagian obyek dengan kemiripan berdasarkan profil tiap observasi diantara karekteristik yang ditentukan oleh peneliti. Prosedur analisis cluster kemudian diproses pada obyek grup yang mirip ke dalam cluster. Interobject similarity dapat diukur dengan berbagai cara, namun tiga metode ini mendominasi aplikasi analisis cluster ;
A. Correlational measures.
B. Distance measures,
   C. Association measures.
Digunakan untuk mewakili kemiripan antara obyek-obyek yang diukur dengan istilah nonmetrik (pengukuran nominal atau ordinal). Seringkali pengukuran sederhana digunakan untuk menentukan tingkat agreement atau disagreement antara sepasang hal.

Ø      Correlation Measures (dengan data metrik)
Mewakili kesamaan dengan pola menganalisis seluruh variabel. Pengukuran ini tidak mempertimbangkan besarnya nilai variabel, hanya mempertimbangkan pola analisisnya saja, dan dengan demikian jarang digunakan.
Pengukuran interobyek mungkin digunakan unruk koefisien korelasi antara pasangan obyek yang diukur dari beberapa vvariabel.efeknya, sebaliknya dari korelasi dua set variabel yang membalik matriks data sehingga kolom merepresentasikan obyek dan baris yang merepresentasikan variabel.
Ø      Distance Measures (dengan data metrik)
Mewakili kesamaan sebagai kedekatan observasi satu sama lain di seluruh variabel. Pengukuran ini fokus pada besarnya nilai-nilai, dengan cara mengelompokkan yang memiliki kesamaan/kemiripan hal-hal yang dekat satu sama lain.
Meskipun pengukuran korelasi memiliki intuisi banding dan digunakan dalam berbagai teknik multivariat lainnya, mereka tidak menggunakan pengukuran similaritas dalam analisis cluster. Pengukuran jarak mengukur perbedaan secara aktual dengan nilai yang lebih besar yang menunjukkan kemiripan yang kurang.
Jarak dikonversi ke dalam pengukuran kemiripan dengan menggunakan inverse relationship. Beberapa pengukuran jarak yang tersedia ;
1.      Euclidean Distance
Sering diartikan sebagai straight-line distance. Euclidean Distance antara poin adalah kepanjangan dari hipotalamus dari segitiga yang benar yang dihitung dari formula dibawah figure. Euclidean distance, merupakan panjang sisi miring pada segitiga siku-siku yang dibentuk antara titik-titik, adalah ukuran paling umum digunakan.
2.      Squared (Absolute) Euclidean Distance
Jumlah dari perbedaan square tanpa mengambil square root. Euclidean Distance squared memiliki keunggulan dengan mengambil square root dimana kecepatan penghitungan ditekankan.
3.      Standardisasi
Digunakan ketika jangkauan atau skala satu variabel jauh lebih besar atau berbeda dari range yang lain.
4.      City-Block (Manhattan) Distance
Tidak berbasis pada Euclidean Distance. Sebaliknya, metode ini menggunakan jumlah perbedaan absolut dari variabeln namun mungkin mengarah pada cluster yang invalid apabila variabel yang dicluster terkorelasi tinggi.
5.      Mahalanobis Distance (D2)
Generalisasi pengukuran jarak yang menghitung korelasi antara variabel dengan membagi bobot sama rata. Keberadaan interkorelasi antara variabel pengelompokan: pengukuran yang sering dipakai menggunakan jarak Mahalanobis, yang menstandarisasi data dan juga menjumlahkan pooled dalam varians kelompok - matriks kovarians, mengkompensasi untuk interkorelasi antar variabel.
Ø      Association Measures (dengan data nonmetrik)
Pengukuran asosiasi dari similaritas menggunakan obyek yang dibandingkan dimana karakteristik pengukuran hanya nonmetrik. Sebuah pengukuran asosiasi dapat mengamati derajat persetujuan atau kecocokan antara tiap pasangan responden. Bentuk paling sederhana dari pengukuran asosiasi bisa berupa presentase persetujuan waktu yang terjadi diantara set pertanyaan.
Standardisasi data
Data yang dicluster bukan berarti skala yang sama yang harus distandardisasi meskipun dibutuhkan untuk menghindari instant dimana variable mempengaruhi solusi cluster yang lebih besar daripada yang seharusnya.
Standardisasi Variabel
Bentuk paling umum dari standardisasi adalah konversi tiap variable pada skor standar dengan mensubstraksi rata-rata dan membagi dengan standar deviasi tiap variable. Piliohan ini dapat ditemukan di tiap program computer dan banyak lainnya bahkan secara langsung masuk dalam prosedur analisis cluster. Ada dua manfaat utama standardisasi;
1.      Jauh lebih mudah untuk membandingkan antara variable karena mereka berada di skala yang sama,
2.      Tidak ada perbedaan terjadi dalam nilai standardisasi hanya saat skala berubah.
Menggunakan Standar Pengukuran Jarak
Pengukuran euclidean distance yang secara langsung terkait prosedur standardisasi adalah mahalanobis distance (D2). Pendekatan mahalanobis tidak hanya melakukan proses standardisasi pada data dengan menskala dalam standar deviasi namun juga menjumlahkan pooled within-grup variance-covariance dengan penyesuaian korelasi diantara variabel. Mahalanobis menggeneralisasi prosedur jarak yang dihitung dari sebuah pengukuran jarak antara obyek yang dibandingkan dengan R2 dalam analisis regresi.
Standardisasi observasi
Apabila kita ingin mengidentifikasi grup berdasarkan gaya respon mereka dan bahkan kontrol dari pola, kemudian tipe standardisasi melalui penghitungan Z score tidaklah cocok. Kasus within-case atau row-centering standardization dapat menjadi sangat efektif dalam menghilangkan efek gaya respon dan utamanya sangat cocok pada berbagai bentuk data sikap.
Pentingnya Standaridisasi
Standardisasi menyediakan perbaikan dari isu dasar dalam pengukuran simuilaritas, sebagian pengukuran jarak, dan berbagai penggunaan luas lainnya. Keputusan untuk menstandardisasi haruslah berdasarkan dua alasan, yaitu landasan empiris dan konseptual.yang merepresentasikan kedua obyektif riset dan kualitas empiris data.

Stage 3 : Asumsi Analisis Cluster
Cluster bukanlah teknik inferensial dimana parameter dari sampel dinilai sebagai representasi populasi. Analisis cluster adalah metode untuk mengkuantitatifkan karakteristik struktural dari susunan observasi.
Representatif Sampel
Outlier mungkin hanya sebuah undersampling dari grup divergen saat dibuang, memperkenalkan bias pada struktur estimasi. Semua usaha haruslah dibuat untuk menjamin bahwa sampel itu representatif dan hasilnya menggeneralisasikan populasi yang ingin diketahui.
Asumsi dalam Analisis Cluster
1.      Data dapat berupa metrik, nonmetrik, atau kombinasi keduanya.
Semua skala pengukuran dapat digunakan. Tetapi harus diperhatikan bahwa penggunaan kombinasi tipe data akan membuat interpretasi dari analisis cluster bersifat sangat tentatif/sementara. Peneliti harus berhati-hati menafsirkan kondisi ini.
2.      Analisis Cluster mengasumsikan bahwa sampel adalah benar-benar representasi dari populasi.
Outliers yang tidak mewakili penduduk harus dihapus.
3.      Multikolinieritas antar variabel dapat memiliki efek buruk pada analisis.
Multikolinearitas menyebabkan variabel terkait yang akan dibobot menjadi lebih berat, sehingga menerima penekanan yang tidak tepat dalam analisis. Satu atau lebih variabel yang sangat kollinear harus dihapus atau menggunakan ukuran jarak, seperti jarak Mahalanobis, yang mengkompensasi korelasi ini.
4.      Kelompok yang terjadi secara alamiah harus terdapat dalam data.
Ø      Analisis Cluster mengasumsikan bahwa partition dari observasi dalam kelompok saling eksklusif dan  memang ada dalam sampel dan populasi.
Ø      Analisis cluster tidak dapat memastikan keabsahan pengelompokan ini. Peran ini harus dilakukan oleh peneliti dengan :
ü      Memastikan bahwa pembenaran teoritis ada untuk analisis kelompok.
ü      Melaksanakan prosedur tindak lanjut untuk profiling dan discriminating antara kelompok.

Tahap 4 : Deriving Clusters dan Menilai Overall Fit
1.      Hierarchical clustering memiliki dua pendekatan yaitu Agglomerative Method dan Divisive Method.
Ø      Agglomerative method: dimulai dengan mengobservasi masing-masing cluster dan dengan setiap langkah menggabungkan observasi untuk membentuk cluster, hingga dicapai hanya terdapat satu cluster besar.
Ø      Divisive method: dimulai dengan satu cluster besar dan kemudian cluster tersebut dibagi menjadi cluster-cluster yang lebih kecil yang paling tidak mermiliki kesamaan/kemiripan.
2.      Clustering Algorithm
Clustering Algorithm untuk menentukan kesamaan antara multiple member cluster dalam proses clustering. Ada 5 pendekatan untuk pembentukan cluster dalam hierarchical clustering, yaitu :
a.       Single linkage - berdasarkan jarak terdekat antara obyek.
b.      Complete linkage - berdasarkan jarak maksimum antara obyek.
c.       Average linkage - berdasarkan jarak rata-rata antara obyek.
d.      Ward's method - berdasarkan jumlah kuadrat antara kedua cluster dijumlahkan dari semua variabel.
e.       Centroid method - berdasarkan jarak antara centroid cluster. Metode centroid memerlukan data metrik.
3.      Non hierarchical clustering menetapkan semua obyek dalam jarak set dari cluster seed ke cluster daripada proses tree-building hierarchical clustering.  Non hierarchical clustering memiliki tiga pendekatan:
1)      Sequential threshold - berdasarkan pada satu cluster seed yang telah dipilih dan membership dalam cluster dipenuhi sebelum seed yang lain dipilih.
2)      Parallel threshold - berdasarkan pada pemilihan cluster seed yang simultan dan membership jarak threshold disesuaikan untuk memasukkan lebih banyak atau lebih sedikit obyek dalam cluster.
3)      Optimizing  - sama dengan pendekatan yang laink\ kecuali memungkinkan membership reassignment dari obyek ke cluster lain didasarkan pada beberapa optimizing criterion.
4.      Meskipun tidak ada aturan yang ditetapkan untuk jenis clustering mana yang digunakan, disarankan agar menggunakan keduanya, baik hierarchical dan  nonhierarchial clustering algorithms.
1)      Tahap Pertama - sebuah analisis hierarchical cluster digunakan untuk menghasilkan dan profil cluster.
2)      Tahap Kedua - sebuah analisis nonhierarchical cluster digunakan untuk menyempurnakan cluster membership dengan kemampuan untuk berpindah. Dalam hal ini, centroid dari hierarchical clustering digunakan sebagai seeds untuk  nonhierarchical clustering.
5.      Tidak ada prosedur yang berlaku umum untuk menentukan jumlah cluster yang diambil. Penentuan jumlah cluster yang diambil didasarkan pada teori dan kepraktisan hasil. Beberapa metode yang paling umum digunakan untuk membantu analis menentukan berapa banyak cluster yang diambil adalah sebagai berikut:
Ø      Clustering coefficient - pengukuran jarak antara dua obyek yang digabungkan. Nilai aktual yang sebenarnya akan tergantung pada metode clustering dan ukuran kesamaan yang digunakan.
ü      Ukuran Koefisien menunjukkan homogenitas dari obyek yang digabungkan. Koefisien yang kecil menunjukkan kewajaran homogenitas dari obyek yang digabungkan, sedangkan koefisien yang besar adalah hasil dari obyek yang sangat berbeda yang digabungkan.
ü      Peningkatan yang besar (mutlak atau persentase) dalam clustering coefficient adalah indikasi dari bergabungnya dua cluster yang beragam, yang menunjukkan bahwa "kelompok alami" mungkin ada sebelum cluster adalah digabungkan. Ini kemudian menjadi salah satu solusi cluster yang potensial.
ü      Peneliti kemudian harus menguji solusi yang mungkin yang diidentifikasi dari hasil dan memilih satu sebagai yang terbaik untuk mendukung tujuan penelitian. Kesesuaian solusi ini harus dikonfirmasi dengan analisis tambahan.
Ø      Dendrogram - representasi pictorial dari proses clustering yang mengidentifikasi bagaimana observasi digabungkan menjadi setiap cluster. Sebagaimana garis penghubung cluster menjadi lebih panjang, cluster menjadi semakin berbeda.
Ø      Vertical icicle - pictorially menggambarkan jumlah obyek di bagian atas dan jumlah dari cluster turun ke samping. Kekosongan mewakili cluster dan X menunjukkan anggota per cluster.
6.      Ketika solusi cluster tercapai, peneliti harus memeriksa struktur dari setiap cluster dan menentukan apakah solusinya harus ditentukan kembali
7.      Penentuan kembali solusi mungkin diperlukan jika terjadi berbagai ukuran cluster atau cluster dengan hanya satu sampai dua observasi yang ditemukan.

Tahap 5: Interpretasi dari Cluster
Cluster centroid pada setiap variabel adalah dasar interpretasi yang paling umum.
·         Centroid Cluster mewakili skor rata-rata untuk setiap kelompok. Skor ini dapat digunakan untuk menetapkan label cluster.
·         Uji statistik (F statistik dan tingkat signifikansi dari setiap variabel) disediakan untuk menunjukkan perbedaan yang signifikan di seluruh cluster.
·         Hanya variabel yang signifikan harus dipertimbangkan dalam menafsirkan dan pelabelan clusters.
·         Profiling dari cluster dapat dihitung dengan analisis diskriminan, dengan memanfaatkan variabel yang tidak digunakan dalam analisis cluster.

Tahap 6: Validasi dan Profiling dari Cluster
1. Validasi melibatkan proses menganalisis solusi cluster untuk representasi dari populasi dan untuk generalisasi. Di antara metode yang tersedia adalah:
·         New, separate sample adalah cluster dianalisis dan dibandingkan.
·         Split the sample menjadi dua kelompok dan cluster menganalisis secara terpisah.
·         Mendapatkan cluster centers dari satu kelompok dan menggunakan mereka dengan kelompok lain untuk mendefinisikan cluster.
2. Profiling melibatkan penilaian bagaimana setiap cluster berbeda dengan cluster lain pada dimensi deskriptif yang relevan.
·         Hanya variabel yang tidak digunakan dalam analisis cluster yang digunakan dalam profiling. Sering kali, variabel yang digunakan dalam langkah ini adalah demografi, psikografis, atau pola konsumsi.
·         Analisis diskriminan adalah teknik yang sering digunakan.
3. Prediktif atau kriteria validitas dari cluster dapat diuji dengan memilih criterion variable yang tidak digunakan dalam analisis cluster dan melakukan pengujian untuk variabilitas yang diharapkan di seluruh cluster.

0 komentar:

Posting Komentar