友快網

導航選單

k-means、系統聚類和二階聚:三種聚類的異同與選擇| indienova推薦

作者:任儒峰   審稿:王鵬  封面:吉江

前面我們團隊分別講了k-means均值聚類、系統聚類和二階聚的理論和各類方法的SPSS實操,今天我們一起來回顧和總結三種聚類,分析它們的異同,分析它們的優劣以及告訴大家如何選擇。

1。回顧總結

(1)K-means均值聚類,採用歐式距離做為相似度指標,將相似度高的資料物件劃分為一類,透過反覆迭代計算新質心,並且樣本觀測所屬的類會不斷的調整,使得新質心與所有資料物件的平方誤差總和最小的一種迭代型快速聚類演算法,變數型別為連續型變數,需要主動設定分類數。

優勢:可快速處理大資料,簡單快速,可設定初始質心。

劣勢:為當資料量大或複雜時,給K值的設定增大了難度;初始質心的劃分對聚類結果有較大的影響;該演算法對於離群點,異常點是敏感的;由於K-means聚類演算法是跟據歐式距離來劃分,所以只能發現球狀簇。

(2)系統聚類,又稱層次聚類和譜系分析,透過度量資料之間的距離遠近,將資料分類,變數型別含有連續變數和分類變數,可以像k-means演算法一般,指定類別個數或限定類別個數範圍。

優勢:可以對個案聚類或者對變數聚類;類間距離計算方法多,可根據具體的情況具體使用(參見系統聚類的度量方法);可對資料轉化,標準化處理。

劣勢:不能同時處理兩種型別變數;相比快速聚類,當變數複雜和資料量大時,聚類速度較慢;單向聚類,個案被分入某類時,不能跳出。

(3)二階聚類,一種透過預聚類和聚類這兩步聚類來分析大型資料集的演算法,變數型別含有分類變數和連續變數,類別個數自動確定。

優勢:可同時分析連續變數和多個分類變數;可自動分析輸出最優的聚類數目;可處理大型資料集。

劣勢:分類變數較少時,容易受其分佈影響。

2。 如何選擇

學了各種聚類分析方法後,我們的同學可能會產生這樣的疑惑,那遇到要需聚類的資料物件,應該選擇那種聚類方法呢?首先,我們要了解資料物件的結構和我們對聚類的需求,換句話說,瞭解自己,目的明確。

例如我們的資料物件結構中,只包含有數值型變數,同樣我們對分類數量K值也有預期判斷,這時,可以用K-means均值聚類,系統會根據和這些分類點距離的遠近,把所有點分成K類。 如果我們的資料物件既包含樣品,也就是觀測值,又包含變數,需要根據觀測值來對變數聚類,而且,我們對分類數量又沒有預期判斷,這時可以選擇系統聚類,現實應用中,有將系統聚類和K-means快速聚類相結合使用,使用系統聚類確定的分類數和得到的質心,作為快速聚類的分類數和初始質心,使用系統聚類查出異常值,去除後,進行快速聚類,因快速聚類的劣勢之一是對異常值敏感,二者的結合可謂是取長補短。對於有些資料物件,既含有不止一種分類變數,又含有連續變數,當我們需要同時對分類變數和連續變數聚類時,此時,可使用二階聚類法,總而言之,需要大家多多練習,一是摸清分類方法,二是瞭解資料結構,三是清晰分類目的,結合實際情況選擇合適的分類方法。

加油各位,一起努力!

作者簡介

任儒峰

內蒙古農業大學

擅長聚類分析、時間序列分析

提==

學堂正在招募內容主筆、短影片創作者、課程講師,請在公眾號底部選單欄點選“招聘”瞭解詳情!

上一篇:1026瑜伽| 你們心裡不要憂愁,你們信神,也當信我啟示錄
下一篇:ufc第一巨星嘴炮遭ko,嘴炮與鑽石的第三次交手將於7月10日進行!