汪群超 Chun-Chao Wang

Dept. of Statistics, National Taipei University, Taiwan

SML/Lesson 5: 主成分分析的原理與實驗


習題 1:有一組資料來自義大利某個地區三個紅酒製造商所產的紅酒,資料內容包括的 178 支紅酒的 13 種化學成分。利用這組資料回答下列問題:(下載 Wine.xlsx

  1. 繪製變數間的相關係數圖,以觀察變數間是否存在相關性,參考如圖一(或其他類似的圖)。

  2. 繪製一張含每個化學成分(變數)的盒鬚圖(Boxplot),觀察每個變數的 scaling,作為是否標準化的參考,參考如圖二上排。

  3. 進行主成分分析,繪製特徵值由大而小的分布與 scree plot。參考如圖二中排。

  4. 資料中的每支酒都有標籤(label),代表來自哪個酒莊。假設先不看這項標籤。利用主成分分析取得前兩項成分,並繪製其散布圖。如圖二下排左。是否可以從兩個主成分的散布圖中看出三個群組?請注意:資料是否先做標準化可能會影響結果,試著觀察做與不做標準化的差別。

  5. 再依據每個資料的標籤,為每個在散布圖上的資料點塗上顏色,如圖二下排右。

  6. 如果採三個主成分,則可繪製如圖三與圖四的立體圖。觀察圖三、四是否比圖二具備更好的群組分辨能力。請嘗試旋轉立體圖的角度以取得最好的辨別視野。

  7. Z_1Z_2 都是從原變數組合而成的新變數,可否從 Z_1Z_2 的組成係數,如式 (10),看出原變數哪個比較重要?哪個比較不重要?若再與原變數間的相關係數圖對照,是否透露相同的訊息。請提出你的觀察心得。

建議先自己嘗試回答以上問題,再參考 sklearn 網站的範例程式與說明

圖一、變數間的相關係數矩陣圖
圖二、盒鬚圖(上排)、特徵值(中排)與前兩個主成分(下排)
圖三、考慮三個主成分的散布圖:角度 1
圖四、考慮三個主成分的散布圖:角度 2

習題 2:重複習題 1 的問題,資料則是同樣來自 sklearn.datasets 的一組關於乳癌患者腫瘤的影像量測資料。量測變數 30 個,樣本數 569 位患者,區分為兩個群組,分別是 Malignant(惡性腫瘤)與 Benign(良性腫瘤)。請注意,由於變數多,因此如前一練習的相關性圖,必須做些改變。

資料的細節與下載方式詳見: sklearn.datasets.load_breast_cancer

商學院  7F16
ccw@gm.ntpu.edu.tw
(02)8674-1111 
ext 66777

部落格統計

  • 122,290 點擊次數