39. 屬性萃取(feature extraction)是指將原始資料的屬性進行結合,以產生新的代理變數(surrogate variables),下列常用的降維(Dimension Reduction)方法何者「不屬於」屬性萃取的方式?
(A) 非負矩陣分解(non-negative matrix factorization)
(B) 因子分析(factor analysis)
(C) 集群(clustering)
(D) 類神經網絡之自動編碼器(auto-encoders)
答案:登入後查看
統計: A(3), B(1), C(7), D(1), E(0) #3219423
統計: A(3), B(1), C(7), D(1), E(0) #3219423
詳解 (共 1 筆)
#6332782
屬性萃取(Feature Extraction) 是指將原始變數轉換為新的代理變數(Surrogate Variables),以保留最重要的資訊,同時降低維度。這些方法通常會改變原始變數的表示方式,例如 PCA、Autoencoders、NMF、因子分析 等。
然而,某些降維技術並不會創造新的代理變數,而是將資料分組或分類,例如「集群(Clustering)」,這種方法比較偏向資料分群,而非特徵萃取。
選項分析
(A) 非負矩陣分解(Non-Negative Matrix Factorization, NMF)
✅ 屬於屬性萃取
- NMF 透過將原始數據矩陣分解為兩個較小的非負矩陣,以萃取新的特徵表示方式:
- 例如,應用於文本分析(Topic Modeling),將文件轉換為不同主題的權重。
- 用於影像處理時,可提取主要結構和特徵。
- NMF 會產生新的代理變數,因此屬於屬性萃取(Feature Extraction)。
(B) 因子分析(Factor Analysis, FA)
✅ 屬於屬性萃取
- 因子分析的目標是找到少數「潛在變數(Latent Variables)」來解釋數據中的變異性。
- 例如,在心理測驗中,可能用「智力」這個因子來解釋不同的測驗項目,而不是直接使用原始測驗分數。
- 因為因子分析會生成新的代理變數(因素),所以屬於屬性萃取方法。
(C) 集群(Clustering)
❌ 不屬於屬性萃取(本題答案)
- Clustering 是資料分群技術,而不是屬性萃取。
- 聚類方法(如 K-means, DBSCAN, 階層式聚類) 會將數據點分配到不同的群組,而不會改變數據的特徵空間。
- 不會創造新的數據變數,而只是給每個數據點分配一個群組標籤(如「A 類群、B 類群」)。
- 由於集群不會產生新的代理變數,而只是進行數據分類,因此不屬於屬性萃取。
(D) 類神經網絡之自動編碼器(Autoencoders)
✅ 屬於屬性萃取
- Autoencoders(自動編碼器)透過神經網路學習一組新的、壓縮的特徵來表示數據:
- 例如,輸入 100 維數據,Autoencoder 可能會學習到 10 維的低維表示(Latent Space)。
- 這些新的特徵變數是神經網路學習出的 壓縮表示(Compressed Representation),因此屬於特徵萃取。
- Autoencoders 會產生新的代理變數,因此屬於屬性萃取。
結論
✅ 屬於屬性萃取的降維方法(正確選項):
- (A) 非負矩陣分解(NMF)
- (B) 因子分析(FA)
- (D) 自動編碼器(Autoencoders)
❌ 不屬於屬性萃取(本題答案):
- (C) 集群(Clustering)(因為它只是將數據分群,而不會改變數據的特徵空間)
? 本題正確答案:「(C)」
0
0