所屬科目:巨量資料概論
1.下列何圖表最適合用來表達連續型(Continuous)資料的分組? (A)長條圖 (B)圓餅圖 (C)直方圖 (D)散佈圖
2.下列何種抽樣方法可達到群內變異大、群間變異小之結果? (A)部落抽樣(cluster sampling) (B)系統抽樣(systematic sampling) (C)分層抽樣(stratified random sampling) (D)簡單隨機抽樣(simple random sampling)
3.甲袋有 2 個白球、8 個紅球,乙袋有 7 個白球、3 個紅球,某人從甲乙兩袋中任選一袋,假設 他選中甲袋的機率為 1/3,選中乙袋的機率為 2/3,再從選出的袋子中隨機取一球,已知取出 一白球,此白球是從甲袋取出的機率為下列何者? (A) 1/8 (B) 2/9 (C) 1/3 (D) 8/15
4. NoSQL 資料庫的優點包含下列何者?①具備 ACID 特性、②資料可以自由格式儲存、③可水 平擴充來擴大規模、④每筆資料的長度必須一致 (A) ①② (B) ②③ (C) ③④ (D) ①④
5.有關 Hadoop 分散式檔案系統(HDFS),下列何者為其最主要特點? (A)儲存大量小檔案 (B)具有高容錯率 (C)低寫入延遲 (D)支援即時查詢
6.有關 Python 常用的 pandas 資料處理函式,下列何者有誤? (A) isnull()可用來檢查資料框空值的資料格 (B) duplicated()可用來檢測重複的記錄 (C) drop()可用來刪除資料框的列資料/行資料 (D) drop_duplicated()可用來刪除重複的記錄
7.有關 R 語言的用法,下列敘述何者有誤? (A)函數 names()用於取得或設定物件的名稱 (B)函數 typeof()從 R 語言內部的觀點,傳回物件的類型 (C)函數 class()從物件導向程設的觀點,傳回物件的類型 (D)可用函數 names()來查詢 matrix 物件橫列 Rows 及縱行 Columns 的名稱
8.有關資料匯入與匯出,下列敘述何者有誤? (A)針對來源資料量設計資料萃取(Extract)方式,如將大檔案切分為數個小檔案後萃取 (B) ETL 作業常有上下游作業關係,因此需要設定好相互關係(Job Dependency)與執行順序 (C)關聯式資料庫之 ETL 可一次執行多個大資料表(Table)關聯(Join),讓資料一次寫入目的地 (D)當 ETL 發生錯誤時,規劃良好的 ETL 具有分階段重新執行能力(Re-run),不用每次都從頭 開始
9.若A、B兩事件獨立,且 P( A ) = 0.4, P( B ) = 0.6,A事件或者B事件發生的機率,下列何者正確? (A)介於 0.65~0.75 之間(B)介於 0.75~0.85 之間 (C)介於 0.85~0.95 之間 (D)大於 0.95
10.混淆矩陣(Confusion Matrix)包含真陽性(True Positive, TP)、真陰性(True Negative, TN)、偽陽性 (False Positive, FP)、偽陰性(False Negative, FN),下列何者對應於統計上的型 I 錯誤? (A) TP (B) TN (C) FP (D) FN
11.巨量資料分析的資料屬性,下列何者與其他屬性差異最大? (A)路況車流分析 (B)股市趨勢分析 (C)社群網路分析 (D)環境感測資料分析
12.下列何者為資料清洗之目的? (A)增加資料多樣性 (B)提高資料一致性 (C)優化模型執行速度 (D)確保資料存儲高效性
13.進行巨量資料分析前,要先對原始資料做缺失值檢查與處理,下列何種方法最不適當? (A)最小值補值法 (B)刪除含有缺失值的資料 (C)用預測模型來預測並填補缺失值 (D)用某固定值(如中位數或平均數)填補缺失值
14. Hadoop 與 Spark 皆為開放原始碼架構,兩者最大的差異為下列何者? (A) Hadoop 處理大量小檔案,Spark 處理小量大檔案 (B) Hadoop 內建機器學習程式庫,Spark 與外部程式庫整合以提供機器學習功能 (C) Hadoop 以多台電腦組成叢集進行平行分析,Spark 於記憶體內處理以快速分析 (D) Hadoop 具有基本的安全功能,Spark 具有強大的安全功能、儲存加密和存取控制
15.有關智慧電網之敘述,下列何者正確? (A)電網架構分發電、輸電、配電、售電 (B)落實智慧電表布建即為智慧電網 (C)改善輸電網之效能,不包含整合新能源 (D)以資通訊蒐集用電資訊,無節能減碳之功效
16.有關智慧電網的目標,下列何者正確? (A)提高能源效率 (B)強化傳統能源 (C)減少用戶用電 (D)減少再生能源利用
17.智慧電網的通訊層不包含下列何項? (A)智慧電表基礎建設(AMI) (B)家庭區域網路(HAN) (C)個人區域網路(PAN) (D)廣域網路(WAN)
18.智慧電網中使用的 IEC 61850 標準之主要範圍,下列何者正確? (A)安全傳輸協議 (B)能源儲存技術 (C)太陽能板的安裝 (D)電力設備間的通訊協定
19.下列何者為能源管理系統最主要之功能? (A)設備維護 (B)減少能源消耗 (C)便利電費繳納 (D)優化電力供需平衡
20.再生能源的高滲透率對傳統電力系統的挑戰,下列何者有誤? (A)增加儲能設備的依賴 (B)增加電網的穩定性需求 (C)增加用戶端的用電需求 (D)需強化電網以應對間歇性電力供應波動
21.微電網(Microgrid)與虛擬電廠之主要差異,下列何者有誤? (A)微電網是在地化的電網,虛擬電廠是一個虛擬平台 (B)微電網依賴發電與儲能裝置,虛擬電廠依賴物聯網技術 (C)微電網主要用於局部區域的能源自主,虛擬電廠主要用於優化大範圍內的能源資源 (D)微電網於主電網故障時自動斷開,虛擬電廠於主電網故障時透過物聯網技術優化資源運行
22.下列何項技術可於電力需求高峰時協助電網穩定? (A)火力發電 (B)需量反應 (C)資源規劃 (D)孤島運轉
23.有關分散式能源(DER)之縮寫,下列何者正確? (A) Direct Energy Recovery (B) Digital Energy Resources (C) Dynamic Energy Regulations (D) Distributed Energy Resources
24.有關防止或減少過度擬合(Over-fitting),下列敘述何者有誤? (A)使用正則化(Regularization) (B)使用集成方法(Ensemble Methods) (C)提高模型複雜度以滿足資料分布 (D)資料增強(Data Augmentation)以擴大資料集
25.有關 K-means 分析之說明,下列何者正確? (A) K 表示平均數之值 (B)屬分割式分群的方法 (C)追求群內距離最大化 (D)追求群間距離最小化
26.有關決策樹(Decision Tree)機器學習演算法之敘述,下列何者有誤? (A)決策樹內部節點是提供分類時特徵值的判斷 (B)決策樹樹葉節點(Leaves)是標示資料分類別的結果 (C)決策樹的分類需要將所有訓練資料集的資料正確分類 (D)隨機森林(Random Forest)是整合多個小決策樹以進行資料分類
27.下列何者非屬巨量資料的「3V」特徵之一? (A) Validity(有效性) (B) Variety(多樣性) (C) Velocity(速度) (D) Volume(資料量)
28.有關分散式能源與虛擬電廠,下列敘述何者正確? (A)虛擬電廠集中所有發電資源 (B)用戶負載不屬於虛擬電廠之資源 (C)虛擬電廠以再生能源為主,搭配燃煤發電 (D)虛擬電廠協同多個分散式能源提供穩定電力
29.在隨機梯度下降(SGD),下列何技術可加快收斂並避免局部最小值? (A) L2 正則化(L2 regularization) (B)學習率衰減(Learning Rate Decay) (C)動量(Momentum) (D)提升樹(Boosting)
30.有關特徵擷取,下列何方法是基於統計指標,不依賴特定的機器學習模型? (A)嵌入法(Embedded Method) (B)過濾法(Filter Method) (C)主成分分析(PCA) (D)包裝法(Wrapper Method)
31.有關卷積神經網路(CNN),圖像的重要特徵於下列何者提取? (A)卷積層(Convolutional Layer) (B)掩碼層(Masking Layer) (C)池化層(Pooling Layer) (D)全連接層(Fully Connected Layer)
32.有關卷積神經網路(CNN)之基本概念,下列何者有誤? (A)可應用於人臉辨識、語音辨識等 (B)池化層會使用到 ReLU 之激勵函數 (C)運作流程為輸入→特徵擷取→分類辨識 (D)完全連接層的神經元與前一層中的所有啟用都有聯絡
33.所謂 V2G(Vehicle-to-Grid)技術,下列何者正確? (A)減少車輛之能源消耗 (B)優化電動車充電排程 (C)透過充電控制提高電網穩定 (D)允許電動車將電力傳送至電網
34.有關兩事件 A、B 之關聯式規則(Association Rule),下列敘述何者有誤? (A) Apriori 演算法為代表性演算法之一 (B)事件 A、B 順序的調換對支持度(support)不會有影響 (C)事件 A、B 順序的調換對信心度(confidence)不會有影響 (D)提升度(Lift)反應 A、B 的關聯性,表示當事件 A 發生的情況下,同時發生事件 B 的可能性
35.有關關聯分析的 FP-Growth 演算法,下列敘述何者有誤? (A)著重頻繁項目的增長 (B)執行較 Apriori 演算法慢 (C)是一無生成候選項目集的頻繁項目集探勘方法 (D)建構高度緊湊的資料結構(FP-tree)來壓縮原始交易資料
36.有關於機器學習之敘述,下列何者正確? (A)主成分分析法(PCA)是用於資料之降維 (B)監督式學習之演算法有羅吉斯迴歸和 K-means 等 (C)非監督式學習可協助我們辨別出照片上的動物是貓還是狗 (D)用人力對訓練資料做特徵標籤,嘗試錯誤的學習方法,是強化學習的特色
37.有關隨機森林(Random Forest)進行離散型分類評估之敘述,下列何者有誤? (A)根據森林中每一棵樹評估結果,取平均做為最後投票結果依據 (B)根據森林中每一棵樹評估結果,取眾數做為最後投票結果依據 (C)根據森林中每一棵樹評估結果,隨機取 1 棵樹的結果做為最後投票結果依據 (D)根據森林中每一棵樹評估結果,隨機取 k 棵樹的結果做為最後投票結果依據(E)一律給分
38.有關人工智慧與生成式人工智慧的主要差異,下列敘述何者有誤? (A)常用的語音助手(如 Siri、Alexa)即屬生成式人工智慧之應用 (B)生成式人工智慧是人工智慧的子集合,涵蓋的技術範圍較窄 (C)自動駕駛系統運用人工智慧技術,而非生成式人工智慧技術 (D)支持向量機(SVM)屬人工智慧的模型,生成對抗網路(GAN)屬生成式人工智慧的模型
39.在使用支持向量機模型時,下列何種核函數最適合處理非線性資料? (A)角度核(Angular Kernel) (B)線性核(Linear Kernel) (C)多項式核(Polynomial Kernel) (D)高斯徑向基核(RBF Kernel)
40.有關簡單線性迴歸之敘述,下列何者有誤? (A)可透過最小平方法優化線性迴歸模型 (B)離群值不會對線性迴歸模型造成影響 (C)透過 Q-Q 圖可看出殘差是否正常分佈 (D)線性迴歸方程式之繪圖並非一定是直線
41.下列何評估指標最適合用在不平衡資料集之模型評估? (A) F1-score (B) Precision (C) Recall (D) ROC-AUC
42.區塊鏈技術於智慧電網中可提供下列何種服務? (A)增加電力需求 (B)減少網路流量 (C)減少再生能源使用 (D)能源交易透明化
43.下列何種情境最適合使用層次式集群(Hierarchical Clustering)方法? (A)資料呈線性分佈 (B)資料集規模非常大 (C)需事先定義集群數量 (D)欲保留集群過程中的資料關聯
44.下列何者非屬交叉驗證(Cross Validation)之主要用途? (A)避免過度擬合(Over-fitting) (B)尋找模型適合的參數 (C)使用不同的資料組合驗證訓練模型 (D)讓兩人以上相互檢驗資料的正確性
45.下列何者可能影響高維資料之特徵選擇效果? (A)欠擬合 (B)梯度消失 (C)多重共線性 (D)隨機初始化問題
46.深度學習模型中,下列何激活函數最適合解決梯度消失的問題? (A) ReLU (B) Tanh (C) Sigmoid (D) Softmax
47.訓練深度學習模型時,下列何者為當學習率過大最可能導致的結果? (A)模型收斂速度過慢 (B)模型無法收斂或收斂到次優解 (C)模型權重更新過小,無法收斂 (D)模型精確度過高,導致過度擬合
48.下列何技術用於同時進行降維與特徵選擇的正則化方法? (A) Lasso 迴歸 (B) Ridge 迴歸 (C) K-means (D) K-Nearest Neighbors
49.下列何者非屬資料倉儲的特性? (A)主題導向 (B)經過整合 (C)需經常修改 (D)依循時間變動
50.下列何者不適用於資料的相關性分析? (A)卡方檢定 (B)變異係數 (C)共變異數 (D)相關係數