1.由巨型資料集組成
2.量(Volume,資料大小), 速(Velocity,資料輸入輸出的速度), 多變(Variety,多樣性)
3.概念為透過網路相互連接傳遞訊息與通訊後並協調它們的行為而形成的系統,把需要進行大量計算的工程資料分割成小塊,由多台電腦分別計算,再上傳運算結果後,將結果統一合併得出資料結論的科學。
大數據意旨資料的規模巨大,以致無法透過傳統的方式在一定時間內儲存、運算與分析。
大數據的特性可以歸類為「3V」,包括資料量 ( Volume )、資料類型 ( Variety ) 與資料傳輸速度 ( Velocity )。
1. 資料量 ( Volume )
無論是天文學、生物醫療、金融、物聯網間連線、社群互動....每分每秒都正在生成龐大的數據量,如同上述所說的 TB、PB、EB 規模單位。
2. 資料多元性 ( Variety )
舉一個簡單的例子:
|資料類型|0|0|1|0|0|1|0|0|0|.....
就算上述資料量高達 1TB,採用傳統統計方法仍能很容易地找到資料規律。
也因此,真正困難的問題在於分析多樣化的資料----從文字、位置、語言、影像、圖片、交易數據、類比訊號....等結構化包羅萬象的資料,彼此間能進行交互分析、尋找數據間的關聯性。
3. 資料即時性 ( Velocity )
大數據亦強調資料的時效性。隨著使用者每秒都在產生大量的數據回饋,過去
三五年的資料已毫無用處。一但資料串流到運算伺服器,企業便需立即進行分析,即時得到結果並立即做出反應修正,才能發揮資料的最大價值。
Hadoop 的核心概念可以區分為 MapReduce 與 HDFS。
MapReduce 是一種解決問題的程式開發模式,開發人員需要先分析處理問題的解決流程,找出資料可以平行處理的部份,也就是那些能夠被切成小段分開來處理的資料,再將這些能夠採用平行處理的需求寫成 Map 程式。
然後就可以使用大量伺服器來執行 Map 程式,並將待處理的龐大資料切割成很多的小份資料,由每台伺服器分別執行 Map 程式來處理分配到的那一小段資料,接著將每一個 Map 程式分析出來的結果,透過 Reduce 程式進行合併,最後則彙整出完整的結果。
HDFS 則是 Hadoop 提供的檔案儲存系統。其功能是將分散的儲存資源整合成一個具容錯能力、高效率且超大容量的 master / slave 架構的儲存環境,由 Name Node 與 Data Nodes 組成。
1. 大數據 ( Big Data,又稱巨集資料) 是邁向人工智慧不可或缺的一部分,它打破了以往傳統的統計方式,利用網路上無遠弗屆的資料量透過 Hadoop 軟體取得所需資料後,使用者就能清楚明確的知道要的資料是什麼。
2. 一般來說,大數據的特性分 5 種
1. 資料量 - 網路上大量、未經處理的資料
2. 資料流動速度 - 和電流、感測器等無時無刻變動的資料
3. 資料多樣性 - 非結構化且各式各樣的資料
4. 資料真實性 - 這些資料來源是否真實、重複
5. 資料價值性 - 這些資料是否具有參考價值
分散式檔案系統 Hadoop (HDFS) 是一套專門用來搜尋、分析大數據的軟體,它能夠計算網路上所有結點的位置並儲存,幫助使用者取得所需的資料。