這些年,大數據作為一個時髦概念,出現頻率很高,關注度也很高。它不隻是一項數據存儲技術,而是一係列和海量數據相關的抽取、集成、管理、分析、解釋技術,是通過獲取、存儲、分析,從大容量數據中挖掘價值的一種全新的技術構。
大數據的處理過程可以分為大數據采集、存儲、結構化處理、隱私保護、挖掘、結果展示(發布)等。各種領域的大數據應用一般都會涉及到這些基本過程,但不同應用可能會有所側重。
選擇合適的大數據技術平台應當考慮以下因素:
(1)平台的集成度
好的平台應該具有較高的集成度,為用戶提供良好的操作界麵,具有完善的幫助和使用手冊、係統易於配置、移植性好。同時隨著目前軟件開源的趨勢,開源平台有助於其版本的快速升級,盡快發現其中的bug,此外,開源的架構也比較容易進行擴展,植入更多的新算法,這對於最終用戶而言也是比較重要的。
(2)平台的功能與性能
由於不同平台側重的功能不同,平台的性能也就有很多需要考察的方麵。比如對於存儲平台來說,數據的存儲效率、讀寫效率、並發訪問能力、對結構化與非結構化數據存儲的支持,所提供的數據訪問接口等方麵就是比較重要的。對於大數據挖掘平台來說,所支持的挖掘算法、算法的封裝程度、數據挖掘結果的展示能力、挖掘算法的時間和空間複雜度等,是比較重要的指標。
(3)是否符合技術發展趨勢
大數據技術是當前發展和研究的熱點,其最終將走向逐步成熟,可以預見在這個過程中,並非所有的技術平台都能生存下來。隻有符合技術發展趨勢的技術平台才會被用戶、被技術開發人員所接受。因此,一些不支持分布式、集群計算的平台大概隻能針對較小的數據量,側重於對挖掘算法的驗證。而與雲計算、物聯網、人工智能聯係密切的技術平台將成為主流,是技術發展趨勢。