發布時間:2021-12-23 16:02:22來源:轉載
隨著互聯網的飛速發展,特別是近年來隨著社交網絡、物聯網、云計算以及多種傳感器的廣泛應用,以數量龐大,種類眾多,時效性強為特征的非結構化數據不斷涌現,數據的重要性愈發凸顯,傳統的數據存儲、分析技術難以實時處理大量的非結構化信息,大數據的概念應運而生。今天我們來說說大數據的概念與特點。
大數據的概念與特點
大數據是一個較為抽象的概念,正如信息學領域大多數新興概念,大數據至今尚無確切、統一的定義。在維基百科中關于大數據的定義為:大數據是指利用常用軟件工具來獲取、管理和處理數據所耗時間超過可容忍時間的數據集。
IDC在對大數據作出的定義為:
大數據一般會涉及2種或2種以上數據形式。它要收集超過100TB的數據,并且是高速、實時數據流;或者是從小數據開始,但數據每年會增長60%以上。這個定義給出了量化標準,但只強調數據量大,種類多,增長快等數據本身的特征。研究機構Gartner給出了這樣的定義:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。這也是一個描述性的定義,在對數據描述的基礎上加入了處理此類數據的一些特征,用這些特征來描述大數據。
大數據有四個基本特征:
數據規模大( Volume) ,數據種類多( Variety) ,數據要求處理速度快( Velocity) ,數據價值密度低( Value),即所謂的四V特性。
這些特性使得大數據區別于傳統的數據概念。大數據的概念與“海量數據”不同,后者只強調數據的量,而大數據不僅用來描述大量的數據,還更進一步指出數據的復雜形式、數據的時間特性以及對數據的分析、處理等專業化處理,較終獲得有價值信息的能力。
(一)數據量大
大數據聚合在一起的數據量是非常大的,根據IDC的定義至少要有超過100TB的可供分析的數據,數據量大是大數據的基本屬性。導致數據規模激增的原因有很多,首先是隨著互聯網絡的廣泛應用,使用網絡的人、企業、機構增多,數據獲取、分享變得相對容易,以前,只有少量的機構可以通過調查、取樣的方法獲取數據,同時發布數據的機構也很有限,人們難以短期內獲取大量的數據,而現在用戶可以通過網絡非常方便的獲取數據,同時用戶在有意的分享和無意的點擊、瀏覽都可以的提供大量數據;其次是隨著各種傳感器數據獲取能力的大幅提高,使得人們獲取的數據越來越接近原始事物本身,描述同一事物的數據量激增。
(二)數據類型多樣
數據類型繁多,復雜多變是大數據的重要特性。以往的數據盡管數量龐大,但通常是事先定義好的結構化數據。結構化數據是將事物向便于人類和計算機存儲、處理、查詢的方向抽象的結果,結構化在抽象的過程中,忽略一些在特定的應用下可以不考慮的細節,抽取了有用的信息。
(三)數據處理速度快
要求數據的處理,是大數據區別于傳統海量數據處理的重要特性之一。隨著各種傳感器和互聯網絡等信息獲取、傳播技術的飛速發展普及,數據的產生、發布越來越容易,產生數據的途徑增多,個人甚至成為了數據產生的主體之一,數據呈爆炸的形式增長,新數據不斷涌現,增長的數據量要求數據處理的速度也要相應的提升,才能使得大量的數據得到有效的利用,否則不斷激增的數據不但不能為解決問題帶來優勢,反而成了解決問題的負擔。
更多培訓課程: 南京大數據 更多學校信息: 南京秦淮新街口達內IT教育培訓 咨詢電話: