友快網

導航選單

大資料分析的基礎資料從哪裡來?

在現在的資料技術時代中,資料有著不可替代的地位,拋開資料談大資料服務就是瞎扯,沒有資料作支撐的大資料平臺就是一個空殼。資料是一切資料分析、資料探勘、大資料處理、Ai演算法的核心。絕大多數公司或者組織做大資料處理時,他們的資料來源於:裝置收集、資料庫、日誌、爬蟲等等。當然如果是學術或者個人做大資料處理的研究的話,資料還經常可能來源於:開源資料集、模擬資料等等。

隨著工業網際網路的飛速發展,近年來機器裝置聯網已經不再是個新概念,其產生的資料逐漸成為工業大資料的主要來源。機器裝置互聯資料主要是製造企業生產裝置在聯網執行的狀態下,平臺實時收集的生產過程中的操作與執行狀況、工況狀況、環境引數等能夠展現裝置實際執行狀況的資料。此資料不僅是工業網際網路權威的資料,還是狹義的工業大資料的代表。

來自感應器、量表和其他設施的資料、定位/GPS系統資料等。這包括功能裝置會建立或生成的資料,例如智慧溫度控制器、智慧電錶、工廠機器和連線網際網路的家用電器的資料。來自新興的物聯網(Io T)的資料是機器和感測器所產生的資料的例子之一。來自物聯網的資料可以用於構建分析模型,連續監測預測性行為(如當感測器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查裝置)等。

能夠上網的智慧手機等移動裝置越來越普遍。行動通訊裝置記錄的資料量和資料的立體完整度,常常優於各家網際網路公司掌握的資料。移動裝置上的軟體能夠追蹤和溝通無數事件,從運用軟體儲存的交易資料(如搜尋產品的記錄事件)到個人資訊資料或狀態報告事件(如地點變更即報告一個新的地理編碼)等。

爬蟲是一種透過模擬正常人瀏覽訪問網站的一類程式,它透過模擬正常人訪問網站,從而達到獲取該網站資料的目的。爬蟲是一種透過模擬正常人瀏覽訪問網站的一類程式,它透過模擬正常人訪問網站,從而達到獲取該網站資料的目的。

在大資料技術風靡起來前,關係型資料庫(RDMS)是主要的資料分析與處理的途徑。許多公司的業務邏輯資料都是存放在關係型資料庫中。比如一個電商網站,你購買了一件商品,發生的這種行為絕對會生成一條資料在資料庫中。比如你收藏了一件商品、退貨了一件商品等等這種行為都會被記錄到資料庫中。發展至今資料庫技術已經相當完善,當大資料出現的時候,行業就在考慮能否把資料庫資料處理的方法應用到大資料中。

另外如企業資源計劃、傳統工業設計及製造類軟體、產品生命週期管理系統、供應鏈管理系統、環境管理系統及客戶關係管理系統都能產生企業相關經營業務資料。這些系統產生的資料涵蓋了大量的企業產品研發、生產、經營、環境、物流供應及客戶資料等資訊,這些資訊是工業製造業領域的資料資產,隨著工業網際網路的發展,其應用環境也在逐漸擴充套件。

上一篇:『嫦娥五號』攜帶2公斤土壤, 迴歸地球后, 卻“慘遭”人們嫌棄!
下一篇:小米MIX 4即將釋出,屏下攝像頭+MIUI13