大數據的概念與背景 大數據是最近幾年才熱起來的一個概念。大數據熱大約在2012年前后在中國出現。其中,涂子沛先生的《大數據》一書起到了重要的作用。“除了上帝,任何人都必須用數據來說話”這句話,更是得到了時任廣東省委書記汪洋(現為國務院副總理)的高度肯定。 讀過這本書的人都知道:涂子沛關注的重點是大數據對政治、社會、倫理等方面的影響。后來,各家互聯網公司、IT公司將人們關注的熱點引向了商業領域,再經股評師的運作,使之成為全社會炙手可熱的概念。與此同時,學術界不失時機地將大數據的概念引入了工業界。 然而,工業界重視數據分析早已不是新鮮事了。人們很早就希望通過數據發現客觀規律、優化生產過程。而數據挖掘等理論也早已廣泛傳播。對數據挖掘的價值,一種流行的觀點是:當企業競爭進入白熱化、所有手段都已用盡時,數據挖掘提供了領先半步的可能。與現在的觀點相比,這個認識是相當低調的。當然,低調背后是有原因的,因為業界真正成功的案例其實非常少。 很多企業急于搭上“工業大數據”這趟快車,然而在現實中遇到了很多的困惑。 人們似乎都認為數據的作用很大,但從事過工業數據分析的人往往有這樣的體會:分析過程往往達不到預想的目標,數據似乎并不是傳說中的金礦。 這種困惑也體現在商務活動中。企業信息化建設原本應該遵循一個基本原則:用戶需求驅動系統開發。從事大數據業務的IT公司對用戶說:你說怎么做,我就怎么做;用戶卻說:我不知道能得到什么,也不知道該怎么做,最好你告訴我怎么做。 誰都不知道怎么做。于是,大家都被暢銷書的理念忽悠著做事。然而,暢銷書的觀點是正確的嗎? 暢銷書上的觀點往往對不上中國企業的現狀———或將商務大數據的應用場景套在工業大數據,或將未來的場景套用到現在。 工業大數據與商務大數據有什么不同? 現在關于大數據的流行觀點,幾乎都是針對商務大數據的。然而,許多觀點可能并不適合工業界。工業和商業至少有以下幾點不同: 可發現的新知識少。一般來說,發現新知識是大數據分析的一個重要目的。然而,在工業領域,人們對生產過程的研究一般比較深入,專業知識也很豐富,很難從數據中發現新的知識。與之相比,商務活動的大數據分析往往涉及人的喜好,這些恰恰是過去難以量化研究的,故而大數據的含金量高。 對分析結果的質量要求高。工業界對分析結果的精度和可靠度要求高。如果將不可靠、不精確的分析結果用于指導生產,不僅不能創造價值,甚至可能導致極大的損失。與之相比,在許多商務大數據的應用場景下,即便分析錯誤,損失也不大。 分析難度高。工業系統往往是復雜的人造系統,包含大量復雜的前饋和反饋環節。這意味著,變量間的相關性往往不是自然的因果關系。這個問題很容易誤導分析和決策的過程。另外,工業數據的信噪比往往比較低,分析結果很容易出現嚴重偏離事實的畸變(即所謂的有偏估計)。 相關性包含的信息少。在商務大數據中,數據之間的“相關性”本身往往就具有很大的參考價值,而在工業體系中則未必是這樣。 工業大數據體現價值的場景有哪些? 價值是用戶決定的。一杯水,放在沙漠里可以救命,剩在餐桌上就是垃圾。工業大數據也是一樣,能否創造價值,首先是要看用在什么場景中。用戶對工業大數據提不出需求,是客觀現實的真實反映。大數據有用,但合適的應用場景不一定是現在。下面分析幾個有用的場景: 質量要求高的生產場景。制造業從什么時候開始重視數據?顯然,當我們追求高質量、高穩定性的時候,數據會顯得非常重要,數據的價值才得以體現。國外先進企業追求6西格瑪,故而強調數據的重要性;國內許多企業一味追求低成本,數據的重要性自然就會低。 高度自動化及智能化的生產場景。在高度自動化和智能化的生產單元,人的介入很少,對質量的要求一般也很高。這時,對設備健康狀態和產品質量的自動監控就變得非常重要。 工業互聯網的場景。工業互聯網能使成千上萬用戶的數據實現共享。多個用戶的共享會帶來兩個過去無法企及的效果。首先是分析結果的可靠性上升。這得益于來自不同用戶的實例,可用于對分析結論的重復性認證。其次是分析結果可以在眾多的用戶中分享,以創造更大的價值。 在當今的中國企業中,符合上述要求的場景是不多見的。多數企業重視成本遠甚于質量,智能制造和自動化的水平低,工業互聯網尚未起步。由此可見,對中國多數企業來說,工業大數據的價值很可能只是“未來時”,雖然這個未來可能并不遙遠。 推進工業大數據現在該做啥? 馬云策劃淘寶的年代,那時學校的網速只有每秒100個字節———這件事啟發我們:機會往往發生在條件不太成熟的時候。所以,創新者的起步一定要早。在工業大數據全面應用之前,是我們培養能力、積累技術的時候。 但是,僅起步早是不夠的,關鍵還要走對路子。正如培根所說:“跛足而走對路的人,勝過健步如飛卻誤入歧途者。”怎樣盡早抓住機會呢?筆者認為,可以從以下幾個方面做起: 一是理解工業大數據的本質作用 對企業來說,大數據用得好壞的關鍵是看能否創造出高于成本的價值。所以,從功能的角度定義工業大數據:大數據是過程(生產制造、研發服務、采購銷售)痕跡的數字化記錄,目的是為“用數據說話”奠定基礎,是對已有系統所產生的數據的二次利用。 這意味著,工業大數據平臺的建設,應該高度重視數據的組織,避免遺漏重要的數據以及數據之間的聯系。例如,實時的設備狀態和工藝參數應該與所生產的產品準確對應,相關的時鐘不能混亂。 二是以方便“人”的分析為出發點 在商務大數據中,很多人強調機器學習,強調從大量數據中獲得規律性、重復性的知識。對于工業大數據,這種認識要做調整:工業知識主要來自人腦,數據的作用是對已有認識的確認、分辨與準確化。這就意味著,大數據平臺的要點是方便人從事分析工作。而人的分析工作往往是針對特定事件驅動的。 使得這些過程做到透明化,提高管理水平,通過更有效的管理創造效益。這樣,建立大數據平臺的一個重要任務是:讓相關過程顯性化,避免人陷落在信息和數據的海洋中,喪失關注的焦點。按照這個觀點,在工業領域,“知識自動化”的重點應該是知識的管理,而非知識的發現。 三是正確認識工業大數據的知識發現 如前所述,由于工業數據體現出來的規律性往往難以突破人已有的認識范圍,發現規律性的知識(如工藝與質量之間的關系)是比較困難的。然而,工業大數據往往適合發現另外一類知識,即從數據中提煉信息的知識,將物理量的檢測數據轉化成產品質量、能耗、效率、設備狀態等信息的“軟測量”算法,其實就是這種類型的知識。這些知識往往是生產技術人員并不熟悉的盲點。故而,從數據研究者的角度看,它們屬于容易出成績的領域。 過去,學術界對這些問題很熱衷,企業卻不重視,因為這種知識很難創造價值。不能創造價值的原因,是未能將其納入管理或者控制的流程中,故而創造價值的途徑不暢通。為此,企業可能會需要一個平臺,以便將這些知識轉化成數字化的模型,并納入生產制造等流程中,以便創造經濟價值。 四是注重與智能制造的結合 數字化、網絡化引發的智能制造大體是這樣一個邏輯:信息驅動知識,在決策過程中創造價值、體現智能。其中,信息來自供應鏈、客戶、智能設備、物聯網,知識表現為軟件化的模型,決策則包括自動或人工的管理與控制。 如前所述,工業大數據在這個邏輯中有兩個重要作用:獲取“從數據提煉成信息的知識”;決策和專業知識主要來自人腦,但需要用大數據將其驗證、矯正和精確化。 五是加強數據分析可靠性理論研究 在工業系統中,可靠分析的結果才有使用價值。可靠性分析原本是統計理論的重要組成部分。但用于大數據明顯是不合適的。這些理論的基本假設條件往往都是不成立的。而且,許多理論和著名觀點也造成了大量的誤導,如盲目強調分析結果的準確性、認為大數據強調相互關系而輕視因果等。 大數據的因果分析是個十分需要重視的領域,但過去主要是科學、哲學研究的范疇,統計學家對其重視不足。其實,可以從杜絕假象、通過證偽等思路來逼近因果。也就是說,重點分析那些容易導致錯誤結果的情況。同時,邏輯鏈的完整性和證據的獨立性也很重要。 數據的質量和完整性是導致分析錯誤的重要誘因。因此,建立大數據平臺時,不僅要關注數據本身,更要關注數據之間的對應性;不僅要關注數據是什么,還要關注數據的采集過程。數據的采集過程不同,意味著內涵發生了變化。如果數據質量不高,大數據很可能是一堆垃圾。這樣看來,盲從商務大數據“非結構化”的觀點也是不對的。
|