大數(shù)據(jù)能否破解數(shù)據(jù)造假難題?
林宣雄,1962年9月生,江蘇宜興人,西安交通大學(xué)環(huán)保大數(shù)據(jù)研究中心主任。1998年獲陜西省優(yōu)秀青年科技工作者稱號,1999年主持研發(fā)的“國家環(huán)境監(jiān)理信息系統(tǒng)”被確定為國家級火炬計(jì)劃項(xiàng)目,同年獲省優(yōu)秀軟件人才稱號;2003年獲首屆省優(yōu)秀青年科技創(chuàng)新獎;2008年承擔(dān)環(huán)境保護(hù)部節(jié)能減排核心重大軟件項(xiàng)目。長期從事環(huán)保物聯(lián)網(wǎng)技術(shù)研究及應(yīng)用。
環(huán)境監(jiān)測數(shù)據(jù)的真實(shí)性直接關(guān)系到環(huán)境管理和綜合決策。然而,目前的在線監(jiān)測數(shù)據(jù)造假已經(jīng)成為困擾環(huán)保部門的難題之一。近年來,大數(shù)據(jù)如同浪潮一般席卷全世界,直接帶來了科研、商業(yè)、政府運(yùn)作方式乃至人類思維方式的變革。很多人期待,環(huán)保大數(shù)據(jù)的應(yīng)用和發(fā)展能夠從根本上扭轉(zhuǎn)監(jiān)測數(shù)據(jù)造假局面。環(huán)保大數(shù)據(jù)可否發(fā)現(xiàn)、糾正數(shù)據(jù)造假?要推動環(huán)保大數(shù)據(jù)的發(fā)展和應(yīng)用還需突破哪些障礙?
對話人:西安交通大學(xué)環(huán)保大數(shù)據(jù)研究中心主任
林宣雄
采訪人:本報(bào)記者李瑩
大數(shù)據(jù)可否解決數(shù)據(jù)造假問題?
■可以通過環(huán)比、同比、類比,發(fā)現(xiàn)數(shù)據(jù)中的異動
中國環(huán)境報(bào):在線監(jiān)測數(shù)據(jù)造假已經(jīng)成為當(dāng)前環(huán)境管理工作中的一大難題。一些專家認(rèn)為,以大數(shù)據(jù)為代表的新技術(shù)可以破解這一難題。您怎么看?
林宣雄:我也這樣認(rèn)為,用大數(shù)據(jù)的分析方法可以發(fā)現(xiàn)在線監(jiān)測數(shù)據(jù)造假。其實(shí),這也是我的研究重點(diǎn)領(lǐng)域之一。
在解釋大數(shù)據(jù)如何破解在線監(jiān)測數(shù)據(jù)造假問題之前,必須先了解大數(shù)據(jù)的基本特征。
大數(shù)據(jù)是近年來的一個熱詞。什么是大數(shù)據(jù)分析?通俗地講,就是運(yùn)用一些數(shù)據(jù)分析軟件工具,對海量的、混雜的數(shù)據(jù)進(jìn)行分析,在融合豐富的實(shí)踐基礎(chǔ)上,運(yùn)用創(chuàng)造性思維,得出突破性的結(jié)論。大數(shù)據(jù)包括3個特征:一是具有海量的、混雜的基礎(chǔ)數(shù)據(jù);二是熟練運(yùn)用Hadoop和Spark等分析軟件工具;三是具有開放的、有創(chuàng)造性的思維方式。只有具備了這3項(xiàng),才能真正做好大數(shù)據(jù)分析。
大數(shù)據(jù)和以前的數(shù)據(jù)分析有3個明顯的區(qū)別:一是原來的數(shù)據(jù)分析針對部分樣本,大數(shù)據(jù)是所有的數(shù)據(jù)都要參與計(jì)算;二是大數(shù)據(jù)中,相關(guān)關(guān)系重于因果關(guān)系;三是大數(shù)據(jù)允許混雜數(shù)據(jù)甚至錯誤數(shù)據(jù)。
我們得到海量數(shù)據(jù)后,首先,要對這些數(shù)據(jù)進(jìn)行本體分析,即對其本身進(jìn)行分析,如污染源數(shù)據(jù)、環(huán)境質(zhì)量數(shù)據(jù)等。其次,要做擴(kuò)展分析,如分析清楚污染源數(shù)據(jù)和環(huán)境質(zhì)量有什么關(guān)系。第三,要做延伸分析,即將污染源數(shù)據(jù)、環(huán)境質(zhì)量數(shù)據(jù)和經(jīng)濟(jì)數(shù)據(jù)、人口數(shù)據(jù)、產(chǎn)業(yè)結(jié)構(gòu)的數(shù)據(jù)結(jié)合起來進(jìn)行分析。如果不做這些分析,就不算是大數(shù)據(jù)分析,或者說做不好大數(shù)據(jù)分析。
中國環(huán)境報(bào):您剛剛談到,大數(shù)據(jù)允許混雜數(shù)據(jù)甚至錯誤數(shù)據(jù),這是為什么?
林宣雄:大數(shù)據(jù)允許混雜數(shù)據(jù)甚至錯誤數(shù)據(jù)。這是因?yàn)椋髷?shù)據(jù)能夠通過造假數(shù)據(jù)的特征將其辨識出來。造假的數(shù)據(jù)和平常的數(shù)據(jù)不一樣,可以通過環(huán)比、同比、類比,發(fā)現(xiàn)數(shù)據(jù)中的異動,判斷企業(yè)是否存在數(shù)據(jù)造假行為。
目前,通過線上、線下數(shù)據(jù)對比,能夠迅速發(fā)現(xiàn)企業(yè)偷排行為。一個真實(shí)的案例是,某公司焦?fàn)t煙囪二氧化硫自動監(jiān)控?cái)?shù)據(jù)長期穩(wěn)定在20mg/m3。但現(xiàn)場人工監(jiān)測發(fā)現(xiàn),實(shí)際數(shù)據(jù)為100mg/m3~200mg/m3,檢查前后自動監(jiān)控?cái)?shù)據(jù)差距較大。經(jīng)調(diào)查證實(shí),企業(yè)擅自拔出部分二氧化硫測量探頭,使采樣孔漏氣,稀釋排放污染物,人為干擾采樣裝置、降低測量數(shù)據(jù),造成監(jiān)控?cái)?shù)據(jù)失真。針對公司的違法行為,環(huán)保局依法對企業(yè)下達(dá)了處罰決定書,對企業(yè)存在的超標(biāo)排放、干擾自動監(jiān)控?cái)?shù)據(jù)行為,分別給予6萬元、3萬元處罰,追繳2015年第一季度焦?fàn)t煙囪二氧化硫排污費(fèi),啟動按日計(jì)罰程序,公安局對涉嫌違法的主管人員和其他直接責(zé)任人作出了行政拘留10日的行政處罰。
目前,我們正通過分析數(shù)據(jù)異常波動為環(huán)保部門精準(zhǔn)執(zhí)法提供線索。例如,我們每周都要為浙江省嘉興市環(huán)保局提供一份在線數(shù)據(jù)出現(xiàn)異動的企業(yè)名單,環(huán)保局可以根據(jù)這份名單,有針對性地執(zhí)法檢查,執(zhí)法效率可大大提高。
中國環(huán)境報(bào):據(jù)您了解國外有沒有通過大數(shù)據(jù)研究,發(fā)現(xiàn)環(huán)保數(shù)據(jù)造假的案例?
林宣雄:目前,國外大數(shù)據(jù)在環(huán)保領(lǐng)域還沒有典型案例。這是因?yàn),一些發(fā)達(dá)國家的環(huán)境問題已經(jīng)得到了較好解決,而大數(shù)據(jù)的概念是這幾年才提出的。但大數(shù)據(jù)應(yīng)用在國外有一個經(jīng)典案例,值得借鑒。2009年,甲型H1N1流感暴發(fā)的幾周前,谷歌公司通過對運(yùn)用谷歌軟件搜索流感相關(guān)信息的人群進(jìn)行分析,成功地預(yù)測了流感在美國境內(nèi)的傳播,其分析結(jié)果甚至具體到特定的地區(qū)和州,并且非常及時,令公共衛(wèi)生官員倍感震驚。因?yàn)橥ǔ碚f,美國疾病控制中心要在流感暴發(fā)一兩周之后才可以做到這些。
大數(shù)據(jù)擁有如此大的威力,對于環(huán)境問題十分嚴(yán)峻的我國來說,其應(yīng)用意義更加巨大。將大數(shù)據(jù)應(yīng)用于環(huán)保領(lǐng)域,也將成為我國的一大創(chuàng)新。
基礎(chǔ)數(shù)據(jù)獲得方面急需哪些突破?
■首先要形成拉直、拉真、拉準(zhǔn)的機(jī)制
中國環(huán)境報(bào):要進(jìn)行大數(shù)據(jù)研究分析,前提是有海量數(shù)據(jù),F(xiàn)在我們具備大數(shù)據(jù)分析的基礎(chǔ)嗎?
林宣雄:近年來,環(huán)保物聯(lián)網(wǎng)的建設(shè)已經(jīng)為環(huán)境大數(shù)據(jù)分析提供了一定的基礎(chǔ)。什么是環(huán)保物聯(lián)網(wǎng)?通俗地講,就是將應(yīng)用在環(huán)保領(lǐng)域的傳感網(wǎng)掛接到互聯(lián)網(wǎng)上就構(gòu)成了環(huán)保物聯(lián)網(wǎng)。例如,各種環(huán)境監(jiān)測設(shè)備收集了大量的環(huán)境相關(guān)數(shù)據(jù),如COD排放量、SO2排放量、空氣質(zhì)量等,將這些數(shù)據(jù)傳到互聯(lián)網(wǎng)上,就形成了環(huán)保物聯(lián)網(wǎng)。
目前,我國的國控污染源已經(jīng)全部聯(lián)網(wǎng),僅污染源一類每年全國就有近50億條的基礎(chǔ)數(shù)據(jù)產(chǎn)生,這些數(shù)據(jù)為我們進(jìn)行大數(shù)據(jù)分析提供了一定基礎(chǔ)。
中國環(huán)境報(bào):據(jù)了解,目前我國地市級、縣級污染源聯(lián)網(wǎng)推進(jìn)工作并不十分順利,這是為什么?
林宣雄:目前的數(shù)據(jù)造假不僅是企業(yè)行為,也有政府行為。如今數(shù)據(jù)造假面臨的最大的難題是地方利益和中央利益的博弈。地方不愿意往上報(bào)數(shù)據(jù),不愿意讓中央知道地方的真實(shí)情況。
因此,要通過大數(shù)據(jù)防止數(shù)據(jù)造假問題,首先要形成拉直、拉真、拉準(zhǔn)的機(jī)制。拉直,是指地市級、縣級的環(huán)保數(shù)據(jù)要聯(lián)網(wǎng)到省、聯(lián)網(wǎng)到國家。如果數(shù)據(jù)不能拉直,就無法判斷數(shù)據(jù)是否造假。如果數(shù)據(jù)都是地方說了算,都爛在下面,也就無所謂真假了。拉直后要拉真,拉真的一個重要步驟是信息公開。數(shù)據(jù)上傳后,必須把它們亮出來、曬出來。最后才是拉準(zhǔn)。數(shù)據(jù)的準(zhǔn)和真是兩個層面的問題,如果一些儀器安裝的位置不合適,數(shù)據(jù)也會不準(zhǔn)。目前,數(shù)據(jù)聯(lián)網(wǎng)、實(shí)現(xiàn)拉直是最關(guān)鍵的問題。
中國環(huán)境報(bào):一些研究機(jī)構(gòu)反映,目前數(shù)據(jù)收集困難重重。您認(rèn)為,還有哪些方面需要突破?
林宣雄:數(shù)據(jù)收集難度大確實(shí)是很多研究者的障礙。如果能夠?qū)⒊鞘幸?guī)劃、經(jīng)濟(jì)發(fā)展等數(shù)據(jù)納入數(shù)據(jù)庫通盤分析,將會得到更加準(zhǔn)確的結(jié)論。只有用更加混雜的數(shù)據(jù),才能矯正錯誤的、混亂的數(shù)據(jù)。例如,電廠的排污數(shù)據(jù),可以通過用煤量、發(fā)電量等數(shù)據(jù)驗(yàn)證。
實(shí)際工作上,我們在污染源數(shù)據(jù)的收集過程中并未遇到很大困難,因?yàn)楹芏嗍∈协h(huán)保局正在應(yīng)用我們開發(fā)的環(huán)保物聯(lián)網(wǎng)軟件。但目前最需要的氣象、水文、經(jīng)濟(jì)等數(shù)據(jù)卻很難獲得。主要原因在于:一些部門把數(shù)據(jù)當(dāng)作部門的利益,不愿對外開放;一些部門怕暴露問題,不敢對外開放。
我認(rèn)為,互聯(lián)網(wǎng)的思維是開放的思維,數(shù)據(jù)必須要開放才能真正發(fā)揮作用。各部門收集到的數(shù)據(jù)都是國家的數(shù)據(jù),必須信息公開。在這方面,各部門都要打破阻隔。只有打破阻隔,將數(shù)據(jù)公開釋放出來,才能發(fā)揮數(shù)據(jù)的效用。
中國環(huán)境報(bào):對污染底數(shù)不清,也是環(huán)保數(shù)據(jù)利用的一個重大難題。您認(rèn)為,當(dāng)前有哪些數(shù)據(jù)急需收集?
林宣雄:污染源數(shù)據(jù)方面,目前只有末端的數(shù)據(jù),也就是排放口的數(shù)據(jù),缺乏過程的數(shù)據(jù)。如果有了生產(chǎn)過程的數(shù)據(jù),如來料數(shù)據(jù),用水、用電數(shù)據(jù)等,數(shù)據(jù)分析就能產(chǎn)生更大威力。此外,土壤方面相關(guān)數(shù)據(jù)也比較少。
中國環(huán)境報(bào):很多企業(yè)認(rèn)為,來料數(shù)據(jù),用水、用電數(shù)據(jù)涉及商業(yè)機(jī)密,如何平衡數(shù)據(jù)公開與保護(hù)商業(yè)機(jī)密的關(guān)系?
林宣雄:生產(chǎn)過程的數(shù)據(jù)對于民營企業(yè)來說,并不涉及商業(yè)機(jī)密。只是少數(shù)的軍工企業(yè)需要保密。在做相關(guān)分析時,并不需要工藝、發(fā)明等涉及商業(yè)秘密的相關(guān)數(shù)據(jù)。所謂商業(yè)機(jī)密,只是企業(yè)不愿意公開數(shù)據(jù)的借口。
大數(shù)據(jù)可否使數(shù)據(jù)分析更為科學(xué)?
■沒有大數(shù)據(jù)的創(chuàng)新思維,即使躺在大量的數(shù)據(jù)上,也不會有突破性的結(jié)果
中國環(huán)境報(bào):環(huán)境保護(hù)部近日表示,要大力提高數(shù)據(jù)采集、合成和綜合分析能力,提高環(huán)境管理的精細(xì)化水平,F(xiàn)實(shí)工作中發(fā)現(xiàn),如果沒有運(yùn)用科學(xué)的分析方法,即使有大量基礎(chǔ)數(shù)據(jù),也不能得出科學(xué)的結(jié)論。對此,您有何看法?
林宣雄:確實(shí)如此,F(xiàn)在很多人在談大數(shù)據(jù)的概念,但其實(shí)談的人多,做的人少,真正運(yùn)用互聯(lián)網(wǎng)思維解決實(shí)際問題的例子目前還不多。還有人認(rèn)為,只要運(yùn)用大數(shù)據(jù)就可以解決環(huán)境問題,這也是一個思維誤區(qū)。
一方面,大數(shù)據(jù)分析需要在大量基礎(chǔ)數(shù)據(jù)、大量實(shí)踐的基礎(chǔ)上進(jìn)行。沒有數(shù)據(jù)、沒有物聯(lián)網(wǎng)的高效運(yùn)轉(zhuǎn),大數(shù)據(jù)分析無從談起。
另一方面,在各種數(shù)據(jù)、各種技能都已掌握的基礎(chǔ)上,還要有大數(shù)據(jù)的思維。根據(jù)多年的實(shí)踐和對環(huán)保問題的深層理解,將混雜的數(shù)據(jù)融會貫通進(jìn)行思考,才能產(chǎn)生思維上的突破。如果沒有大數(shù)據(jù)的創(chuàng)新思維,即使躺在大量的數(shù)據(jù)上,也不會有突破性的結(jié)果。
現(xiàn)在很多地方都在做生態(tài)文明指標(biāo)體系、綠色創(chuàng)建指標(biāo)體系。但是,他們對指標(biāo)的運(yùn)用仍停留在傳統(tǒng)思維層面,沒有真正領(lǐng)會大數(shù)據(jù)的內(nèi)涵,沒有用系統(tǒng)的思維分析問題。我們近期也在做環(huán)境綜合指數(shù)的相關(guān)研究,在廣泛、持久、規(guī)模、專注實(shí)踐的基礎(chǔ)上,基于大數(shù)據(jù)進(jìn)行哲學(xué)思辨和創(chuàng)新思維。運(yùn)用分形(Fractal)理論,建立思維分析計(jì)算模型,反復(fù)進(jìn)行推演測算對攻反證,最終獲得了環(huán)保大數(shù)據(jù)研究的突破,就是所有的污染物排放控制都必須遵循環(huán)境黃金律,也就是環(huán)境容量和污染物排放的平衡點(diǎn)。
我認(rèn)為,在做數(shù)據(jù)分析時,必須運(yùn)用大數(shù)據(jù)思維,也就是系統(tǒng)思維,將所有的數(shù)據(jù)整合起來,找出內(nèi)在規(guī)律。否則,數(shù)據(jù)分析只是一種形式,并不能真正為決策提供科學(xué)依據(jù)。

使用微信“掃一掃”功能添加“谷騰環(huán)保網(wǎng)”