| |
| 大數據浪潮過後的資料科學應用時代 |
 |
| 財團法人資訊工業策進會 吳君孝 |
| |
究竟甚麼是資料科學?在大數據的浪潮後,資料科學扮演的角色又是甚麼?依據維基百科定義,資料科學(Data Science)是從大量的結構性與非結構性資料中萃取知識,為資料探勘的延伸,也可以稱為知識發現或資料探勘。如同Drew Conway於2010年所提出的資料科學架構,資料科學有別於傳統的資料分析,由工程(Hacking Skills)、分析(Math & Statistics Knowledge)、領域(Substantive Expertise)三大面向所構成,強調「跨域合作」中所產生的新價值,如圖1所示。 |
| |
三構面各有各的需求與專長,唯有三者緊密結合才是資料科學,而最可怕的則是僅有「工程」與「領域」的結合,易於踏入資料科學上所忌諱的「危險區」,即對數字錯誤的組成及謬思的解讀,進而依據錯誤的結果,決定各種決策,如此比不進行決策更容易造成巨大的傷害。也因此,如何建立起正確的資料科學思維是相當重要的。
|
| |
| 在農業,社群媒體與糧食價格是否可能存在著關聯性?印尼,如同我國多數人習慣使用Facebook一樣,印尼則有不少人是屬於Twitter的愛好者,光是雅加達的使用者每天就發出超過九百萬則訊息。而其中有趣的是,印尼居民每當遇到天災人禍時,第一時間就會上Twitter表達自己的情緒。因此,Global Pulse Labs在2012年的研究計畫中,便藉由分析稻米價格波動以及Twitter使用者的貼文,來預測印尼的糧食危機。他們發現當關於稻米價格的推文越多,官方公布的稻米物價通膨指數也會隨之變高。 |
| |
| 那麼農業生產上又可以如何應用呢?歐盟主要玉米生產國之一的義大利,在2015年以後,便因長期乾旱而使收成一直低於往年。因此義大利的農業新創公司Omica,嘗試建構「微氣候實時監測機制」,並以場域實驗的方式選擇在義大利西北部山麓的玉米農場,期望能以資料應用提升生產力。在微氣候監測上,他們以無線感測器與獨立氣象站來收集監測資料,如溫濕度、氣壓、土壤溫濕度、葉面濕度、太陽輻射、雨量、風速、風向、衛星圖像等。再結合預測分析模式,發展「精準預測農業平台」來幫助農民進行灌溉規劃、精準施肥、預測作物產量等生產管理作業,藉由數據分析幫助他們能種的更好。 |
| |
| 另一方面,資料科學也相當適合應用在開放資料的活化上,在2015年我國台灣環境資訊協會的守護農地計畫中,由政治大學資訊科學系與新聞系學生組成的跨領域團隊,便嘗試應用農試所「土壤品質及生產力調查」的開放資料,與環保署「土壤及地下水列管場址」的開放資料進行套疊,建構「臺灣農地污染快篩機制」,如圖2所示,並提出兩項計算模式:距離指標與密度指標,期望能找出可能受到汙染,但尚未成為政府列管的超標農地。該研究雖尚缺乏專家知識及證據之解讀,但已充分展示其以資料驅動嘗試解決問題之資料科學精神。 |
| |
 |
| |
| 而在其他應用領域中,2015年筆者以我國的水質監測數據,建構「臺灣河川測站水質汙染預測模式」,該研究分析過去河川測站長期水質數據,並建立預測模式,最後運用視覺化技術,打造互動圖資模型。研究結果發現夏天水質汙染指數較高,而冬天的水質汙染指數較低,決策單位應注意的不僅是單點汙染指數的高低,而是其汙染指數變化趨勢。 |
| |
 |
| |
| 防疫保健領域中,我國疾病管制署參考新加坡的群聚地圖概念,並結合內政部統計區分類,推出「登革熱病例群聚地圖」,其應用設計了群聚分析、時序動態地圖、病例趨勢區間分析等統計分析模型,並再向前延伸至視覺化整合應用,讓防疫人員可了解每日疫情區域變化。 |
| |
 |
| |
| 農業如何跨域結合兩者,善用資通訊技術,以資料驅動概念,藉由資料科學,落實至農業領域,提升我國農業發展甚為重要。不論是田間管理、農產行銷、施肥、農藥噴灑與檢測、食安與農產安全、病蟲害問題、種原基因辨識、疾病預警、剩食問題等,何時種植、照料、收割等等,皆有資料科學可應用之處。如可藉由發展微氣候分析機制,以機器學習最佳化栽種模式;亦或探究蜜蜂活動與環境關係,預測蜜蜂品質與蜜源質量;以及發展病蟲害影像辨識模式,以建構農作物病蟲害特徵;或許都是未來農業資料應用可嘗試的方向。但請記得資料科學適合用於探索未知的領域,或是為既有問題帶來新的嘗試和解法,它更貼近資料、務實環繞於問題上,探討資料的可能應用,但並非所有問題的良藥,不應將其神話。農業的未來如果真正想讓資料應用回饋至農業本身,跨域溝通的開啟仍是重要關鍵,當跨域媒合、一同合作發展的空間或舞台打開,資料應用才有可能真正的激放出來。 |
| |