農業資訊科技應用發展電子報 103年第四季第32期
訂閱電子報 回顧電子報 客服信箱

【專題報導一】鉅量資料及其在農業生產上之應用潛力(下)

文/圖 行政院農業委員會農業試驗所楊純明博士

鉅量資料的分析與處理原則

隨著資訊技術(information technology; IT)的發達及相對應軟硬體之精進,如今鉅量資料的分析、處理與應用成為了「資料科學(data science)」的新顯學,包括了從資料分析(data analytics)、資料整合(data integration)至資料呈現(data visualization)等內涵在內,也牽涉如資料運算處理、機率模式、電腦程式、資料管理、整合資訊呈現等技術。

資料科學早期又被稱為資料學(datalogy),Peter Naur於1960年以此名詞取代電腦科學(computer science),並於1974年出版 'Concise Survey of Computer Methods'專書,終於International Federation of Classification Societies(IFCS)在 1996 年東京雙年會議上正式使用而定義為研究自資料(data)中萃(提)取知識(knowledge)之科學。著名的美國華裔統計學者Professor C. F. Jeff Wu(吳建福教授)再於1998年建議將統計學(statistics)改稱為資料科學,他認為統計工作基本上乃為資料收集、分析、模式化等過程,達到最終的問題解決及制定決策 (Wu 1998)。Cleveland (2001)出版 "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics" 乙文介紹資料科學為一獨立學科,融合統計學及先進資料運算發展,涵括模式與資料分析法(models and methods for data)、跨學門調查(multidisciplinary investigations)、資料運算(computing with data)、資料教育學(pedagogy)、評估工具(tool evaluation)及資料科學理論(theory)等六項領域而奠定了其範疇。當前有關資料科學的學術研究,則有運算雲(cloud computing)、資訊與資料庫整合(databases and information integration)、信號處理(signal processing)、語言處理與資訊萃取(language process and information extraction)、電腦視覺(computer vision)、資訊檢索與網路資訊存取 (information retrieval and web information access) 及從社交與資訊網絡中挖掘知識(knowledge discovery in social and information networks)等多項,另有Data Science Journal(2002起)、The Journal of Data Science(2003起)等學術期刊。前後經 過了近40年的歷程,目前從資料科學發展出來的技術,已深深影響當前資料存取及跨域資料研究,如生物科學、醫療資訊、社會科學及人文科學之間的交流互動俱已見成果。

資料的處理與管理依照資料的屬性與規模,可能有不同的對應方法,重點在於合適的「處理(processing)」與有效的「管理(management)」,也許需要以下若干項的考量: (1)未有適當結構資料管理(unstructured data management)、(2)資料架構與設計(data architecture and design)、(3)資料品質的管理(data quality management)、(4)資料經理(data governance)、(5)資料倉儲與商業智能(data warehousing and business intelligence)、(6)資料庫行政管理(database administration)、(7)資訊呈現(information presentation)及(8)發展線上交易流程(online transaction processing development)等(圖1)。欲研擬鉅量資料計畫應當有此認知與規劃,才能夠定位、聚焦計畫重點,而身為鉅量資料的專家或經理人員亦必須熟知此等作業,如此才能正確的尋找(find)、組織(organize)、清理(clean)、分門別類(sort)及轉移(move)資料,作出合適處理與有效管理。

圖1、Management and processing of data information(本研究整理)

圖1、Management and processing of data information(本研究整理)

至於籌建資料科學的應用平臺來利用鉅量資料,更非憑一人之力可完成,而當組成專業團隊來協同執行。此團隊需要有組織或單位的支持,人力、經費與設備(施)的長期提供,以維持長久或永續的運作。至少需要具備如圖2所列舉之元素,以獲得完整而實務上的應用落實,不同的專業處理不同的問題,而且需要配合科技的進展更新予新技術、新工具與新作業方向。平臺的建立,從資料處理流程架構至資料格式與結構,從資料的處理與交換至處理結果的呈現與輸出,皆必須緊密結合串連方能提供使用者/需求者合理而有效的解決方案/有意義的處理結(資訊)。這樣產生的結果與新資訊,才是有價值而可實用的見解(valuable, actionable insights),讓使用者/需求者作出較佳的決策。

圖2、The context of data science (Wikipedia 2014)

圖2、The context of data science (Wikipedia 2014).

鉅量資料的農業應用層面與價值

經由上述可知鉅量資料的應用十分多元,從生物與醫學、物理與天文、經濟與社會、電腦與通訊、遙測與感測、地理與氣象、直至軍事與科學等領域均可納入,應用範例亦不勝枚舉。尤其近年來十分蓬勃發達的網際網路檔案、社群網路與電子商務等處理,概是典型的鉅量資料,其應用商機幾乎無限,而臺灣積體電路股份有限公司董事長張忠謀博士也提到鉅量資料與未來物聯網應用之重要關係,他認為物聯網的運作需要連結與利用許多不同的資料庫,從商品的進貨與出貨、商務的傳遞與溝通、消費者的選擇與購買、售後的服務與商品訊息宣傳、乃至於產品的創新設計與加值化等等過程,概需要多樣鉅量資料庫構建的資訊雲來提供相關資訊與知識,並從中萃取、整合出物連網運作的資訊網絡,包括蘋果、英特爾、Google、亞馬遜等世界性大廠也都正在積極建立物聯網生態體系,下一個全球性的 Big Thing 將是物聯網,亦將是未來5到10年內全球成長最迅速產業(Money UDN, 2014)。

相對於其他產業,農業利用鉅量資料的案例偏少,固然生物之基因體(組)學(genomics)在過去 20 年間發展相當迅速,提供了基因體資訊及相關數據系統,作為解決生物、醫學及工業領域問題的重要來源,也為一些疾病提供新的診斷、治療方法,乃至於延用於食品與農業領域。然而,與基因體學相關的生物資訊、遺傳分析、基因定序及基因功能等工具與方法,仍有更多尚待發揮與應用的空間。此部分的利用,需要生物科技與農、林、漁、牧(畜)等領域專家學者進一步密切合作,俾在遺傳、育種、栽培與管理上獲得更多的的發展與應用。本文無意詳細介紹與說明鉅量資料的各種可能應用層面、方法,而係基於樣例提點為出發指出五項農業應用議題供參,期以引領出更多的迴響與創新。這五項議題雖已有部分零星研究,也利用了一些資料集(庫),但是皆屬於較小規模資料(訊) 來源及應用層面,大多數未達到鉅量資料等級。

  • 鉅量資料與農作物耐抗逆境能力:透過生物基因資訊與技術及栽培管理技術等,提升農作物對於生物性逆境(如病、蟲、草害等產生之逆境)及非生物性逆境(如高低溫、乾旱、淹水、鹽鹼、毒害物質等形成之逆境) 之耐受或抵抗能力,以因應氣候變遷及文明進展帶來的糧農衝擊。

  • 鉅量資料與農業生產環境控制能力:整合氣象資料、資通訊技術(information and communication technology)、遙測與地理資訊技術、環控技術等,模擬系統化農業生產環(情)境變化,並改進農業生產環境(含露地與設施)之監測與控制能力,以降低多變及短期程大幅環境差(變)異造成之糧食供應與短缺問題。

  • 鉅量資料與資源開發及再利用潛能:連結自然資源、材料資源與再生能源等資料與技術為一體,以最少能源與金錢支出、最有效率與效能產出的方式,開發與再利用可循環、可再生的資源與能源,以永續地球的農業生產與環境生態而營造多贏局面,並減少非必要廢棄物及污染。

  • 鉅量資料與精準農業生產系統:併聯農作物遺傳、栽培、管理與環境等資訊,加上遙測技術、地理資訊系統、全球定位系統、資訊技術及差異性處理技術等,建構精準農業生產系統(如農耕、畜牧、林產等),以穩定糧食生產並維護糧食安全,同時保障(護)人類賴以生存(活)空間的空氣、水與糧食。

  • 鉅量資料與食品營養及健康安全農產品:串連詳實完善的農產品與食品機能及營養資料,配合精準、安全的生產技術,以降低或避免農產品與食品遭受自然及人為污染,以營養、健康、安全的農產品與食品讓民眾食的安心,並確保下一代新起生命的永續。

此外,鉅量資料尚可從事農業大策略面向的應用,本文僅列舉三則為例簡介,讀者可舉一反三依照個別需求延伸:

  • 社會經濟面向:綜合諸如社會預測、全球化趨勢、消費者需求、農業與環境相關性、農地利用、民眾健康等不同資料集的處理分析,歸納出農產業的發展方向、開創新型農產業或規劃國家未來的農業發展。

  • 農業科技研發面向:經由整合分析現有農業科技品項、技術水準、前瞻科技規劃、國際農研進展、產業未來發展等各種相關資料集,整理出短、中、長期農業科技研發層次、脈絡及可能研究議題,評估出國家最適農業科技研發方向或科研投入。

  • 組織及其功能調整(適)面向:藉由消費者習性、市場行銷、物流運輸、農產品採後處理、產業規劃、農作物生產、研究發展策略、創新技術開發等核心程序之正反向整理分析,建立、改進或更新產業價值鏈,並進而回饋於組織的改造及功能的調整(適)。

結語

基本上資料科學在產業上係一利用正確資料(訊)及深入分析以形成較佳產業運作成果之學門,藉由產業相關資料之分析與處理結果,提供領導者作出正確判斷或擬定創新價值機會,或甚至透過創新產品與服務來滿足市場喜新厭舊的需求、創造產業的加值利潤。換言之,據此以建立快速獲取正確的資料(訊)來源以分析、評估關鍵表現與績效指標進而建構成功的成長策略之能力。鉅量資料就是那整理分析的源頭,資料科學則是藉以依循以達到成功境界的道路,中間過程包含了如內外部資料的充分利用、整理、處理與分析等複雜步驟,以獲得競爭優勢及作出較佳的決策、亦需要軟硬體設備、設施的支持配合。當然,必然橫阻著許多有待被調整、關於成功與否、以及運作上等諸般困難與風險,等著一一被克服、渡過。謹希望本文對鉅量資料之簡介及在農業生產上多元應用層面之倡議,能夠得到專家的意見迴響,研究人員的參與開發其衍生價值,從而重視鉅量資料的利用、引領出農產業與農業科研一條創新之路。在科技與文創猛進及資訊爆炸的時代,快速鉅量資料的累積是必然的。重要的是吾人如何開發這些人類文明軌跡經年累月蓄積的能量,持續創新、加值並貢獻於增進人類全體的生活,甚至於開拓與服務宇宙繼起的生命。而奠基於應用鉅量資料的物聯網,不但是產業發展的新契機與新商機,更將帶領著我們朝向一個人類生活的新世代與新境界。

引用文獻

回首頁TOP

【專題報導二】你今天LINE了嗎?農作物病蟲害診斷服務新管道、新利器

你今天LINE了嗎?農作物病蟲害診斷服務新管道、新利器

詳細內容

【專題報導三】「花宜農情WAY」APP 帶你走訪有機村

「花宜農情WAY」APP 帶你走訪有機村

詳細內容

【專題報導四】鉅量資料應用分享—美國沼氣應用新趨勢

鉅量資料應用分享—美國沼氣應用新趨勢

詳細內容

【科技新知】世界上第一個Google Glass農業應用軟體-IntelliScout

世界上第一個Google Glass農業應用軟體-IntelliScout

詳細內容

行政院農業委員會版權所有©2014 COA All Rights Reserved. 若須取消電子報請點選此連結