|
【專題報導三】鉅量資料及其在農業生產上之應用潛力(上)
文/圖 行政院農業委員會農業試驗所楊純明博士
前言
「鉅量資料(Big Data)」,又稱為「海量資料」、「大資料」、「大數據」等,係指長期而大量收集難以透過人工作業短期內整理出可供解讀之資料(庫)總稱。乃現階段資訊科技界蓬勃發展的應用領域,普及運用於產業及民眾日常生活之中。鉅量資料可切割成許多個別的較小型資料集(data sets),亦可合併及串連其他資料集或鉅量資料進行分析,獲得資料關聯性及其他額外的資訊。資料探勘(data mining)技術,即是在探討用以解析鉅量資料的方法。
對於擁有鉅量資料的政府部門、企業或機構而言,資料的收集可能出自於某些特定目的,依照「因果」關係取得與使用資料,例如政府戶政資料、人口普查、商業普查等資料,公司行號之往來客戶、企業之會員卡、銀行之信用卡等資料,或甚至全民健保、物種基因、生物多樣性、氣象等資料。過去這些「因」、「果」相依的資料多僅限於原來之特定用途,如今則是各種新興用途的寶貴資料庫,等待吾人挖(發)掘出更多元的應用面向。很多人有這樣的經驗,當我們上網選購某些商品時,在畫面上卻同時出現一些相關或可連結的直接與間接的各種資訊,吸引我們的眼光、引起我們的注意。當然,其最終目的可能在於誘引顧客上門成交新生意,讓我們多買些下新產品,或宣傳某種新商品、新鮮事務、新辦活動等,以達到強固經典傳承、加深舊有印象、媒介新起概念、新增媒合事務等各種目的,卻也是活生生鉅量資料延伸應用的最佳範例。
對許多政府部門、企業或機構來說,以往面對這些收集而來的鉅量資料與資訊,多聚焦於表象上功用,未有進一步深入分析與整理,亦不知道如何加值應用,從事於推測事件的發展、預測人們的行為或創新資料的活化利用等嶄新思維,真可謂坐擁寶山(庫)而卻過著日復一日的貧瘠單調生活。拜現代軟硬體的快速發展與貢獻,電腦等計算機具運算功能的速度增進了若干倍,網路傳輸速度加快了數十倍,資料儲存裝置容量逐年倍增而價格卻愈往下調降。而過去僅有「0101…」編碼的數位資料分析方式,現在則有圖片、影像、聲音、文字等各種的形式,於是過去有限資料的因果分析擴大成不同變因項之間的關聯性分析。在邏輯推論上,由簡單因果關係轉變為多向的平行連結,形成複雜多層次的關聯網絡,提供出一個全新又貼近實際的創新服務。此時此刻,這些鉅量資料不再是冰冷的數字、數據、文字或圖像等符號,而是充滿無限生機的數位資源,容我們串連不同資料來源,更協助我們組合轉換成為新面貌的資源。鉅量資料的運用已不再受到內部侷限,而端視人們如何去擷取、整理、整合與轉換,發揮外部加值應用潛力,這正就是本文介紹鉅量資料的迷人之處,在時空上佈滿無限可能。
目前鉅量資料在農業生產上的應用仍十分初淺,尚未被充分認識、開發,殊為可惜。本文即據此簡介及倡議鉅量資料的農業應用層面與價值,不僅希望拋磚引玉獲得更多專家的迴響,更冀望因此帶動農業從業人員重視此一被忽略的應用領域,給未來的農業科技與產業發展帶來更多的新思維、前瞻策略和創新果實。
鉅量資料的特性
亦因此,時至今日,鉅量資料的計數單位以升級為艾位元組或艾可薩位元組(exabyte; EB,1018),一種可以用來評估資訊的計量單位,即十進位制的1018次方位元組或兆位元組(terabyte; TB,1012)的百萬倍。由此可知,鉅量資料的容量無法以人為方式在短期間內加以整理、分析與解讀。據稱於2011年整個網際網路的容量總和不超過525 EB,然而在1g 的生物基因DNA 中卻可以儲存高達360 EB的資訊容量(Wikipedia,2014),顯示存在生物界的資料有多麼龐大。值得注意的是,現代全球網路資料(訊)及其傳輸量十分驚人,單在2013年全球移動資料的傳輸量(大約18 EB),與2012年相較下,即成長了81%,與2000年比較下,更大幅成長了18倍(Cisco,2014)。再來以每月傳輸量而言,於2013年底,全球的平均每月傳輸量達到了1.5 EB,不過2012年則僅僅為0.82 EB(全年總量約為2.5 EB),可以看的出來傳輸量呈倍數成長,在資料傳輸量內容又以影像資訊高達53%的比例為最大宗(Parker,2008;Cisco,2014)。因此,可以想見網路資料與資訊將是未來容量最大的鉅量資料來源之一,誰能掌握今日網路資料(訊)來源,就將可能成為掌控明日世界的巨人。
在諸如氣象學(meteorology)、生物學(biology)、基因體學(genomics)、神經網路體學(connectomics)、物理模擬(physical simulation)及環境 (environment)等許多學門研究上,由於資料集(庫)過度龐大,資料類型複雜(如數字、數據、文字、符號、信號、圖像、語音等),科學家在分析處理上經常遭遇困難、限制與阻礙。其次,由於資訊持續被量測或廣泛收集,很多資料集仍不斷地在擴增與累積之中,例如衛星與高空的遙感探測、網路文字影像音訊的記錄傳輸、無線射頻辨識(RFID)與無線感測網路、醫療與健保等皆是例子。又如維基百科(Wikipedia)的編輯記錄資料,總計數兆位元組的文字和圖片正是鉅量資料典型樣例。這些鉅量資料幾乎無法使用大多數的資料庫管理系統處理,而必須藉助於千百台伺服器同時平行運算,所以鉅量資料的使用取決於持有這些資料集的政府部門、企業或機構的能力,以及被用來處理分析資料集的軟體能力。然而,面對未來可能必須處理的如此龐大資料集(庫),對許許多多的組織/單位而言,可能需要重新思考資料管理的選項,如何處理與管理這麼鉅量的資料,以及由後端需求推演至前端資料的來源收集。
再者,隨著資料量的增長,也相對帶來處理鉅量資料的挑戰和機遇。首先,鉅量資料具有量(volume;資料大小)、速度(velocity;資料輸出入的速度)、多變(variety;多樣態)等「3Vs」特性。全球第一家資訊技術研究與分析公司 Gartner 於 2012年修改了對鉅量資料的定義,謂鉅量資料係一大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理(White,2012)。IBM公司進一步解說鉅量資料的三種層面,首先,其特色在於巨量的資料量,大型企業資料包羅萬端,所以很容易便達到數兆位元組,甚至千兆位元組的天量。其次,鉅量資料通常具有時效性,一旦串流至企業就必須立即使用來發揮最大價值。最後,鉅量資料的範疇不僅止於結構化資料,還包括如文字、音訊、視訊、點擊串流、日誌等非結構化的資料 (IBM,2014)。除此之外,如在美國賓州Villanova University提出除了在3Vs外,更增加第四個V,其真實性(veracity)為第四個特點 (Villanova University,2014)。無論如何,鉅量資料必須藉由電腦/計算機對資料進行統計、比對、解析才能得出客觀結果,美國歐巴馬政府更在2012年投入2億美金在鉅量資料的開發,強調鉅量資料會是未來石油。
大部分的專家皆同意鉅量資料具有巨大的價值,然而僅有部分認為他們的鉅量資料計畫獲得預期的成功。其原因在於對鉅量資料的認知、應用面向的擬定、市場的調查及對於挑戰的因應。換言之,使用人是否已經充分瞭解鉅量資料的價值、利益與限制,準備好了成功利用這些鉅量資料的工具與條件。成功的關鍵因素,至少包括:(1)資料的可獲得性、取得成本與使用技能、(2)以鉅量資料達成設定目標所需要的時間、(3)能夠克服障礙而快速有效的處理鉅量資料、及(4)提出有效解決方案與結果以達成使用者(客戶)要求等。IBM公司認為鉅量資料不只是一項挑戰,更是絕佳的機會,讓吾人洞悉新興的資料類型、使企業運作更加靈敏、並為過往所無法企及的問題提供解答,同時為充滿各種可能性的世界開啟一扇大門(IBM,2014)。
本文未完,第四季電子報將繼續探討鉅量資料在農業生產力之應用。
|