之前的幾篇文章討論了為什麼要做數據分析、數據分析的目的和好處、以及與數據相關的作法或其他技術。這篇文章則是著重在做數據分析時可能面臨的左右為難,並且談談我們的觀點及因應的方法。
先談到人類對於資源稀缺會感到恐懼的天性,遠古人類長期處於物質匱乏的環境,為了在環境劇烈變化、災難發生或面對激烈競爭時能夠繼續生存下去,人類發展出蒐集囤積資源的行為,並形成了內化到基因裡的本能。對於特定事物,當我們感覺到短少、缺乏、不足時,就可能觸發隱藏在內心那種自身生存將受到威脅的想法,進而感到恐懼。時至今日,透過學術界的提倡、產業界的鼓吹,再加上書籍、報章雜誌及媒體的推波助瀾,數據已然成為這個數位化時代一種重要的資源。隨著資訊科技的發展,數據的產生、傳遞和保存的成本已經大幅降低,企業普遍都已經可以擁有「數據」這種資源,但是企業對於數據缺乏的恐懼感反而與日遽增。我們不斷地接收到「有多少%的企業導入XX系統,蒐集了什麼數據...所以達到怎樣的效益」、「某個頂尖企業開始應用XX技術蒐集用戶的某某數據...創造了多少營收」、「要建構360度客戶視圖...」等訊息,這就讓我們對於自己已經擁有的數據感覺到短缺及不足,這種資源可能短缺的恐懼感就驅動著我們追尋獲取更多數據的方法,然後取得及擁有不會比別人少的數據資源,這樣才能面對競爭繼續生存與發展。
當我們面對匯集而來的大量數據之後,我們又會面臨另一種困境---「資訊過載」(information overload),這是 1970 年,著名的未來學大師艾爾文・托夫勒(Alvin Toffler)所提出的概念。它主要是說個人天賦能力各有差異,有人可以一目十行、有人則是過目不忘,但終究每一個人都有其感官和認知的極限。所以在面對關於某個主題的大量資訊,一旦超出大腦負荷能力的時候,人就會難以過濾接收到的大量資訊,於是,我們就不再能將重要的資訊從不重要的資訊裡抽取出來、不再能將有意義的資訊從可有可無的資訊裡中分離出來,無法綜觀全局,從而也無法相應地做出決定,這就是所謂「資訊過載」的情況。不僅個人如此,企業也同樣面臨相同的情況,尤其面對「假消息」或「帶風向」現象的盛行,及個人隱私權保護意識的高漲,我們必須判斷資訊的真偽,在充滿多元互動和資訊快速流動的狀況,還要找出數據之間的關聯和對彼此之間的影響。這些就造成了為了判斷某一資訊而要收集更多資訊,也就讓企業面臨愈來愈多的「資訊過載」議題。
一邊是「數據缺乏產生的恐懼」,另一邊是「資訊過載帶來的困擾」,企業通常在這兩者之間左右為難。純粹就理論而言,擁有愈多的數據就愈能夠萃取出有用的資訊,愈多有用的資訊就愈能夠對企業產生助益;從實務操作的角度來看,想要得到愈多的助益就代表要花更多時間、金錢和人力去取得和處理更多數據。在資源有限的條件下,企業在建構或選擇數據分析專案的時候,應該如何在這兩者之間取得一個平衡點?
我們建議應該從整體專案的「實用性」進行考量,也就是衡量解決方案所收集及處理的數據對於核心業務或營運績效是否具有意義或價值,然後和取得與處理這些數據所要花費的時間及成本(含實質金錢和人力)進行比較。舉例而言,我們要從官網客戶的性別和年齡資訊,然後找出不同性別和年齡對營收的貢獻程度,並以此作為開發潛在新客戶時的依據。接著評估是否已經擁有了客戶的性別和年齡資訊?是否現有官網系統是否可以進行資訊收集?還是要透過其他系統進行收集?要提供多少實質金錢上或其他的誘因刺激客戶提供?要花費多少時間進行蒐集並持續提供誘因?客戶提供的性別和年齡資訊是否需要或能否進行真偽驗證?預期有多少比例的客戶願意提供及多少人是提供真實可參考的資訊?從官網或其他系統收集的資訊可以直接進行分析?還是要再匯入其他分析工具?會有其他時間、金錢的花費嗎?
這就是數據分析的兩難!