如今,90%的數據分析師都在談大數據,在大數據的背景之下,數據分析師收集數據的邊界在哪里?又該如何運用數據呢?作者在美國參加Strata 2012大會期間,跟很多數據中人交流,其中前LinkedIn首席科學家DJ Patil給他的印象最深。
對話:先有需求,后有數據
車品覺:我有一個問題一直很困惑,現在的企業(yè)獲取數據很容易,并且數據的增長速度非常之快,那么對于公司來說,到底要收集什么數據呢?收集多少數據?收集數據的邊界在哪里?
Patil:過去收集數據很難,而現在獲取數據資源比較容易。如果收集數據的出發(fā)點,不是為了解決問題,那么收集數據的量也太大了。
車品覺:可是許多公司認為,現在收集數據不難,成本也不高,為什么不先收集數據再說呢?等以后需要數據來解決問題時再拿出來用也可以啊。
Patil:千萬別這么想,用這樣的理念來設計數據產品肯定會失敗的。數據是沒有邊界的,我為此也痛苦了好一段日子。比如收集一個人的生日,可以精確到幾分幾秒,但怎么用卻不知道,那么這個數據就沒有什么用。
車品覺:實際上,數據也是有生命周期的,比如從中國身份證號碼是可以推斷出性別的,但過幾年如果這個規(guī)則變了,那么這個數據的基礎就發(fā)生了改變,導致我們基于數據所做的假設和決策依據也就失去了意義(Data Broken)。并且,保存數據及其收集時的背景也不是一件容易的事情。所以說,在收集數據的同時,我們必須知道數據是用來做什么的,今天都想不出來,日后就更不容易想出來了。
打個比方,今天很多電商老板會問重復購買率是多少,于是我們收集數據來計算重復購買率,卻很少想到需要重復購買率來做什么決定。“刻舟求劍”的故事告訴我們的是世事在變,我們不能只是機械地套用方法或指標。就像重復購買率有不同的定義,而做不同的決策需要不同定義的重復購買率。如果A公司想收購B公司,那么關注的重復購買率可能細致到3個月內,購買一次的用戶比例是多少,購買2~3次的用戶比例是多少,3~4次的用戶比例又是多少。如果A公司只是衡量自己的運營,可能它更關注的是日、周級別的重復購買率的變化趨勢,或者當月新增客戶有多少人是重復購買的,從而可以衡量每個月新增客戶的最終忠誠度和質量。
數據應用因小而美
我在做數據應用的這段時間,曾經特別為收集什么樣的數據而煩惱。當時我想做一個特別大的數據應用出來,適合大多數人使用,可后來發(fā)現這在起步階段幾乎是不可能的。一是可以解決大部分人需求的數據應用根本就不存在,二是支付寶的數據非常豐富,需要考慮的因素很多,因素之間的聯系又很復雜。
所以我總結,當做數據應用時,數據就等于原材料,當原材料一直處于變化的情況下,做出來的應用也有問題。體會數據和應用的關系之后,我決定從小角度切入,先做出小應用來。
這里說的“小”指的是應用的目標很具體。打個比方來說,對于一款數據應用,如果我的目的是分辨兩種決策誰更好,差異在哪里,是很具體的問題。但如果我的目標是想知道如何讓公司贏利,就是一個空泛的目標。
還請注意,“小”不是指數據量。許多人在沒有獲取足夠數據,并且缺乏對數據理解的情況下做判斷,其實是在享受自己的無知。
經過一番周折,我選擇了按照小角度切入的想法設計數據應用,小角度切入設計應用可以做到具體和快速,而且可以避免因原材料的變化而導致的問題。
這次到美國來也有所感觸,現在許多美國數據分析師都在談空軍打仗時采用的分析模型OODA(觀察-調節(jié)-決策-行動),由于空軍打仗強調快速決定,所以這個模型也特別適合今天互聯網的需求。這個模型的核心思想就是快速出擊,而對于今天的互聯網公司來說,發(fā)展速度太快了,而數據分析師也必須在快速的發(fā)展環(huán)境中,迅速找出解決方案。
這個模式完全體現了互聯網的快速找錯、迅速調節(jié)的需要??焖賹崿F原型,對于從來沒有用過數據解決問題的互聯網公司來說,從小角度切入才更加實際。大數據的背景之下,數據不僅量多,而且種類多。起步階段,如果不從小角度切入,很難做出實用的產品和看得見的成績。
把數據放進“框架”之中
這說到了另外一個話題,在大數據的背景下,必須考慮數據之間的關聯性。一個單獨的數據是沒有意義的,實際中,選擇處在兩個極端的數據往往更容易找出它們之間的聯系,把它們放在一個框架中看才能發(fā)現問題。
舉例來說,我曾經研究美國有哪些網站值得我們學習。依靠數據尋找美國的互聯網應用黑馬,便是從問題的角度出發(fā)。在各種數據中,我選擇了 “訪問量”和“停留時間” 這兩個往往此消彼長的數據作為幫助我決策的框架。利用這個框架,我在2010年就發(fā)現了Pinterest,遠早于國內對它進行模仿的應用。
因此,關于如何在大數據的背景下,利用數據做決策,我總結了四步走的方法:
第一,從解決問題的角度出發(fā)收集數據;
第二,把收集的數據整理好,放入一個框架內,并利用這個框架幫助決策者做出決定;
第三,評估決定與行動的效果,這將告訴我們框架是否合理;
第四,如果有新的數據出現,我們將考察能否利用它對前面三步做出改進,以及我們今天是否還需要收集更多種類的數據。
作者車品覺,支付寶首席商業(yè)智能官。中國香港人,曾在英美澳等地接受西方教育,清華及INSEAD雙碩士學位,加入支付寶前曾在敦煌網擔任首席產品官。