神策數(shù)據(jù)：埋點(diǎn)套路深，千萬(wàn)別掉“坑”

2017-03-20 14:14 21087

北京2017年3月20日電 /美通社/ --為什么要埋點(diǎn)？埋點(diǎn)如同裝在智能機(jī)器人身上的傳感器，在機(jī)器人研發(fā)過(guò)程中，技術(shù)人員將內(nèi)傳感器和電機(jī)、軸、手臂、手腕等關(guān)鍵部位安裝在一起，實(shí)時(shí)監(jiān)控機(jī)器人的位置、速度、力度的測(cè)量，判斷機(jī)器人的穩(wěn)定性與風(fēng)險(xiǎn)，最終實(shí)現(xiàn)伺服控制。傳感器是機(jī)器人的埋點(diǎn)，網(wǎng)站與APP也需要如此埋點(diǎn)，埋點(diǎn)是數(shù)據(jù)采集、分析與數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)。神策數(shù)據(jù)撰文針對(duì)埋點(diǎn)常見三大誤區(qū)：埋點(diǎn)與數(shù)據(jù)采集、數(shù)據(jù)分析的關(guān)系？如何規(guī)避埋點(diǎn)混亂？追求精益化數(shù)據(jù)分析，埋點(diǎn)方式如何選擇？這三方面進(jìn)行剖析。

誤區(qū)1：重分析，輕采集！

在追求精益管理的道路上，大多企業(yè)深知數(shù)據(jù)驅(qū)動(dòng)是第一生產(chǎn)力。然而，在企業(yè)搭建數(shù)據(jù)分析平臺(tái)，或選型第三方數(shù)據(jù)分析平臺(tái)時(shí)，經(jīng)常會(huì)陷入“重分析，輕采集”的誤區(qū)。

數(shù)據(jù)分析是實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的前提，固然重要。而數(shù)據(jù)分析的深度取決于數(shù)據(jù)采集的質(zhì)量，顧此失彼，數(shù)據(jù)驅(qū)動(dòng)道路只能越走越窄。神策數(shù)據(jù)創(chuàng)始人&CEO桑文鋒多次強(qiáng)調(diào)，數(shù)據(jù)采集應(yīng)該遵循“大”、“全”、“細(xì)”、“實(shí)”四字法則。

“大”強(qiáng)調(diào)宏觀的“大”，而非物理的“大”。大數(shù)據(jù)不是一味追求數(shù)據(jù)量的“大”，比如每天各地級(jí)市的蘋果價(jià)格數(shù)據(jù)統(tǒng)計(jì)只有2MB，但基于此研發(fā)出一款蘋果智能調(diào)度系統(tǒng)，就是一個(gè)大數(shù)據(jù)應(yīng)用；
“全”強(qiáng)調(diào)多種數(shù)據(jù)源。大數(shù)據(jù)采集講求全量，而不是抽樣。除了采集客戶端數(shù)據(jù)，還需采集服務(wù)端日志、業(yè)務(wù)數(shù)據(jù)庫(kù)，以及第三方服務(wù)等數(shù)據(jù)，全面覆蓋；
“細(xì)”強(qiáng)調(diào)多維度數(shù)據(jù)采集，即把事件的維度、屬性、字段等都進(jìn)行采集。如電商行業(yè)“加入購(gòu)物車”的事件，除了采集用戶的click數(shù)據(jù)，還應(yīng)采集用戶點(diǎn)擊的是哪個(gè)商品、對(duì)應(yīng)的商戶等數(shù)據(jù)，方便后續(xù)交叉分析；
“時(shí)”強(qiáng)調(diào)數(shù)據(jù)的時(shí)效性。顯然，具有時(shí)效性的數(shù)據(jù)才有參考價(jià)值。

總之，埋點(diǎn)混亂、采集無(wú)序則根基不穩(wěn)，令數(shù)據(jù)驅(qū)動(dòng)的實(shí)現(xiàn)如“空中樓閣”。只有將數(shù)據(jù)采集和建模等基礎(chǔ)搭建好，數(shù)據(jù)驅(qū)動(dòng)才能真正落地。

誤區(qū)2：夯實(shí)數(shù)據(jù)基礎(chǔ)，無(wú)埋點(diǎn)優(yōu)越于代碼埋點(diǎn)？

數(shù)據(jù)基礎(chǔ)夯實(shí)與否，取決于數(shù)據(jù)的采集方式。埋點(diǎn)方式多種多樣，按照埋點(diǎn)位置不同，可以分為前端（客戶端）埋點(diǎn)與后端（服務(wù)器端）埋點(diǎn)。其中無(wú)埋點(diǎn)是目前較為流行的前端埋點(diǎn)方式之一。

“無(wú)埋點(diǎn)”概念已爛大街，而在實(shí)際進(jìn)行事件設(shè)計(jì)與實(shí)施的過(guò)程中，技術(shù)人員有道不盡的愛恨情仇：一方面，無(wú)埋點(diǎn)神秘?zé)o比，甚至被譽(yù)為“齊全、較便捷、界面友好、技術(shù)門檻低”的數(shù)據(jù)采集方式；另一方面，運(yùn)營(yíng)人員又發(fā)出“為何所采數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)庫(kù)數(shù)值相差這么大？”等各種抱怨。簡(jiǎn)言之，無(wú)埋點(diǎn)采用“全部采集，按需選取”的形式，對(duì)頁(yè)面中所有交互元素的用戶行為進(jìn)行采集，通過(guò)界面配置來(lái)決定哪些數(shù)據(jù)需要進(jìn)行分析，實(shí)質(zhì)與“全埋點(diǎn)”并無(wú)無(wú)實(shí)質(zhì)差異。

圖1：無(wú)埋點(diǎn)的優(yōu)劣勢(shì)分析

為解釋頗具迷惑性的無(wú)埋點(diǎn)概念，筆者總結(jié)了其優(yōu)勢(shì)與劣勢(shì)，優(yōu)勢(shì)包括：

1、可視化展示界面最基本度量，滿足基本數(shù)據(jù)分析需求。無(wú)埋點(diǎn)可視化展現(xiàn)界面PV、UV等網(wǎng)站或APP分析的最基本度量，告訴運(yùn)營(yíng)人員每個(gè)控件被點(diǎn)擊的概率是多大，哪些控件值得做更進(jìn)一步的分析等。如此有助于企業(yè)了解用戶行為，為進(jìn)一步數(shù)據(jù)分析指明方向。

2、技術(shù)門檻低，使用與部署較簡(jiǎn)單。無(wú)埋點(diǎn)極大程度避免了因需求變更、埋點(diǎn)錯(cuò)誤等原因?qū)е碌闹匦侣顸c(diǎn)繁復(fù)工作。

3、用戶友好性強(qiáng)。運(yùn)營(yíng)人員可以直接應(yīng)用手指或者鼠標(biāo)進(jìn)行操作，自動(dòng)向服務(wù)器發(fā)送數(shù)據(jù)，避免手工埋點(diǎn)的失誤。

然而，作為前端埋點(diǎn)的方式之一，無(wú)埋點(diǎn)有先天缺陷，帶來(lái)易用性的同時(shí)，也犧牲部分?jǐn)?shù)據(jù)的采集深度。無(wú)埋點(diǎn)的劣勢(shì)如下：

1、無(wú)埋點(diǎn)只能采集到用戶交互數(shù)據(jù)，且適合標(biāo)準(zhǔn)化的采集，自定義屬性的采集需要代碼埋點(diǎn)來(lái)輔助。

每個(gè)用戶的交互行為均有許多屬性，無(wú)埋點(diǎn)無(wú)法深入到更細(xì)、更深的粒度。例如在電商行業(yè)中，用戶點(diǎn)擊“購(gòu)物車”是一次交互行為，無(wú)埋點(diǎn)會(huì)忽略掉用戶信息、商品品類等其它維度信息，此時(shí)需要配合代碼埋點(diǎn)來(lái)輔助數(shù)據(jù)采集；再如用戶上滑屏幕時(shí)，內(nèi)容瀑布流的底部載入、商品或廣告的加載展示、下拉菜單中下拉內(nèi)容的數(shù)據(jù)點(diǎn)擊等情況，這類自定義行為的采集需要代碼埋點(diǎn)輔助實(shí)現(xiàn)采集。

由于無(wú)埋點(diǎn)僅適合標(biāo)準(zhǔn)的方案采集，一些數(shù)據(jù)分析平臺(tái)也開始支持用戶為每個(gè)event添加自定義屬性，如此能大大擴(kuò)展事件分析的效能。值得一提的是，神策數(shù)據(jù)為用戶提供的自定義屬性無(wú)數(shù)量限制。

2、無(wú)埋點(diǎn)兼容性有限。

例如在安卓系統(tǒng)進(jìn)行埋點(diǎn)時(shí)，不同工程師可能會(huì)給APP界面中相同的button起不同名稱的ID，當(dāng)運(yùn)營(yíng)人員想篩選出所需數(shù)據(jù)時(shí)，不同名稱會(huì)給運(yùn)營(yíng)人員帶來(lái)困擾。另外，由于目前第三方框架較多，如RN框架，容易造成無(wú)埋點(diǎn)兼容性問(wèn)題。

3、無(wú)埋點(diǎn)具有前端埋點(diǎn)的固有缺陷。

無(wú)埋點(diǎn)是前端數(shù)據(jù)采集方式之一，因此具有前端埋點(diǎn)的天然缺陷，如數(shù)據(jù)采集不全面、傳輸時(shí)效性較差、數(shù)據(jù)可靠性無(wú)法保障等問(wèn)題。無(wú)埋點(diǎn)的技術(shù)原理依賴網(wǎng)站或者APP后端技術(shù)開發(fā)的嚴(yán)謹(jǐn)性與規(guī)范性、網(wǎng)絡(luò)狀態(tài)、網(wǎng)絡(luò)口徑等因素。

總之，數(shù)據(jù)采集方式?jīng)Q定所采集到用戶行為數(shù)據(jù)的深度和粒度。夯實(shí)數(shù)據(jù)基礎(chǔ)，無(wú)埋點(diǎn)需要配合前端代碼埋點(diǎn)實(shí)現(xiàn)，而前端數(shù)據(jù)采集的固有劣勢(shì)，應(yīng)該結(jié)合后端埋點(diǎn)完成。數(shù)據(jù)采集不準(zhǔn)、不全、不細(xì)容易讓后續(xù)數(shù)據(jù)分析工作陷入“巧婦難為無(wú)米之炊”的困境。

誤區(qū)3：忽略業(yè)務(wù)需求，埋點(diǎn)方式隨波逐流！

行業(yè)差異性明顯、企業(yè)實(shí)際需求不同，因此埋點(diǎn)方式也應(yīng)有所不同。究竟該如何科學(xué)采集數(shù)據(jù)？要真正實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)，企業(yè)數(shù)據(jù)采集所采用的埋點(diǎn)方式不應(yīng)“千企一面”，而應(yīng)該“因企而異”。

1、適合前端埋點(diǎn)的企業(yè)業(yè)務(wù)需求

無(wú)論是自建數(shù)據(jù)分析平臺(tái)，還是采用第三方數(shù)據(jù)分析工具，梳理企業(yè)需求是第一步，隨后按照企業(yè)需求完成事件和埋點(diǎn)方案的設(shè)計(jì)，這也正是神策數(shù)據(jù)為客戶提供多維度數(shù)據(jù)分析的根基與前提。一般而言，以全埋點(diǎn)（無(wú)埋點(diǎn)）為典型代表的前端埋點(diǎn)方案，適合有以下需求的企業(yè)。

(1) 處于運(yùn)營(yíng)初級(jí)階段，產(chǎn)品功能相對(duì)簡(jiǎn)單

如閱讀類、詞典類工具性APP的企業(yè)客戶，在其發(fā)展初期的產(chǎn)品運(yùn)營(yíng)階段，產(chǎn)品功能較為基礎(chǔ)，無(wú)明確業(yè)務(wù)數(shù)據(jù)、交易數(shù)據(jù)，僅通過(guò)UV、PV、點(diǎn)擊量等基本指標(biāo)分析即可滿足需求。由于神策分析（Sensors Analytics）支持全埋點(diǎn)，SDK支持默認(rèn)采集APP或者網(wǎng)頁(yè)瀏覽頁(yè)面、激活、啟動(dòng)等前端數(shù)據(jù)，這類客戶可以基于此衡量用戶留存以及活躍度。如圖2，神策數(shù)據(jù)某廣告客戶了解用戶渠道來(lái)源，并判斷不同渠道和不同推廣方式的投放效果

圖2：不同渠道和推廣方式的效果分析

(2) 需要分析與后端沒有交互的前端行為

若運(yùn)營(yíng)人員工作需要判斷前端界面設(shè)計(jì)是否合理，是必須采用前端埋點(diǎn)方案的。這也是后端代碼埋點(diǎn)無(wú)法完全代替全埋點(diǎn)的原因。

2、強(qiáng)烈建議后端埋點(diǎn)的業(yè)務(wù)需求

除了支持“前端埋點(diǎn)”（全埋點(diǎn)）方式，神策數(shù)據(jù)為保證數(shù)據(jù)采集做到“大、全、細(xì)、時(shí)”，更推薦“后端埋點(diǎn)”：當(dāng)前后端都可以實(shí)現(xiàn)數(shù)據(jù)采集時(shí)，應(yīng)優(yōu)先考慮后端（代碼）埋點(diǎn)，尤其在各行業(yè)中有特殊業(yè)務(wù)需求的數(shù)據(jù)，更是強(qiáng)烈建議通過(guò)后端（代碼）埋點(diǎn)方式采集。總的來(lái)說(shuō)，后端（代碼）埋點(diǎn)，或者“后端（代碼）埋點(diǎn)+全埋點(diǎn)”方案，適合有以下需求的企業(yè)。

(1) 追求精細(xì)化運(yùn)營(yíng)，需要進(jìn)行多維數(shù)據(jù)分析的企業(yè)

更多的企業(yè)有精細(xì)化運(yùn)營(yíng)的訴求，科學(xué)埋點(diǎn)為運(yùn)營(yíng)人員后續(xù)進(jìn)行多維度分析提供保障。以神策數(shù)據(jù)客戶為例，《迷城物語(yǔ)》是玩心（上海）網(wǎng)絡(luò)科技有限公司所研發(fā)游戲之一，首日即在各地區(qū)App Store和Google Play商店登頂并持續(xù)霸榜。其技術(shù)負(fù)責(zé)人馬宗驥，在近日公開分享數(shù)據(jù)驅(qū)動(dòng)游戲設(shè)計(jì)中介紹：在游戲領(lǐng)域想實(shí)現(xiàn)實(shí)現(xiàn)精準(zhǔn)運(yùn)營(yíng)，進(jìn)行多維數(shù)據(jù)分析應(yīng)該優(yōu)先考慮后端埋點(diǎn)，單純依賴前端數(shù)據(jù)采集有許多弊端。

例如，有時(shí)玩家已經(jīng)退出游戲，但是鏈接還在，則前端采集不準(zhǔn)，此時(shí)PCU數(shù)據(jù)無(wú)法正確衡量服務(wù)器的負(fù)載情況、數(shù)據(jù)庫(kù)的壓力情況等，而通過(guò)后端代碼埋點(diǎn)解決了這一問(wèn)題。再如，他介紹：“NPC（非玩家控制角色）狀態(tài)、副本狀態(tài)、經(jīng)濟(jì)系統(tǒng)實(shí)時(shí)狀態(tài)等統(tǒng)計(jì)類數(shù)據(jù)，這些是前端埋點(diǎn)無(wú)法統(tǒng)計(jì)到的，而在后端采集數(shù)據(jù)可根據(jù)實(shí)際情節(jié)靈活完成數(shù)據(jù)統(tǒng)計(jì)工作?！比鐖D3，在神策分析平臺(tái)上，幫助運(yùn)營(yíng)人員精準(zhǔn)找到游戲流失點(diǎn)。在100～110級(jí)流失的玩家所操控的角色大多停留在“打怪”動(dòng)作上，機(jī)械地打怪練級(jí),玩家開始感覺枯燥甚至疲憊。找到這一“流失點(diǎn)”后，《迷城物語(yǔ)》運(yùn)營(yíng)人員可以適當(dāng)調(diào)整該關(guān)卡的怪物數(shù)量，并增加新鮮因素，從而平衡游戲趣味性和玩家精力。

圖3：《迷城物語(yǔ)》玩家“流失點(diǎn)”分析

(2) 包含用戶資產(chǎn)數(shù)據(jù)、用戶賬戶體系相關(guān)數(shù)據(jù)、風(fēng)控輔助數(shù)據(jù)等重要業(yè)務(wù)數(shù)據(jù)的網(wǎng)站或APP的企業(yè)。

如電商客戶、互聯(lián)網(wǎng)金融包含用戶認(rèn)證身份信息、手機(jī)號(hào)碼、充值賬戶信息等數(shù)據(jù)，前端數(shù)據(jù)無(wú)法進(jìn)行深入分析。再如，在互聯(lián)網(wǎng)金融企業(yè)，較大痛點(diǎn)莫過(guò)于揪出“羊毛黨”了?！把蛎h”手里握著大量的代理IP、手機(jī)虛擬號(hào)。這一群體特征十分明顯，通常是經(jīng)過(guò)注冊(cè)、領(lǐng)取福利、流失。這就需要運(yùn)營(yíng)人員從IP、設(shè)備信息、注冊(cè)信息、活躍度等進(jìn)行多維度分析。用戶留存是互聯(lián)網(wǎng)金融企業(yè)判斷客戶是否是“羊毛黨”的方式之一。如圖4，在神策分析平臺(tái)上，一般用戶完成新手項(xiàng)目（領(lǐng)取福利后），未進(jìn)行第二次投資，則可能是“羊毛黨”成員，在該平臺(tái)上點(diǎn)擊相關(guān)數(shù)字，人員明細(xì)會(huì)詳細(xì)展示出來(lái)。

圖4：“羊毛黨”用戶甄別 -- 留存數(shù)據(jù)細(xì)查

(3) 對(duì)數(shù)據(jù)安全要求比較高的企業(yè)

從后端采集數(shù)據(jù)，例如采集后端的日志，實(shí)質(zhì)上是將數(shù)據(jù)采集的傳輸與加密交給了產(chǎn)品本身，認(rèn)為產(chǎn)品本身的后端數(shù)據(jù)是可信的。而后端采集數(shù)據(jù)到分析系統(tǒng)中則是通過(guò)內(nèi)網(wǎng)進(jìn)行傳輸，這個(gè)階段不存在安全和隱私性問(wèn)題。同時(shí)，內(nèi)網(wǎng)傳輸基本不會(huì)因?yàn)榫W(wǎng)絡(luò)原因丟失數(shù)據(jù)，所以傳輸?shù)臄?shù)據(jù)可以非常真實(shí)地反應(yīng)用戶行為在系統(tǒng)中的真實(shí)體現(xiàn)?；诤蠖瞬杉藘?yōu)勢(shì)，神策分析目前提供了 Java、PHP、Python、Ruby 等后端語(yǔ)言的 SDK，以及 LogAgent、BatchImporter、FormatImporter 等導(dǎo)入工具，支持在后端采集。

圖5：適合“前端全埋點(diǎn)”的企業(yè)需求與適合“后端代碼埋點(diǎn)”的企業(yè)需求

綜上所述：

數(shù)據(jù)驅(qū)動(dòng)是第一生產(chǎn)力，數(shù)據(jù)采集非“大全細(xì)實(shí)”，數(shù)據(jù)驅(qū)動(dòng)如“空中樓閣”；
大數(shù)據(jù)時(shí)代≠無(wú)埋點(diǎn)時(shí)代。“無(wú)埋點(diǎn)”頂多個(gè)是個(gè)“萬(wàn)金油”，功能很多，應(yīng)急抹一抹，想“治病”還是難；
沒有任何一種通用數(shù)據(jù)采集方式是適合所有企業(yè)業(yè)務(wù)訴求的。根據(jù)行業(yè)領(lǐng)先企業(yè)實(shí)踐來(lái)看，后端代碼埋點(diǎn)才是距精細(xì)化運(yùn)營(yíng)最近的數(shù)據(jù)采集方式；
不從行業(yè)特性、自身實(shí)際需求出發(fā)的數(shù)據(jù)采集方案，都將是無(wú)用功。