用戶增長分析 | 用戶流失預警
時(shi)間:2017-11-07 17:33:00 閱讀:3489 整理:廣州市場調查公司
1 前言
針對用戶(hu)(hu)(hu)增長分(fen)析這個(ge)課題,本(ben)文(wen)主要從用戶(hu)(hu)(hu)防流(liu)(liu)失的(de)角度,闡述如何基于(yu)QQ社(she)交網絡(luo)數據構建用戶(hu)(hu)(hu)流(liu)(liu)失預警模型,找出高潛流(liu)(liu)失用戶(hu)(hu)(hu),用于(yu)定(ding)向(xiang)開展運(yun)營激(ji)活,從而有效控制用戶(hu)(hu)(hu)流(liu)(liu)失風險,提升大盤用戶(hu)(hu)(hu)的(de)留存率和(he)活躍度。本(ben)文(wen)所涉及到的(de)分(fen)析框(kuang)架和(he)方法論等具有較強的(de)通(tong)用性(xing),可供(gong)有需要的(de)了解參考。
2 分析背景
根據(ju)美國貝(bei)恩公司的(de)(de)(de)調(diao)查,在商業社會中(zhong)5%的(de)(de)(de)客(ke)(ke)戶(hu)留(liu)存率增長意味著(zhu)公司利潤30%的(de)(de)(de)增長,而把產品(pin)賣給老客(ke)(ke)戶(hu)的(de)(de)(de)概率是賣給新客(ke)(ke)戶(hu)的(de)(de)(de)3倍。所(suo)以在‘增長黑(hei)客(ke)(ke)’圈(quan)內有(you)一句名言:留(liu)住已有(you)的(de)(de)(de)用戶(hu)勝過拓展(zhan)新的(de)(de)(de)客(ke)(ke)戶(hu),也(ye)就是俗稱的(de)(de)(de)“一鳥在手,勝過雙(shuang)鳥在林”。——《增長黑(hei)客(ke)(ke)》
用戶(hu)留存(cun)(cun)和用戶(hu)流失是(shi)(shi)一(yi)組相對(dui)的(de)概念(nian)。諸(zhu)如獲得一(yi)個新(xin)客戶(hu)的(de)成本是(shi)(shi)保持一(yi)個老客戶(hu)的(de)5倍等經過(guo)眾多(duo)商業實(shi)(shi)踐總結出(chu)來的(de)數據(ju)都證明了(le)一(yi)個事實(shi)(shi)——提升用戶(hu)留存(cun)(cun)率,減少用戶(hu)流失,對(dui)于(yu)任何一(yi)家(jia)企(qi)業來說都是(shi)(shi)非常重要。而隨著(zhu)互聯網特別是(shi)(shi)移(yi)動互聯網的(de)高速發展,傳統模式下的(de)很多(duo)發展瓶頸得到了(le)重大突(tu)破,成本結構也發生了(le)顯(xian)著(zhu)變化。但(dan)對(dui)于(yu)企(qi)業來說,用戶(hu)留存(cun)(cun)依然(ran)是(shi)(shi)反映企(qi)業及(ji)產品核心競爭力的(de)關鍵(jian)要素。
在用(yong)戶(hu)(hu)生(sheng)命周(zhou)期(qi)管理(CLM)的(de)(de)分析框架下,不(bu)同(tong)的(de)(de)用(yong)戶(hu)(hu)生(sheng)命周(zhou)期(qi)階段我們需要考慮不(bu)同(tong)的(de)(de)問(wen)題,制定(ding)不(bu)同(tong)的(de)(de)用(yong)戶(hu)(hu)管理策略,不(bu)斷改善(shan)用(yong)戶(hu)(hu)體驗的(de)(de)同(tong)時,實現用(yong)戶(hu)(hu)生(sheng)命周(zhou)期(qi)價(jia)值(CLV)的(de)(de)最大化。
不同用(yong)戶(hu)所(suo)處的(de)(de)階段(duan)可能(neng)是(shi)不一(yi)樣的(de)(de),且(qie)每一(yi)個階段(duan)的(de)(de)時(shi)間(jian)跨度和展現(xian)形(xing)式可能(neng)也有所(suo)不同。針(zhen)對用(yong)戶(hu)衰退階段(duan),構建高(gao)危流失用(yong)戶(hu)的(de)(de)預警機(ji)制,制定(ding)面向(xiang)高(gao)危用(yong)戶(hu)挽(wan)留策略,是(shi)延(yan)長(chang)用(yong)戶(hu)生命周期(qi)、提升用(yong)戶(hu)留存的(de)(de)重(zhong)要舉措,這也是(shi)本文將(jiang)要重(zhong)點(dian)闡述(shu)的(de)(de)研究(jiu)內容。
關于對用戶數(shu)據如何開展(zhan)分析挖掘,目前(qian)(qian)業(ye)(ye)界已有不少成熟的方(fang)(fang)法(fa)(fa)(fa)論(lun),而華夏經緯的分析流(liu)程(cheng)也是(shi)在這(zhe)些方(fang)(fang)法(fa)(fa)(fa)論(lun)的指導下有序開展(zhan)的。當前(qian)(qian)業(ye)(ye)界主要(yao)的兩大方(fang)(fang)法(fa)(fa)(fa)論(lun)分別是(shi)SEMMA方(fang)(fang)法(fa)(fa)(fa)論(lun)和CRISP-DM方(fang)(fang)法(fa)(fa)(fa)論(lun)。其中SAS公司提出的SEMMA方(fang)(fang)法(fa)(fa)(fa)論(lun),即抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)、評(ping)估(gu)(Assess),強(qiang)調的是(shi)這(zhe)5個(ge)核心環(huan)(huan)節的有機循(xun)環(huan)(huan)。而SPSS公司提出的CRISP-DM是(shi)英文縮寫,全稱為跨(kua)行(xing)業(ye)(ye)數(shu)據挖掘標(biao)準流(liu)程(cheng)(Cross-Industry Standard Process for Data Mining),突出業(ye)(ye)務理(li)(li)解(jie)、數(shu)據理(li)(li)解(jie)、數(shu)據準備、建模、評(ping)價和發(fa)布這(zhe)幾個(ge)環(huan)(huan)節,強(qiang)調將數(shu)據挖掘目標(biao)和商(shang)務目標(biao)進行(xing)充分結合。
在具(ju)(ju)體實(shi)(shi)踐中,CRISP-DM強調上層的(de)商務目標的(de)實(shi)(shi)現(xian),SEMMA則更側重在具(ju)(ju)體數據挖掘技術的(de)實(shi)(shi)現(xian)上。只有將兩種方法緊密(mi)聯系在一起,才能(neng)達到更好地達成數據分析(xi)挖掘的(de)效(xiao)果。
3 流失預警模型構(gou)建
基于上述方法論,下面結合具體的(de)業務場景,詳細介紹(shao)用戶流(liu)失預警(jing)的(de)分析思路及模型建設過程。
1. 業(ye)務理解
1.1. 業務現狀
針對某業務(wu)用(yong)戶活躍度下降、沉默用(yong)戶比(bi)例(li)較(jiao)高的業務(wu)現狀,著手建(jian)立高潛流(liu)失(shi)用(yong)戶預警及挽留機制,以期(qi)提(ti)升用(yong)戶留存,拉動活躍,“防患于未然(ran)”。而(er)落腳點則是建(jian)立一套流(liu)失(shi)預警的分類模型,預測用(yong)戶的流(liu)失(shi)概(gai)率。
1.2. 問題定義(yi)
基于(yu)上述需(xu)求,首先我們要明(ming)確(que)流失的定義(yi),使得(de)分(fen)析的目標(biao)更(geng)符合(he)業(ye)務(wu)理解及分(fen)析要求。
1.2.1. 用戶流失行為定義
這(zhe)里羅列了流(liu)(liu)失分(fen)析(xi)可能(neng)需要(yao)考慮的(de)三個(ge)維度(du):動因、程度(du)和去向(xiang)。不同(tong)業務場景下流(liu)(liu)失分(fen)析(xi)可能(neng)需要(yao)綜合考慮多個(ge)維度(du),以制定最為合理的(de)分(fen)析(xi)目標(biao)。
1) 流(liu)失動(dong)因
? 客(ke)戶主動流失(shi)(VOLUNTARY CHURN)——客(ke)戶主動銷戶或者改變(bian)當前的服務(wu)模式(shi);
? 客戶被(bei)動流失(shi)(INVOLUNTARY CHURN)——客戶因為違規或欺詐等(deng)行為被(bei)停止服(fu)務及(ji)強(qiang)行關閉帳戶等(deng)行為。
2) 流(liu)失程(cheng)度
? 完全流失——客戶(hu)(hu)發生(sheng)關閉所有與(yu)企業服務相關帳戶(hu)(hu)和交易等不可(ke)恢復或(huo)者(zhe)很難恢復的(de)行為;
? 部分流失(shi)(PARTIAL CHURN)——客戶(hu)并(bing)未(wei)關閉帳戶(hu)但是交(jiao)易水平(ping)突減到(dao)一(yi)定水平(ping)之(zhi)下,例如在產品使用(yong)(yong)場(chang)景下用(yong)(yong)戶(hu)使用(yong)(yong)頻率(lv)突降了50%等等。
3) 流失去(qu)向
? 外部——客戶關(guan)閉(bi)或減少了(le)在當(dang)前機(ji)構的業(ye)務而轉向了(le)其它競(jing)爭對手;
? 內部(bu)——客(ke)戶關(guan)閉或減少了(le)在當前機(ji)構的部(bu)分(fen)業務而轉向了(le)當前機(ji)構的其它業務。
可見,對于(yu)流(liu)失的理解可以是多方(fang)位的,需要結(jie)合具體的場景和需求(qiu)。這里我們只簡化考慮(lv)用戶在(zai)某項(xiang)業務主動部分流(liu)失的情況。
1.2.2. Roll-rate分(fen)析
針對流失的目標定(ding)義,我(wo)(wo)們鎖定(ding)一批(pi)用(yong)(yong)(yong)戶(hu)(hu),觀察其在后(hou)(hou)續(xu)(xu)(xu)(xu)業務(wu)(wu)使(shi)用(yong)(yong)(yong)方面的持(chi)續(xu)(xu)(xu)(xu)沉(chen)默(mo)天(tian)數(shu),滾動考察用(yong)(yong)(yong)戶(hu)(hu)持(chi)續(xu)(xu)(xu)(xu)沉(chen)默(mo)環比。我(wo)(wo)們發現(xian),當用(yong)(yong)(yong)戶(hu)(hu)在該業務(wu)(wu)持(chi)續(xu)(xu)(xu)(xu)沉(chen)默(mo)天(tian)數(shu)超過兩(liang)周后(hou)(hou),持(chi)續(xu)(xu)(xu)(xu)沉(chen)默(mo)環比高于X%且后(hou)(hou)續(xu)(xu)(xu)(xu)趨勢(shi)平穩。因此我(wo)(wo)們將本次(ci)該業務(wu)(wu)流失分析(xi)的目標定(ding)義為:用(yong)(yong)(yong)戶(hu)(hu)該業務(wu)(wu)使(shi)用(yong)(yong)(yong)出現(xian)連續(xu)(xu)(xu)(xu)沉(chen)默(mo)14天(tian)及以上。基于該定(ding)義著手構建建模(mo)分析(xi)樣(yang)本。
2. 數據(ju)理(li)解
針對用戶流失(shi)預警(jing)這一(yi)分析(xi)目(mu)標,我們重點考察用戶活躍類(lei)指(zhi)標,構建(jian)流失(shi)預警(jing)分析(xi)建(jian)模指(zhi)標體系:
3. 數據準備
3.1. 樣(yang)本構造
流失預警分析樣本(ben)數據選取(qu):
1) 鎖(suo)定某日(ri)業務使用活躍用戶(hu),統計其在后續14天(tian)的(de)活躍情況;
2) 由(you)連續(xu)14天(tian)沉默帳號和14天(tian)有活躍帳號構成(cheng)樣本(ben),并打上相應(ying)標簽;
3) 統計(ji)樣本賬號(hao)在觀察點前8周(zhou)的行為特征,按周(zhou)匯總輸出,同時加入包(bao)括(kuo)基礎(chu)畫像的特征屬性。
3.2. 數據質量(liang)檢驗
這項工作的重要(yao)性不(bu)言而喻,正所謂“垃圾進,垃圾出”,基礎數據(ju)如果(guo)無法保證(zheng)良好的數據(ju)質(zhi)(zhi)量(liang),分(fen)(fen)析研究工作便(bian)會舉步維(wei)艱(jian)甚至是徒勞,分(fen)(fen)析得(de)出的結論也是無效或(huo)者(zhe)是錯誤的。因(yin)此(ci),我(wo)們需(xu)要(yao)建立一(yi)套完(wan)整有效的數據(ju)質(zhi)(zhi)量(liang)檢驗流(liu)程,這里(li)暫且不(bu)就這部分(fen)(fen)內容展(zhan)開介紹(shao)了。
4. 建模分析
根據SEMMA的數據挖掘方法論(lun),建模分析過(guo)程主要包括(kuo)抽樣(yang)(Sample)、探索(Explore)、修(xiu)改(Modify)、建模(Model)和評估(gu)(Assess)這五個關鍵環節(jie)(jie)。而下面就這五個環節(jie)(jie)的技術實現過(guo)程中涉及到的一(yi)些關鍵點進行簡要闡述:
4.1. 粒(li)度的選擇
根據分(fen)析目(mu)標,選擇合適的分(fen)析粒度。不(bu)同的粒度意味著需(xu)要(yao)對數據需(xu)要(yao)做不(bu)同方式(shi)的處理以(yi)及應用(yong)。比如說(shuo)我(wo)們是基于帳(zhang)號還是自然人,這個問題需(xu)要(yao)在模型建設初期就明確下來。目(mu)前流失預警(jing)分(fen)析以(yi)QQ用(yong)戶帳(zhang)號為分(fen)析單元。
4.2. 抽樣與過抽樣
抽樣(yang)(yang)就是從原(yuan)(yuan)始數(shu)(shu)據中,抽取一定(ding)量的記(ji)錄(lu)構(gou)成(cheng)新的數(shu)(shu)據。對(dui)于原(yuan)(yuan)始數(shu)(shu)據規(gui)模(mo)非常大的場景(jing)來(lai)說,抽樣(yang)(yang)往往是必要的,可以(yi)大大提升模(mo)型訓練的速度。當(dang)然,隨著分布式計算等大規(gui)模(mo)數(shu)(shu)據處理及(ji)分析能力的引入(ru),使用完整(zheng)的、大量的數(shu)(shu)據樣(yang)(yang)本進(jin)行(xing)模(mo)型訓練的可能性也越(yue)來(lai)越(yue)高。
而過抽(chou)樣則(ze)可以理解為(wei)(wei)多抽(chou)取稀有(you)(you)的標(biao)簽,而少取常見(jian)的標(biao)簽,這(zhe)種抽(chou)樣方法在(zai)建模(mo)(mo)(mo)過程(cheng)中相當常見(jian)。比(bi)(bi)如(ru)本(ben)(ben)(ben)次流(liu)失(shi)(shi)分(fen)析的場景下,流(liu)失(shi)(shi)用戶作為(wei)(wei)目標(biao)樣本(ben)(ben)(ben),相比(bi)(bi)整體大盤來說肯定是屬于稀有(you)(you)的標(biao)簽。為(wei)(wei)保證模(mo)(mo)(mo)型(xing)的有(you)(you)效性,我們需要按(an)照一(yi)定配(pei)比(bi)(bi),建立有(you)(you)流(liu)失(shi)(shi)和(he)非流(liu)失(shi)(shi)用戶構成的建模(mo)(mo)(mo)樣本(ben)(ben)(ben),并分(fen)別打上(shang)‘1’和(he)‘0’的狀態(tai)標(biao)簽。兩(liang)類樣本(ben)(ben)(ben)的比(bi)(bi)例(li)關系并沒有(you)(you)固(gu)定標(biao)準。一(yi)般情(qing)況下,目標(biao)標(biao)簽樣本(ben)(ben)(ben)占建模(mo)(mo)(mo)數據集的比(bi)(bi)例(li)在(zai)20%-30%,會產(chan)生較好的模(mo)(mo)(mo)型(xing)效果。
另外,也可以(yi)通(tong)過樣(yang)本加(jia)權的方(fang)式進行過抽樣(yang),實現增加(jia)建模(mo)數(shu)據集密度的同時而(er)不減(jian)少其規模(mo)。具體操作上一(yi)般(ban)將最大的權重設為1,而(er)其他所(suo)有(you)權重都取小于1的值(zhi),以(yi)此(ci)減(jian)少模(mo)型過擬合的風險(xian)。
4.3. 數(shu)據探(tan)索與修改
數(shu)據(ju)(ju)探索即對數(shu)據(ju)(ju)開展初步分析(xi),包(bao)括考察預測變量(liang)(liang)(liang)的統(tong)計特性(xing)及(ji)(ji)分布(bu)、缺失及(ji)(ji)異常值發現及(ji)(ji)處理、變量(liang)(liang)(liang)關(guan)聯性(xing)及(ji)(ji)相關(guan)性(xing)分析(xi)等單變量(liang)(liang)(liang)或多變量(liang)(liang)(liang)交叉分析(xi)。
4.3.1. 變量離散化
在(zai)對(dui)(dui)建模數(shu)(shu)據進行(xing)單變(bian)(bian)(bian)(bian)量分析及預處理(li)的過程(cheng),對(dui)(dui)變(bian)(bian)(bian)(bian)量進行(xing)分組(zu),目(mu)的在(zai)于觀察變(bian)(bian)(bian)(bian)量與目(mu)標事件的對(dui)(dui)應趨勢,判斷是否與實際業務理(li)解相符(fu),從而決定變(bian)(bian)(bian)(bian)量是否適用。同(tong)時通過變(bian)(bian)(bian)(bian)量分組(zu),減少變(bian)(bian)(bian)(bian)量屬性個數(shu)(shu),有助(zhu)于避(bi)免(mian)異常值對(dui)(dui)模型的影(ying)響(xiang),提(ti)升(sheng)模型的預測(ce)和泛化能力(li)。
具體做法是(shi)對變(bian)量(liang)按照一定規(gui)則(ze)進(jin)行劃(hua)(hua)分,比如對于連續型的(de)數值(zhi)變(bian)量(liang),按照樣(yang)本(ben)量(liang)分位(wei)點進(jin)行等高劃(hua)(hua)分或者對變(bian)量(liang)值(zhi)進(jin)行等寬劃(hua)(hua)分為若干個區間。
4.3.2. WOE(Weights of Evidence)值計算:
在變量(liang)分組(zu)的基礎上,我們這里使用證據權重(zhong)WOE對變量(liang)取(qu)值的編碼轉換,作(zuo)為最后模型的輸(shu)入。WOE的計(ji)算公(gong)式(shi)如下:
WOEattribute = log(p_non-eventattribute /p_eventattribute)
其中:
p_non-eventattribute = #non-eventattribute/#non-event(模型變量各(ge)特征(zheng)分段下(xia)非事件響(xiang)應用(yong)戶數(shu)占總體非事件響(xiang)應用(yong)戶數(shu)的比例(li))
p_eventattribute = #eventattribute/#event(模型變量(liang)各特征分段下事(shi)件響應用戶數(shu)占總體事(shi)件響應用戶數(shu)的比(bi)例)
從這個公式中可以看到,WOE表示的(de)(de)實際上是“當(dang)前分組(zu)中非(fei)響應用戶(hu)(hu)占所有非(fei)響應用戶(hu)(hu)的(de)(de)比(bi)例”和(he)“當(dang)前分組(zu)中響應的(de)(de)用戶(hu)(hu)占所有響應的(de)(de)用戶(hu)(hu)的(de)(de)比(bi)例”的(de)(de)差(cha)異。
WOE越大,這種差(cha)異越大,這個分組里的樣本(ben)響應的可能(neng)性就越小,即用戶流失風險越小。
將字符型和數據型變量分組后的(de)(de)WOE值(zhi),可以作為回歸模型訓練的(de)(de)輸入。
4.3.3. 變(bian)量選擇
關于模(mo)型待選變量的選擇標準主要從四個方(fang)面(mian)加(jia)以考慮(lv):
? 變(bian)量的預測能力
? 變量的穩定性(xing)
? 變量(liang)與業務的趨勢(shi)一(yi)致性(xing)
? 變量間的相關性
1) 變量(liang)的預測能(neng)力
在變(bian)量(liang)預(yu)測(ce)力方面,選擇計(ji)算信息值(zhi)IV(Information Value)來(lai)量(liang)度。IV值(zhi)一方面可以(yi)用于選擇預(yu)測(ce)變(bian)量(liang),另一方面也可以(yi)作為(wei)分組是否合適的判斷(duan)依據。
IV的定義和熵(平均信息量(liang))的定義很相似(si):
IV = ∑((p_non-eventattribute - p_eventattribute) * woeattribute)
一般情況下(xia),IV的衡量標準如下(xia):
2) 變量的穩定性
變量的穩定性主(zhu)要(yao)是跨時點考察特征分(fen)段(duan)樣本分(fen)布(bu)是否存在(zai)明顯異(yi)動。對波動性較強的變量則需(xu)要(yao)考慮是否需(xu)要(yao)結(jie)合(he)時間(jian)序列做衍生處理,又(you)或者被剔除。
穩定性指標通過(guo)PSI(Population Stability Index)來度量。具(ju)體計算(suan)公式如下:
Index=∑((比(bi)(bi)(bi)較時點(dian)分(fen)(fen)段樣本(ben)百分(fen)(fen)比(bi)(bi)(bi)-基準時點(dian)分(fen)(fen)段樣本(ben)百分(fen)(fen)比(bi)(bi)(bi))*ln(比(bi)(bi)(bi)較時點(dian)分(fen)(fen)段樣本(ben)百分(fen)(fen)比(bi)(bi)(bi)/基準時點(dian)分(fen)(fen)段樣本(ben)百分(fen)(fen)比(bi)(bi)(bi))
一般情況下,PSI的衡量標(biao)準如(ru)下:
3) 變量與(yu)業務(wu)的趨勢一致性
這個標準可以(yi)結合業務知識、特(te)征分布及WOE進行綜合判斷(duan)。
4) 變量間相關性
計算變量間(jian)的(de)相(xiang)(xiang)關(guan)系(xi)數,當模型(xing)變量間(jian)的(de)相(xiang)(xiang)關(guan)性(xing)過高,產生共線性(xing) (collinearity) 的(de)問題,可(ke)能(neng)會導致(zhi)模型(xing)的(de)預測(ce)能(neng)力(li)下降,甚至出現與預測(ce)結果相(xiang)(xiang)反無法解釋(shi)的(de)現象。為避免變量間(jian)的(de)高度相(xiang)(xiang)關(guan)削弱模型(xing)預測(ce)能(neng)力(li),對相(xiang)(xiang)關(guan)系(xi)數較高的(de)變量集(ji)合(he)可(ke)通(tong)過IV擇優選取(qu)。
4.4.建模
前面我(wo)們(men)通過大量的(de)特征分(fen)析(xi)工(gong)作圈(quan)定了有效(xiao)模(mo)型入選變量,接下(xia)來通過模(mo)型算(suan)(suan)法(fa)的(de)選擇調用(yong)最(zui)終(zhong)輸出模(mo)型結(jie)果,給每個(ge)用(yong)戶單元計算(suan)(suan)流失概率。作為(wei)一個(ge)分(fen)類問(wen)題,目前我(wo)們(men)有比(bi)(bi)較(jiao)(jiao)多的(de)模(mo)型算(suan)(suan)法(fa)可以嘗(chang)試,比(bi)(bi)如說(shuo)邏(luo)輯回(hui)(hui)歸(gui)(gui)和決策樹等。通過模(mo)型比(bi)(bi)較(jiao)(jiao),我(wo)們(men)最(zui)終(zhong)選擇邏(luo)輯回(hui)(hui)歸(gui)(gui)進(jin)行建(jian)模(mo)。由于(yu)邏(luo)輯回(hui)(hui)歸(gui)(gui)是業務(wu)已經比(bi)(bi)較(jiao)(jiao)成熟的(de)分(fen)類算(suan)(suan)法(fa),大多數分(fen)析(xi)同學應該都(dou)比(bi)(bi)較(jiao)(jiao)了解,這里(li)就不(bu)再贅述其原理。
5. 模型評價
對(dui)于一個模型是否達標,我們一般會(hui)從以(yi)下(xia)幾個方面(mian)去考量:
1) 是(shi)否達到符合應用要求(qiu)的準確性水平
這(zhe)里我們可(ke)以通過Lift Charts(又叫 gains chart)、ROC Charts、KS等(deng)評價(jia)指標來(lai)對模型性(xing)能進(jin)行評估比較。
2) 是否具有較高的穩定性
同(tong)樣的(de),我(wo)們(men)可以(yi)借鑒(jian)變量(liang)分(fen)析里面的(de)穩定性系數PSI來(lai)衡量(liang)及(ji)監控模型的(de)穩定性;
3) 是否簡單
這(zhe)個標準主要是從(cong)模(mo)型(xing)部署的(de)角度考慮,模(mo)型(xing)如果足(zu)夠簡單(dan),將更有利于模(mo)型(xing)的(de)IT部署應用(yong)。
4) 是否有意義(yi)
即在模(mo)型變量及其預(yu)測結果方面具有(you)(you)較(jiao)強的(de)可(ke)解釋(shi)(shi)性。這(zhe)對于某些場景來說(shuo)要(yao)(yao)非常看重的(de)指(zhi)標,比(bi)如說(shuo)在銀行信(xin)貸的(de)信(xin)用評分模(mo)型的(de)應用上(shang)。它是(shi)技術與業(ye)務(wu)有(you)(you)效(xiao)連接(jie)的(de)重要(yao)(yao)橋梁,有(you)(you)利于業(ye)務(wu)方更好理解模(mo)型并有(you)(you)效(xiao)指(zhi)導業(ye)務(wu)開展。當然,隨著機器學習(xi)領域一些高級算法(fa)的(de)研(yan)究使用,可(ke)解釋(shi)(shi)性要(yao)(yao)求在某些場景下已(yi)經不屬于必要(yao)(yao)條(tiao)件(jian)。
6. 模型應用(yong)
關于(yu)模型(xing)應(ying)用(yong),我(wo)們主要聚焦在以下兩個(ge)方面:
1) 用預(yu)測模型得(de)到影響流失的重要(yao)因素(su)
通過(guo)單變量分析找出(chu)對業務有(you)突出(chu)影響的一系(xi)列“Magic Number”。為什(shen)么叫“Magic Number”?顧名(ming)思義(yi),這個(ge)數(shu)字能給業務增長帶來魔(mo)力般的神奇促(cu)進效果。通過(guo)對關鍵影響指標(biao)的量化分析,可以幫助業務有(you)效制定運營目標(biao)。
在流失(shi)預(yu)警的(de)分(fen)析中(zhong),我們(men)發現若干(gan)對用戶(hu)(hu)流失(shi)顯著相關的(de)特征指(zhi)(zhi)標(biao),當指(zhi)(zhi)標(biao)B取值達到X2及以(yi)上時,用戶(hu)(hu)流失(shi)率只有(you)(you)取值X2以(yi)下(xia)用戶(hu)(hu)的(de)30%左右,可(ke)見指(zhi)(zhi)標(biao)B對于促(cu)進用戶(hu)(hu)留存(cun)有(you)(you)正向作(zuo)用。業務方可(ke)根據以(yi)上分(fen)析結(jie)論制定(ding)相應業務目(mu)標(biao)及策略。
2) 用(yong)預測模型(xing)預測客戶流(liu)失的(de)可(ke)能性
利用(yong)模型輸(shu)出的(de)(de)(de)概率結果,對流失概率最高的(de)(de)(de)一部分用(yong)戶(hu),可以(yi)(yi)(yi)開展針(zhen)對性(xing)的(de)(de)(de)運營管(guan)理,比如設計有(you)效的(de)(de)(de)喚醒機制、個(ge)性(xing)化推(tui)薦(jian)以(yi)(yi)(yi)及(ji)(ji)合作產(chan)品引導(dao)(dao)等,挖(wa)掘用(yong)戶(hu)的(de)(de)(de)應用(yong)需求(qiu)點和(he)興趣點。同時建立分析-應用(yong)-反饋的(de)(de)(de)閉(bi)環流程,持續對用(yong)戶(hu)留(liu)存流失進行監控管(guan)理,及(ji)(ji)時發現問題,以(yi)(yi)(yi)指(zhi)導(dao)(dao)模型優化及(ji)(ji)策略(lve)更新。
4 優(you)化研(yan)究(jiu)方向
可以嘗試從以下兩個方面開(kai)展優化分析:
1. 用戶群(qun)體(ti)細分:針對不同類型的用戶分別搭(da)建流失預(yu)警模型;
2. 用(yong)(yong)戶行(xing)為(wei)分析:分析用(yong)(yong)戶產品使(shi)用(yong)(yong)行(xing)為(wei)及內容偏好,挖掘用(yong)(yong)戶使(shi)用(yong)(yong)習慣及興趣點,實現個性化推(tui)薦(jian),拉動用(yong)(yong)戶活躍。
5 結語
在(zai)(zai)用戶(hu)流失預警這個分(fen)(fen)析案(an)例中,我(wo)們(men)結(jie)合業務(wu)現狀,在(zai)(zai)用戶(hu)生命周期管(guan)理的(de)(de)(de)大框架下(xia),采用業界較為成熟(shu)的(de)(de)(de)數(shu)據(ju)分(fen)(fen)析挖掘方法論(lun),開展數(shu)據(ju)分(fen)(fen)析工作。這里面重(zhong)點介紹了特征分(fen)(fen)析的(de)(de)(de)方法,這是我(wo)們(men)在(zai)(zai)做(zuo)用戶(hu)數(shu)據(ju)分(fen)(fen)析過(guo)(guo)程非常(chang)重(zhong)要且必不可少的(de)(de)(de)部分(fen)(fen)。而(er)在(zai)(zai)特征分(fen)(fen)析過(guo)(guo)程中,我(wo)們(men)可以更(geng)加深(shen)(shen)入的(de)(de)(de)了解業務(wu)特性,輸出更(geng)多(duo)的(de)(de)(de)數(shu)據(ju)價值(zhi)。這也是本文所(suo)希望能夠傳(chuan)達出來(lai)的(de)(de)(de)一塊重(zhong)要信息。由于知識和篇幅所(suo)限,有(you)很多(duo)細節(jie)沒能闡述得特別(bie)深(shen)(shen)入,有(you)些方法也許不是最優的(de)(de)(de)做(zuo)法,歡(huan)迎對(dui)BI感興趣的(de)(de)(de)同學加強交(jiao)流,共同進步,更(geng)好地將數(shu)據(ju)價值(zhi)應用到(dao)實際業務(wu)中。
關注公眾號:
華夏經緯數據科技
更多調研資訊>>
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。