數據化運營中玩過的分析項目:一個數據分析師的經驗總結

研究所畢業後,很意外的的混進了數據分析,又不知不覺的做了5年數據分析,可以說跟很多同事學到了不少東西,感謝他們無私的教給了我很多。

51435109_10210869312407520_3103410163973881856_o

SQL從完全不會到隨手join五個表創建中間層;從簡單完成分析任務到全棧的思考,往後端思考代碼的嚴謹性、易讀性、可複用性;往前端思考業務指標的有效性、指向性、落地執行效果。

此文從整理了自己常用到/曾用過的方法有哪些,又有哪些還沒有應用到。

1.線性回歸分析

回歸分析是很常用的預測方法,我踏入職場第一個項目所用到的分析方法。

雖然此Model有一些限制,例如有不少前題假設,但他速度快、效率高且通俗易懂,仍是一個好用的方法。

Screen Shot 2019-02-24 at 10.11.40 PM

2.RFM Model(分層模型)

對於用戶特徵分類的議題,大多會使用RFM、聚類分析跟決策樹。RFM模型雖然比較樸實無華,但還是一個很具影響力跟知名度的Model。

作為一個成熟的分析方法,完全可以應用到其他行業以及互聯網行業上,例如航空業的LRFMC模型就是對RFM模型的拓展。(我實際應用RFM model的場景可以參考之前的文章:電商小程序TOP100榜單怎麼來的)

3.關聯分析(交叉銷售模型/Apriori算法)

沃爾瑪著名的啤酒尿布模型,簡單說,就是只買了A商品的人,又有很多人買了B商品,那麼我們就可以認為A、B兩個商品的關聯性高。

但我認為這種結論很難發現,從直覺看,關連度高的都集中在同性質的商品。在產品種類不是非常多的情況下,使用更好懂的交叉分析,業務方的接受度更高。

舉個例子,對於買了A插件的商家,大多會配套買什麼插件?以此關聯,作為打包出售(組合購買)的依據。

Screen Shot 2019-02-24 at 1.46.23 PM
交叉分析示意圖

4.留存分析

留存分析是一種用來分析用戶參與情況/活躍程度的分析模型,考查進行初始行為後的用戶中,有多少人會進行後續行為。是 AARRR 模型中重要的環節之一

Screen Shot 2019-02-24 at 4.08.33 PM
留存分析示意圖

有時候我們光看日活(DAU),會覺得數據不錯,但有可能是因為近期有密集的推廣拉新活動,注入了大量的新用戶,但是留下來的用戶不一定在增長,只不過被新用戶數掩蓋了所以看不出來。

  • Note1:其實我思考更在意,“時間區間的切割方式”及“觀察的天數要幾天”這兩個問題。對於遊戲這種週期性很短(或是說頻率很頻繁),關注每日留存很合理,但在轉換週期長的行業,或許3~7天、8~15天分組聚合會更好。另是觀察到近7天就好,還是要監控到30天?也是依據業務性質來判斷。
  • Note2:上圖可以用SQL做兩次處理後直接出來,就不用取了raw_data後再去分析工具處理。

5.路徑分析:

此為互聯網與傳統行業在數據分析很重要的不同點,即用戶在互聯網的所有行為都會被記錄下來,形成海量的日誌數據。需要具備1.日誌佈點、2.日誌採集、3.日誌解析及4.日誌分析的基本知識。

主要有三種方法: (1)社會網路分析法、(2)基於序列的關聯分析及(3)最樸素遍歷法。這幾個算法目前都超過我的理解範圍所以也沒什麼可以說的。大多數的路徑分析,主流使用平台是Google Analysis(GA),據我了解其思路也是用遍歷思路。

Screen Shot 2019-02-24 at 4.23.01 PM
路徑分析示意圖
  • Note1:網站分析比較重要的KPI指標有瀏覽量、訪問量、獨立訪客數、跳出率(Bounce Rate)、離開率(Exit rate)、轉化率、頁面停留時間、訪問頁面數、流量來源等。(會困惑的通常是“跳出率”與“離開率”,兩者差別可以參考Google的說明)
  • Note2:埋點的知識真的有點難,想系統化的了解,有SEO經驗的同學請推薦本好書來吧 :)

6.漏斗模型

漏斗模型更專注在關鍵節點,關鍵節點轉化率太低通常意味著需要通過產品優化來改善用戶體驗,最終提升關鍵節點的轉化率。因此漏斗分析可被用於產品優化的重要參考。

從嚴格意義上來說,漏斗模型是包含在路徑分析中的,漏斗模型是路徑分析的特殊情況,是針對少數關鍵節點的路徑分析。

Screen Shot 2019-02-24 at 4.24.32 PM
漏斗分析示意圖

要注意的是,漏斗的路徑要唯一。曾經遇過”註冊 →填寫驗證碼 →填寫密碼 →創建帳號”的路徑不唯一,此時漏斗分析就無法適用。(但可以根據業務場景限制條件,保障唯一性)

7.數據可視化

這不是一個分析方法,但還是想抽出來提一下。以往都會有種心態,要做一些很厲害的分析方法,似乎認為這樣可以顯示很深度很厲害的分析。可視化只是用圖表展現而已,沒什技術含量。其實,這是錯誤的觀念。

首先,條條大路通羅馬,因為不同的思路之間普遍是聯繫的、不同的算法是普遍聯繫的、數據本身是普遍聯繫的。只要可以解決問題,就是最好的方法。

第二,很多公司都還處於掌握數據的程度,即便是互聯網產業,也可能業務線的多元發展,新業務還在初步發展階段,連運營狀況的基本數據都還沒掌握。對於一直要追蹤的數據,用分析方法會花掉太多時間,對分析師也是在做重複工作。

搭建儀表板做數據可視化可以解決這問題,要思考的方向圍繞在,要用什麼類型的圖表呈現?什麼指標可以清楚反應狀況?儀表板展示邏輯怎麼設計?

除了企業自行搭建的BI系統外,針對提供這種服務的軟體,目前較多使用的應該是Tableau、powerBI 、FineBI。

若要感受可視化的威力,推薦可以去Tablea public 看看大神搭建的儀表板,根本是藝術家的層級了。

Screen Shot 2019-02-24 at 4.31.44 PM
Ryan Sleeper gives us a look into the ten highest grossing actors of all time by Tableau

8.分析的前置作業-數據處理

異常值/缺失值的處理、數據轉換(生成衍伸變量、改善分佈、數據標準化)、有效變量篩選、共線性

9.還是有不少分析方法尚未使用過

經過這樣整理後,發現還是有不少分析方法還沒用過或是只有淺層的接觸,包含流失預警、續約預測、聚類/神經網路/決策樹/支持向量機/羅輯回歸等分析方法。…是一個要持續學習的行業呢…共勉之

同行有什麼好議題、好思路、好方法,歡迎多多交流

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.