身為數據分析師,我怎麼看hahow上”R語言和商業分析”這門課

在hahow上,R語言和商業分析是程評價相當高的課程之一,開課的是大鼻觀點的大維與辰禧,在這門課開課之前,就有關注David’s Perspective這個blog,文章內容非常有趣,理論實務兼具,反正很對我胃口。因此當得知他們開了這門課,非常好奇他們會用什麼有趣的角度來教學。

這篇不是學習心得,主要想紀錄從一個數據分析師的角度來看,覺得課程設計好的地方。

先說結論,對於想學習R語言來實現基本的機器學習的初學者,我覺得這是一門非常非常好的課程。

Image for post

優點1:課程的架構設計

外面大多的課程或是書籍吧,教R就教R,教機器學習就教機器學習,因為這兩個都是可以投入相當精力學習研究。然而對於初學者來說,最難的就是,到底要如何掌握該學到什麼程度?

所以常常必須在幾個教材來回跳著翻閱,消耗了很多時間及精力,甚至可能就放棄了。

而這門課兼顧兩者,對初學者非常友好,在1~6章時介紹了基本概念以及R的一些用法,著墨在資料整合、清洗與可視化(dplyr包&ggplot2包),到了第7~9章,介紹常用的算法模型時,就可以立刻應用上前面的知識,不多不少剛剛好。

只要穩穩地跟著課程節奏,扎實的學習即可。

優點2:從商業問題出發,強調「如何使用工具解決問題」

在學校時,教學方式主要都是先學理論、數學推導…等等的,可能再補充理論可以怎麼應用;這門課則是先說一個背景:我遇到什麼問題?再說解決此問題要用到的方法。

雖然只是順序上的調整,但對於學習者來說,清楚地理解背景,可以更容易進入狀況,一次就專心解決一個問題。

而且在真實職場,我們也是這樣的出發方式。一定是先遇到了問題,再想有哪些解決方法,在做不同方法間的的優劣評估(評估模型準確度、評估資源、評估時程、評估數據支持度…等)。

優點3:A/B test

這章節非常讓我驚豔!對於2C的互聯網產品,A/B test是相當常見的優化產品分析方式。但我自己工作,剛好都沒接觸到A/B實驗,雖然自己學過相關的統計方法,也因為好奇有上網查一些資料、看過一些教學影片,但內容都覺得像在搔癢,摸不到深處,還是不太清楚實際應用上的場景。

這章節幫我把鏈路串了起來,先t_test做假設檢定,ANOVA作變異數分析,再做一個事後驗證,用Tukey比較不同維度的差異,最後用ggplot2可視化。

如果把這些常用步驟固化下來成為”功能”,再開發一些介面做交互,就產品化成一個A/B test平台吧?

## 半佛系鼓掌
原來只要滑鼠一直按著不放就可以一直鼓掌了。那請你按久一點:)有任何想法或感興趣的地方歡迎留言/討論,或者歡迎Facebook找我!往期的數據相關文章可以參考最下面的link。

優點4:非常多補充教材-老師的話

每個章節,在老師的話裡,補充了不少相關文章,內容精華,看得滿開心的,我想這就是反映出了日常的積累吧,值得自己學習。

優點5:代碼簡潔

多少人被交接時看到那堆亂七八糟的代碼想殺人,一定也有人過陣子回來看自己代碼時,都快看不懂當初自己寫的邏輯。

寫codind都是以解決問題為第一優先,但到了中後期,其實coding的寫法、結構也很重要。一定要重視,一定要把它當回事,比如,如何命名變數/函數,從而使得程式碼足以自解釋?在自解釋程式碼的基礎上,如何通過畫龍點睛的注釋精確傳達你的設計意圖?

本課程的代碼寫得很漂亮(至少比我自己簡潔),也是值得學習之處;而對於入門者,若從一開始就養成良好的習慣也非常好。

不足處:機器學習的理論知識

我覺得這是很多課程都會面臨到的吧,就是難度到底要到哪?如過目標是希望可以讓人快速上手,免不了省略了細節。因此說不足嗎…倒也不是不足,主要是課程定位的問題吧。

但如果想在這條路深耕,務必要回頭加強對理論的掌握度,以及數學能力的儲備,基本的有微積分/線性代數/機率論/統計學。不懂模型只會調用R包的話,變成調包俠/調參俠,也不是好事…

更深入學習機器學習理論的課程,我還是推薦吳恩達,包含在史丹佛的cs229公開課,以及其在coursera開的課程,課程連結以及相關筆記等資源可以參考之前文章<精選幾個機器學習的資源>。


	

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.