
數據分析工作,我認為SQL才是首先要掌握的語言,但可能它是一個已經很久的語言,也比較樸實不搶眼,所以常常被忽略了。
我是經濟背景,剛踏入數據分析師,其實也完全沒碰過資料庫,都是自學的,如果你想了解我當初學習的過程,或是還不太清楚SQL對數據分析的重要,可以參考
總之,自學的過程中我覺得:不難啊,滿簡單的。
但真實工作開展中,我還是會在“取數”的過程卡住很久,而現在帶新人時,面試時我也都考過他們基本能力,但到實際工作中,還是….有點慘不忍睹…
奇怪,明明看似不難啊,為什麼到工作中就沒法快速上手?
經過一陣子的思考,我發現SQL精通的過程,很依賴大量的實務練習,造成實務跟自學的落差,有以下原因:
1.只是在學語句,無法靈活運用

2.案例缺乏商業場景
WHERE子句
,但在工作中,什麼場景要用到這個語句呢?我為什麼需要篩選?分析過程中用的遍地開花的CASE WHEN
3 數據量太小,無法訓練“數據敏感度”
分析開展前,通常會先對數據進行了解,例如數據是什麼格式,有沒有異常數據,數據分佈的情況,這些依賴我們的“數據敏感度”。
但平台所提供的案例頂多幾百筆,我肉眼喵兩下就看出來了。工作中,幾十萬、幾千萬、幾億筆的數據量比比皆是,也只有在這種大量數據的情況下,數據敏感度才有機會獲得一定程度的鍛鍊。

4.實操環境的不足
親自動手永遠是練習寫程式最快的方法
大多資源沒有線上環境可以實操,而可實操操的網站(
這邊想再延伸聊一下"分析平台",不論csv、關係數據庫,都是數據儲存的一個載體,但他們並不是為大數據而生的,隨著網路產業的發展,越來越多公司開始探索大數據應用,數據挖掘、數據分析與數據探索等關注度越來越高,也越來越多企業開始導入hadoop這套最主流的大數據架構。
這幾年常聽到的數據中台、乃至數據湖的概念,都是以hadoop為基礎的延伸。可以說,要成為優秀的數據工作者,Hadoop是逃不開的知識,尤其是其中的數據倉庫工具Hive更是重要。
Hive是hadoop生態系統非常重要的一個工具,它提供了一種類SQL的語言,可以查詢存儲在Hadoop分布式文件系統(HDFS)中的數據,也可以查詢Hadoop數據庫(Hbase)中的數據
有能力的公司會自建hadoop UI平台,有的公司會用開源的HUE,不論哪個,其背後的計算引擎、調度機制、集群管理都與傳統的關係數據庫有不小的差異,然而hadoop的部屬比較複雜,所以很難有機會練習到。

- 『Rock Data』粉絲頁跟IG(@andyrockdata)圍繞"數據"這一話題(數據分析、數據治理、數據應用等),也分享互聯網、職場中的思考以及一些有趣的人事物。立即追蹤不錯過任何數據大小事(https://www.facebook.com/andyrockdata)
- 【入門數據分析,掌握Hive SQL取數能力】在hahow募資啦!募資期間三人同行一個人只要1,680元(原價2,680的63 折!)把握機會阿! | 課程連結:http://hahow.in/cr/andyrockhive
