Google Data Catalog如何幫忙管理數據? 產品介紹與體驗心得

隨著Data得重要性被意識到,越來越多公司開始引入大數據技術,也不斷加強Data的應用,隨著Big Data越來越普及、越來越複雜的數據以及架構,對數據生產者跟數據消費者也面臨越來越棘手的問題。

對於數據生產者,用戶隱私意識的加強,伴隨資料保護法的推出(例如歐盟的通用資料保護法-GDPR),哪裡存在了隱私數據、這些隱私數據該如何管控?

對於數據消費者(涵蓋了數據分析師、產品、營運等多種角色),我們常常不理解跟不信任數據,問題圍繞以下幾點:

  • How to find it?該去哪裡找到我想要的數據?
  • Should it be used?對於我要分析的業務、主題,這數據是我要用的?
  • How should it be used? 每個column什麼意思?表跟表之間是什麼關係?

做數據分析的朋友可以想一下,是不是在分析前這些過程就佔了許多時間?可能你們團隊內部還有維護word或excel做紀錄。

這些都可以被列為數據治理(Data Governance)的議題,以前如果要系統的管理這塊,必須內部自己開發Data Governance產品,或是藉由開源產品(例如Apache Atlas、LinkedIn Wherehows)做二次開發。

隨著雲服務發展、相關廠商包含微軟Azure、Google Cloud、IBM、AWS等都有數據治理的產品,也有專門做數據治理產品的公司,例如DataHub、Alation

這篇文章介紹Google Cloud- Data Catalog這款產品的功能、能力(多圖),並總結下我的體驗心得。

本文架構:
1. Data Catalog 基本訊息
2.產品結構
3.詳細說明
4.體驗心得

一、基本訊息

在Google Cloud的Data Analytics Family定位

Screen Shot 2022-06-13 at 6.52.34 PM
Source: https://cloud.google.com/blog/topics/developers-practitioners/intro-data-science-google-cloud

產品介紹

  • Data Catalog is a fully managed, scalable metadata management service in Google Cloud’s Data Analytics family of products.
  • A full managed and high scalable data discovery and metadata management service. It can pinpoint data with a simple but powerful faced-search interface and sync techical metadata automatically and create schematized tags for business metadata.
  • KeyWord: Discovery, Manage , Understand

產品特色與優勢

  • Feature
    • A simple and easy to use search interface for data discovery, powered by the same Google search technology that supports Gmail and Drive.
    • A flexible and powerful cataloging system for capturing technical and business metadata.
    • An auto-tagging mechanism for sensitive data with DLP API integration.
  • Benefit :
    • Pinpoint your data with a simple but powerful faceted-search interface
    • Sync technical metadata automatically and create schematized tags for business metadata
    • Tag sensitive data automatically, through Cloud Data Loss Prevention (DLP) integration
    • Get access immediately then scale without infrastructure to set up or manage

二、產品結構

2.1 訊息結構

Screen Shot 2022-06-18 at 2.39.33 PM

2.2 業務流程

Screen Shot 2022-06-18 at 2.41.34 PM

三、詳細說明

3.1 連接器

對於GCP的數據、私有的RDBMS等資料庫、甚至BI tool有內置連接器對接,未支持的數據源也允許開發者透過API連接(API技術文檔)

Screen Shot 2022-06-13 at 5.15.45 PM
Source: https://medium.com/google-cloud/google-cloud-data-catalog-and-tableau-integration-204c1d17cc62

3.2 Search

  • 首頁由search bar乘載Data Discover能力,及檢視所有數據資產的入口(View ALL)
  • search bar:允許邏輯語法操作,例如 name:x label=foo:bar,有搜索關鍵詞提示
  • Filter:支持Scope、Systems、Data Type、 Project、 Tag Template、 Dataset篩選,跟search result連動 ,更彈性的支持在metadata很多時,用戶能更彈性的查找
Screen Shot 2022-06-13 at 10.55.56 AM

3.3 Dataset/Table Info

  • 展示技術元數據(table detail)、table overview、table tag、schema
  • 主要功能為對table、schema添加描述性wording及打標籤(業務元數據),在頂部Attach tags,Tags、 Scheam三處支持打標,另對接BigQuery、 Data Studio等Google產品
Screen Shot 2022-06-13 at 4.10.37 PM

3.4 Tag templates

Tag templates help you create and manage common metadata about data assets in a single location. The tags can then be attached to the data asset, which means it can be discovered in the Data Catalog system.
Unknown

3.4.1 Tag templates簡介

  • tag template支持對dataset、table、Schema打標(Business metadata)
  • Dataset打標:選擇dataset–添加tag–>選擇模板(多選)–>填入tag值
  • Table打標:選擇table–>添加描述(overview)–添加tag–>選擇table且/或column->選擇模板(多選)–>填入tag值
  • 添加描述為一個富文本編輯器,支持插入圖片等能力
Screen Shot 2022-06-13 at 4.25.40 PM
Screen Shot 2022-06-13 at 11.52.44 AM

3.4.2 Create Tag Template

  • 內置6個模板:Data Governance、Data Governance III、 Geo Context、 Data Quality、 Data Quality III、 Data Ingestion (模板內的參數可參閱文末),亦支持用戶自定義
Screen Shot 2022-06-13 at 4.41.54 PM

  • 自定義配置(Field配置):設置是否必填(Make this field required)及數據類型(String, Double, Boolean, Enumerated, Datetime, Richtext),其中Enumerated需再配置values

3.5 Policy tag

Policy tags control access to columns in BigQuery tables. Use taxonomies to create hierarchical groups of policy tags. To apply access controls to BigQuery columns, tag the columns with policy tags.
Unknown2

3.5.1 Policy tag簡介

  • policy tag對Schema打標,根據該policy tag配置的相應的用戶角色,即可頻蔽無權限用戶在big query中檢視該column (也不可select)
管理員對敏感字段設置Policy tag
無權限用戶視角下,無法查看Employee_Name、Employee_Name、DOB等column
  • 支持開發者以coding批量打標

3.5.2 Create Taxonomy

支持最多四層的subtag

Screen Shot 2022-06-13 at 4.49.05 PM

四、體驗心得

產品的信息結構比較簡單,圍繞在數據管理跟數據安全,功能亮點在search bar跟敏感數據(Pii)的AI掃描。

search支持簡單語法,更好的解決了“How to fine data” 的問題;敏感數據AI掃描(DLP API能力)及透過policy tag+AMI實現在 Big Query 屏蔽無權限用戶檢索column。

敏感數據的AI掃描還不清楚具體實現原理,對比Azure文檔,實現方式可能之一:系統已有內置常見隱私數據的規則(例如全球各國家的身份證號碼格式),對全庫表的值進行掃描(暫不清楚是全量還抽樣掃、掃的準確度跟時效性如何) 。

但整體來說,業務應用場景感覺是相對缺乏,例如我透過tag template對table打上了數據質量的相關標籤(例如是否有重復值、是否有空值),除了可以在搜索中查詢檢索外,對於下游人員,”這個data是否可用、如何用?”依然是滿模糊的

或是某個schema之前有null,我對他打了“有空值”的tag,現在數據清洗已把空值都剔除,但還是需要手動/人工更新標籤值。

標記數據源需要瞭解擬使用的標籤模板的含義以及數據源中的數據語義的領域專家。基於所具有的知識,領域專家會選擇附加哪些模板以及從這些模板創建哪類標籤,人的參與至關重要。

Data Goverence是一個不小的議題,從這角度來看,Data Catalog只承載了其中的安全、管理,雖然說產品做減法比做加法重要,但自己目前不太確定產品是不是就定位在這?使用過程我感覺TA就是僅針對Data 管理員

使用data catalog的過程中,注意到了Google另一款 Dataplex,有更完整的Goverence能力;對比 Microsoft ,也是有個data catalog產品,但也似乎是另一個叫 Microsoft Purview的產品能力更全面。

For data discovery, cataloging, and metadata management, consider Data Catalog. For a unified solution, take a look at Dataplex, which integrates a unified data management solution with an integrated analytics experience.

五、其他說明

Tag Template內置

  • 1. Data Governance
A starting point to track important information about sensitive data, data governance contacts, and governance lifecycle attributes
  • 2. Data Governance III
For every column you can maintain information about data governance classification and type, such as PII.
  • 3. Geo Context
If your company works with regional structures, this is a way of maintaining to which region your data assets belong.
  • 4. Data Quality
Allows you to annotate your data assets with information about freshness details, known issues, missing information etc.
  • 5. Data Quality III
For every column you can add information about data quality, for example the cardinality or if the column has been deduped already.
  • 6. Data Ingestion

Add information about ETL jobs and their data sources

Following fields will be added to your template:

Add information about ETL jobs and their data sources

相關參考:

對「Google Data Catalog如何幫忙管理數據? 產品介紹與體驗心得」的一則回應

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.