[心得] DaaS 數據產品開發實務分享（UNH3O PM） annedoo PTT批踢踢實業坊

[心得] DaaS 數據產品開發實務分享（UNH3O PM）

作者: annedoo (蕭安) 2020-04-06 22:10:07

前陣子參與 Women in Data Science 舉辦的線上分享會，
整理了當天的活動筆記與心得～
有圖好讀 medium 連結：
http://a0.pise.pw/RNR57
講者介紹 - 楊晴（Steff）
現任 AI 新創 UNH3O 產品經理，帶領產品 Engaged.AI 成長並負責從 0 到 1 的產品開發，為超過一萬個亞洲品牌提供 Instagram 數據分析服務。曾在社群數據分析顧問公司 QSearch 擔任 UX Engineer Lead，過去經歷研究端、設計端、技術與開發端的歷練，使她對於產品設計與開發的方法論與流程都有深刻的掌握。
正文開始
社群行銷在現代的行銷方法論中是很重要的一環，消費者對於品牌、服務、產品的接觸點與轉換行為都有機會透過社群媒體發生。UNH3O 的目標是分析社群媒體上的使用者足跡，並讓品牌可以去驅動和影響消費者的消費行為，包含增加觸及量、提升品牌認知、提升轉化率等等。主力產品分別為 Engaged.AI 和 Emerged.AI。
Engaged.AI：B2B（Business-to-Business）、SaaS（Software-as-a-Service）產品，主攻 Instagram 數據分析，協助行銷人員掌握行銷成效。
Emerged.AI：B2B（Business-to-Business）、DaaS（Data-as-a-Service）產品，可以看作是 Engaged.AI 背後的數據引擎，不只告訴行銷人員用戶行為與軌跡等基於事實的描述性分析（descriptive analytics），更會透過機器學習的方法，從表面的結果挖掘背後的洞見，進而提供客戶達成目標的建議（prescriptive analytics），用數據來驅動行銷策略。
▍什麼是 DaaS 產品？
DaaS（Data-as-a-Service）數據即服務，是一種讓客戶透過數據本身來體驗產品價值的服務形式。DaaS 產品建立在其數據可以按需（on demand）提供給客戶，不受數據提供者和使用者之間的地域、組織差異而有所影響。
在設計與開發 DaaS 產品時要注意這三個元素：
1. 獲取（Acquisition）：如何取得資料？
2. 轉化（Transformation）：如何從資料中產生出有價值的資訊？
3. 璆I（Delivery）：如何將數據交付與呈現給使用者？
▍數據獲取（Data Acquisition）
對 DaaS 產品來說，能夠持續拿到原物料才能有穩定的產出。常見的三種獲取數據方法如下。
方法一、數據合作（Data Co-op、Data Coopereation）
和用戶進行數據合作，由用戶來提供數據給產品，而產品提供給用戶數據分析的服務，隨著用戶數的累積可以獲得愈來愈多的資料。例如 Clearbit、HubSpot。
方法二、商業合作（Business Development Deals）
透過與客戶簽署長期的業務合約來取得資料，在數據顧問公司中很常見。隨著服務愈來愈多客戶後，能夠搜集愈來愈多的資料，增加數據資料庫。
例如 Datalogix 透過跟不同車廠合作，幫他們做生產線、採購、交易上的數據整合，藉此得到大量車子類的資料後，進而推出數據服務的副產品。
方法三、公開資料（Public Data）
直接用爬蟲的方式取得公開資料。例如一般的 Search Engine 也是用爬公開資料的方式來提供服務。
Emerge.AI 主要以數據合作、爬公開資料這兩種方式來蒐集數據。數據合作的方式主要是從另一個產品 Engaged.AI 所服務的一萬多個客戶提供的資料來進行分析。
而公開資料的部分，以 IG 貼文為例可以得到以下資訊：
- 基本資訊：帳戶名稱、地點、發布時間、讚數、文字內容、#hashtag
- 視覺：圖片
- 互動：留言內容、在貼文下面留言的用戶圖像（目標客群）
▍數據轉化（Data Transformation）
單點的資料很難產生意義，但當把不同的數據結合在一起，就有機會創造綜效並發現洞見。
舉例來說，假設你身為迪士尼的資料科學家，獲得「每天的入園訪客人數」本身並不是一個有意義的數據，但若可以將訪客數跟天氣兩者做比對，就有機會得到新的洞見。例如：下雨天的入園人數是否有改變？這代表什麼？我們可以針對這個發現提出什麼行動？
回到 IG 的案例，「互動率」高低本身沒有意義，但若能比對出哪些要素出現的時候互動率高、成效好，這個資訊才會變得有意義。
一、從問題出發
從客戶提出的需求出發，並透過多問「為什麼」來了解需求背後的細節與原因。
舉例來說，客戶提的需求是「我們想要在 IG 上找到擁有高消費力的帳戶」來做更深度的品牌活動或 VIP 會員專案。這個需求與描述詞彙非常模糊，也沒有一定的標準可以參考，這時可以先反問客戶「你們過去是怎麼判斷和定義高消費力呢？」並做深入的訪談。
我們在訪談中發現，很多品牌客戶都很擅長用「感覺」來回答問題——當你拿兩個 IG 帳戶給客戶比較，他可以直覺判斷出哪一個比較有錢；但當我們要客戶明確描述做出這個判斷背後的原因，他們有時候卻答不出來。
跟著客戶一起將問題往下挖後，我們以下這些數據點轉化為高消費力標籤（label）：
- 地點：很常出國、在很多不同的國家打卡
- 視覺：照片中很常出現名牌的 Logo
- 視覺：照片視覺的呈現的很有質感、願意花時間經營自己的形象
- 文字：文字內容出現高級品牌名稱
基於以上的訪談與問題定義結果，接下來轉化數據的流程大致如下：(1) 從問題出發、(2) 用戶研究與假設、(3) 原型製作與假設。
(1) 即上述跟客戶討論「高消費力帳戶」定義的過程、釐清客戶需求。
(2) 用戶研究與假設，則是根據研究結果建立不同的數據模型假設，在執行的過程中扣緊目標「判斷這個用戶是否屬於高消費力」來提出許多不同的假設與實驗結果，若有較適用的模型則會在下一步實際運用在真實資料上。
(3) 原型製作與假設，即將達成率最高的模型應用在實際的數據上。
【案例延伸】擷取自本場次 Q&A 的討論 - 如何執行與驗證準確率？
一開始用戶使用的形容詞是「貴婦」，「婦」可以歸類為女性，但是「貴」呢？因此第一步是要透過與客戶溝通將發散的名詞定義清楚，經過一番討論才得出「高消費力的女性」這個框架。接著，如同上述，去了解過去他們是怎麼用直覺去判斷「高消費力」帳戶。
我們將這個「客戶的直覺」訓練成一套 AI 模型，讓電腦去 label 幾百份資料、也讓行銷人員人工去 label 這些資料，比對看看我們是否真的有將這些行銷人的直覺成功轉換成 model 並確認是否能得到準確的預測結果，用人工智慧的方式去驗證一些質化的內容。
從技術角度來說，很多時候我們會用非監督學習（unsupervised learning）的機器學習方式，亦即訓練模型的過程中不會讓人工介入，但因為模型與演算法的機制有時候很複雜，因此也只能針對跑出來的結果去判斷好壞，再討論需不需要換其他模型、演算法或持續調整。
二、讓數據有意義
在前面定義問題的階段，我們已經取得共識，要去觀察打卡國家、視覺呈現、文字內容等 IG 貼文的資料，但是「常出國」這個資訊和單純擁有「打卡地點」的原型資料是有落差的，所以會需要做一些前置作業（data preprocessing）將他們轉換成可利用的形式。
舉例來說，將打卡地點轉換為國家的標籤、將視覺上的 logo 擷取出來成為標籤、將文字中的名牌名稱轉換為標籤。
數據本身如果沒有經過任何預處理，很難與其他數據結合、產生進階的應用，所以我們會預先對數據進行處理，方便未來要解決用戶問題的時候可以直接使用。
以 text -> entities 在文字內容中出現名牌為例，在 IG 上面的文字資料、文字量相對於過去的部落格文章是相對較少的，部落格文章通常一篇有近千個字，然而 IG 貼文可能只有 50 個字，我們要想辦法從這 50 個字去理解這篇貼文的討論主題與重點，包含是正面還是負面的討論。
當我們直接去看整個貼文時很好理解，但當經過 tokenization（分詞、標記化）的流程去處理資料，脈絡與意義會在這個過程中流失掉，只看 tokens 的單字很難理解原意，只能透過關鍵字片面的理解部分內容。
為了解決這個問題，團隊在做資訊擷取（information extraction）將文字轉換為 tokens 的時候，還會再做第二層的處理，跟行銷人員、客戶共同製作辭典，將這些 tokens、labels 透過語意分割與標注（semantic labeling）轉化為更有意義的資料，讓用戶來幫我們判斷哪些資料是有意義、需要獨立被分出來的。
▍數據交付（Data Delivery）
常見交付數據給客戶的的方法包含 APIs、Batch File、Integrations、Self-Serve UI、Dashboard 等。以 Emerge.AI 為例主要有三種方式，分別為可讓客戶獨立操作的介面、跟 Engaged.AI 串接合作、以及產出客製化數據報告給特定客戶，搭配顧問服務協助客戶解釋資料和挖掘洞見。
不論是哪一種數據交付形式都會面臨到共同的議題 — — 如何透過優化與迭代讓數據產品變得更好。
最難的是如何選定優化的目標，這部分我們也是從使用者出發，讓用戶來告訴我們！因此除了前期的用戶研究外，我們也建立了一套讓用戶能主動給產品回饋的流程。
如果用戶在系統中看到他們認為不正確的數據，就可以主動在產品內檢舉並提出原因給團隊，團隊收到後就會重新訓練模型、重新執行，再看看新的資料是否有提供用戶合理的數據、得到正面的回饋，透過這個與用戶合作的正向循環來做更深入與更準確的 labeling。
這些訓練過後的模型如果只是在實驗室中測試，跟實際的情境通常都會有些差距，因此跟特定產業的使用情境接軌與持續互動，才能讓資料真正的產生價值，讓產品愈來愈好。
以上。
當天 12 場演講的筆記精華，請參考：http://a0.pise.pw/PFUP4

作者: yuanyu90221 (菜菜鳥) 2020-04-07 23:54:00

感謝分享

作者: Bonjwa (嘴砲王退散!!) 2020-04-08 07:11:00

酷

繼續閱讀

Re: [請益] 30歲轉軟體目標海外工作可行性?idleidle [請益] 30歲轉軟體目標海外工作可行性?ntuvic Re: [請益] 跪求自幹 FB subscriber 的技術方向DarkKiller Re: [請益] 跪求自幹 FB subscriber 的技術方向vi000246 [請益] 跪求自幹 FB subscriber 的技術方向alan23273850 [軟體分享] Hazelcast Jet open sourcetall15421542 [徵文] 東京都新冠肺炎對策網站開源參與經驗pichubaby Re: [請益] 各位是如何增進英文能力keke0421 [請益] 工作後猶豫回學校拿資工碩士學歷qazwsx99876 [徵文] CTF (Cature The Flag)oscarchichun