[心得] DaaS 數據產品開發實務分享(UNH3O PM)

作者: annedoo (蕭安)   2020-04-06 22:10:07
前陣子參與 Women in Data Science 舉辦的線上分享會,
整理了當天的活動筆記與心得~
有圖好讀 medium 連結:
http://a0.pise.pw/RNR57
講者介紹 - 楊晴(Steff)
現任 AI 新創 UNH3O 產品經理,帶領產品 Engaged.AI 成長並負責從 0 到 1 的產品開發,為超過一萬個亞洲品牌提供 Instagram 數據分析服務。曾在社群數據分析顧問公司 QSearch 擔任 UX Engineer Lead,過去經歷研究端、設計端、技術與開發端的歷練,使她對於產品設計與開發的方法論與流程都有深刻的掌握。
正文開始
社群行銷在現代的行銷方法論中是很重要的一環,消費者對於品牌、服務、產品的接觸點與轉換行為都有機會透過社群媒體發生。UNH3O 的目標是分析社群媒體上的使用者足跡,並讓品牌可以去驅動和影響消費者的消費行為,包含增加觸及量、提升品牌認知、提升轉化率等等。主力產品分別為 Engaged.AI 和 Emerged.AI。
Engaged.AI:B2B(Business-to-Business)、SaaS(Software-as-a-Service)產品,主攻 Instagram 數據分析,協助行銷人員掌握行銷成效。
Emerged.AI:B2B(Business-to-Business)、DaaS(Data-as-a-Service)產品,可以看作是 Engaged.AI 背後的數據引擎,不只告訴行銷人員用戶行為與軌跡等基於事實的描述性分析(descriptive analytics),更會透過機器學習的方法,從表面的結果挖掘背後的洞見,進而提供客戶達成目標的建議(prescriptive analytics),用數據來驅動行銷策略。
▍什麼是 DaaS 產品?
DaaS(Data-as-a-Service)數據即服務,是一種讓客戶透過數據本身來體驗產品價值的服務形式。DaaS 產品建立在其數據可以按需(on demand)提供給客戶,不受數據提供者和使用者之間的地域、組織差異而有所影響。
在設計與開發 DaaS 產品時要注意這三個元素:
1. 獲取(Acquisition):如何取得資料?
2. 轉化(Transformation):如何從資料中產生出有價值的資訊?
3. 璆I(Delivery):如何將數據交付與呈現給使用者?
▍數據獲取(Data Acquisition)
對 DaaS 產品來說,能夠持續拿到原物料才能有穩定的產出。常見的三種獲取數據方法如下。
方法一、數據合作(Data Co-op、Data Coopereation)
和用戶進行數據合作,由用戶來提供數據給產品,而產品提供給用戶數據分析的服務,隨著用戶數的累積可以獲得愈來愈多的資料。例如 Clearbit、HubSpot。
方法二、商業合作(Business Development Deals)
透過與客戶簽署長期的業務合約來取得資料,在數據顧問公司中很常見。隨著服務愈來愈多客戶後,能夠搜集愈來愈多的資料,增加數據資料庫。
例如 Datalogix 透過跟不同車廠合作,幫他們做生產線、採購、交易上的數據整合,藉此得到大量車子類的資料後,進而推出數據服務的副產品。
方法三、公開資料(Public Data)
直接用爬蟲的方式取得公開資料。例如一般的 Search Engine 也是用爬公開資料的方式來提供服務。
Emerge.AI 主要以數據合作、爬公開資料這兩種方式來蒐集數據。數據合作的方式主要是從另一個產品 Engaged.AI 所服務的一萬多個客戶提供的資料來進行分析。
而公開資料的部分,以 IG 貼文為例可以得到以下資訊:
- 基本資訊:帳戶名稱、地點、發布時間、讚數、文字內容、#hashtag
- 視覺:圖片
- 互動:留言內容、在貼文下面留言的用戶圖像(目標客群)
▍數據轉化(Data Transformation)
單點的資料很難產生意義,但當把不同的數據結合在一起,就有機會創造綜效並發現洞見。
舉例來說,假設你身為迪士尼的資料科學家,獲得「每天的入園訪客人數」本身並不是一個有意義的數據,但若可以將訪客數跟天氣兩者做比對,就有機會得到新的洞見。例如:下雨天的入園人數是否有改變?這代表什麼?我們可以針對這個發現提出什麼行動?
回到 IG 的案例,「互動率」高低本身沒有意義,但若能比對出哪些要素出現的時候互動率高、成效好,這個資訊才會變得有意義。
一、從問題出發
從客戶提出的需求出發,並透過多問「為什麼」來了解需求背後的細節與原因。
舉例來說,客戶提的需求是「我們想要在 IG 上找到擁有高消費力的帳戶」來做更深度的品牌活動或 VIP 會員專案。這個需求與描述詞彙非常模糊,也沒有一定的標準可以參考,這時可以先反問客戶「你們過去是怎麼判斷和定義高消費力呢?」並做深入的訪談。
我們在訪談中發現,很多品牌客戶都很擅長用「感覺」來回答問題——當你拿兩個 IG 帳戶給客戶比較,他可以直覺判斷出哪一個比較有錢;但當我們要客戶明確描述做出這個判斷背後的原因,他們有時候卻答不出來。
跟著客戶一起將問題往下挖後,我們以下這些數據點轉化為高消費力標籤(label):
- 地點:很常出國、在很多不同的國家打卡
- 視覺:照片中很常出現名牌的 Logo
- 視覺:照片視覺的呈現的很有質感、願意花時間經營自己的形象
- 文字:文字內容出現高級品牌名稱
基於以上的訪談與問題定義結果,接下來轉化數據的流程大致如下:(1) 從問題出發、(2) 用戶研究與假設、(3) 原型製作與假設。
(1) 即上述跟客戶討論「高消費力帳戶」定義的過程、釐清客戶需求。
(2) 用戶研究與假設,則是根據研究結果建立不同的數據模型假設,在執行的過程中扣緊目標「判斷這個用戶是否屬於高消費力」來提出許多不同的假設與實驗結果,若有較適用的模型則會在下一步實際運用在真實資料上。
(3) 原型製作與假設,即將達成率最高的模型應用在實際的數據上。
【案例延伸】擷取自本場次 Q&A 的討論 - 如何執行與驗證準確率?
一開始用戶使用的形容詞是「貴婦」,「婦」可以歸類為女性,但是「貴」呢?因此第一步是要透過與客戶溝通將發散的名詞定義清楚,經過一番討論才得出「高消費力的女性」這個框架。接著,如同上述,去了解過去他們是怎麼用直覺去判斷「高消費力」帳戶。
我們將這個「客戶的直覺」訓練成一套 AI 模型,讓電腦去 label 幾百份資料、也讓行銷人員人工去 label 這些資料,比對看看我們是否真的有將這些行銷人的直覺成功轉換成 model 並確認是否能得到準確的預測結果,用人工智慧的方式去驗證一些質化的內容。
從技術角度來說,很多時候我們會用非監督學習(unsupervised learning)的機器學習方式,亦即訓練模型的過程中不會讓人工介入,但因為模型與演算法的機制有時候很複雜,因此也只能針對跑出來的結果去判斷好壞,再討論需不需要換其他模型、演算法或持續調整。
二、讓數據有意義
在前面定義問題的階段,我們已經取得共識,要去觀察打卡國家、視覺呈現、文字內容等 IG 貼文的資料,但是「常出國」這個資訊和單純擁有「打卡地點」的原型資料是有落差的,所以會需要做一些前置作業(data preprocessing)將他們轉換成可利用的形式。
舉例來說,將打卡地點轉換為國家的標籤、將視覺上的 logo 擷取出來成為標籤、將文字中的名牌名稱轉換為標籤。
數據本身如果沒有經過任何預處理,很難與其他數據結合、產生進階的應用,所以我們會預先對數據進行處理,方便未來要解決用戶問題的時候可以直接使用。
以 text -> entities 在文字內容中出現名牌為例,在 IG 上面的文字資料、文字量相對於過去的部落格文章是相對較少的,部落格文章通常一篇有近千個字,然而 IG 貼文可能只有 50 個字,我們要想辦法從這 50 個字去理解這篇貼文的討論主題與重點,包含是正面還是負面的討論。
當我們直接去看整個貼文時很好理解,但當經過 tokenization(分詞、標記化)的流程去處理資料,脈絡與意義會在這個過程中流失掉,只看 tokens 的單字很難理解原意,只能透過關鍵字片面的理解部分內容。
為了解決這個問題,團隊在做資訊擷取(information extraction)將文字轉換為 tokens 的時候,還會再做第二層的處理,跟行銷人員、客戶共同製作辭典,將這些 tokens、labels 透過語意分割與標注(semantic labeling)轉化為更有意義的資料,讓用戶來幫我們判斷哪些資料是有意義、需要獨立被分出來的。
▍數據交付(Data Delivery)
常見交付數據給客戶的的方法包含 APIs、Batch File、Integrations、Self-Serve UI、Dashboard 等。以 Emerge.AI 為例主要有三種方式,分別為可讓客戶獨立操作的介面、跟 Engaged.AI 串接合作、以及產出客製化數據報告給特定客戶,搭配顧問服務協助客戶解釋資料和挖掘洞見。
不論是哪一種數據交付形式都會面臨到共同的議題 — — 如何透過優化與迭代讓數據產品變得更好。
最難的是如何選定優化的目標,這部分我們也是從使用者出發,讓用戶來告訴我們!因此除了前期的用戶研究外,我們也建立了一套讓用戶能主動給產品回饋的流程。
如果用戶在系統中看到他們認為不正確的數據,就可以主動在產品內檢舉並提出原因給團隊,團隊收到後就會重新訓練模型、重新執行,再看看新的資料是否有提供用戶合理的數據、得到正面的回饋,透過這個與用戶合作的正向循環來做更深入與更準確的 labeling。
這些訓練過後的模型如果只是在實驗室中測試,跟實際的情境通常都會有些差距,因此跟特定產業的使用情境接軌與持續互動,才能讓資料真正的產生價值,讓產品愈來愈好。
以上。
當天 12 場演講的筆記精華,請參考:http://a0.pise.pw/PFUP4
作者: yuanyu90221 (菜菜鳥)   2020-04-07 23:54:00
感謝分享
作者: Bonjwa (嘴砲王退散!!)   2020-04-08 07:11:00

Links booklink

Contact Us: admin [ a t ] ucptt.com