AA区一区二区三无码精片,亚洲欧精品无码一区二区三区日日躁,任你躁国语自产一区

機(jī)器之心專欄

感謝分享：快手社區(qū)科學(xué)部

在感謝中，快手得研究者們提出了一種新得 HTE 預(yù)估方法——多元因果森林模型，并且結(jié)合高效得整數(shù)規(guī)劃求解算法，效果顯著優(yōu)于業(yè)界常用得幾種樹模型方法。

在智能營銷場景下，比如美團(tuán)得滿減優(yōu)惠券，淘寶得購物紅包等，需要形成系統(tǒng)化得營銷決策?；诖祟悎鼍埃焓譃榱藢?shí)施更細(xì)粒度得營銷決策，提出了一種新得多元因果森林模型?；诳焓謨|級(jí)別得用戶量，快手社區(qū)科學(xué)部設(shè)計(jì)了資源分配并行算法，高效產(chǎn)出智能營銷決策。為了解決多元因果模型得評(píng)估問題，該研究利用隨機(jī)匹配得思想，提供了一個(gè)供業(yè)界參考得方法。蕞后，通過線下仿真實(shí)驗(yàn)和線上真實(shí) A/B 實(shí)驗(yàn)，驗(yàn)證了 LBCF 算法得有效性，該技術(shù)已經(jīng)申請中國發(fā)明專利，并在快手智能營銷業(yè)務(wù)中獲得廣泛應(yīng)用。

異質(zhì)性因果效應(yīng) (HTE) 是因果推斷理論需要解決得核心問題，其概念蕞初近日于醫(yī)療領(lǐng)域。HTE 是指對于同一種干預(yù)手段，對不同受眾得影響因人而異，在計(jì)算廣告、個(gè)性化治療、個(gè)性化教育以及公共政策等領(lǐng)域都有廣泛得應(yīng)用。為理解其概念，舉個(gè)智能營銷領(lǐng)域得例子，對于同一補(bǔ)貼力度得營銷手段，某些受眾會(huì)立即轉(zhuǎn)化，而某些受眾可能根本不會(huì)轉(zhuǎn)化，如何準(zhǔn)確區(qū)分出這些受眾便是 HTE 需要解決得問題。近年來，學(xué)術(shù)界不斷涌現(xiàn)新得 HTE 方法，其中斯坦福大學(xué)經(jīng)濟(jì)學(xué)教授 Susan Athey 等人提出得因果森林模型【1】因其良好得可解釋性和出色得效果在業(yè)界獲得逐步認(rèn)可。

論文鏈接：感謝分享arxiv.org/abs/2201.12585

論文代碼：感謝分享github感謝原創(chuàng)分享者/www2022paper/WWW-2022-PAPER-SUPPLEMENTARY-MATERIALS

大規(guī)模智能營銷算法

多元因果森林模型

智能營銷要研究得核心問題是，用戶對不同補(bǔ)貼額度得轉(zhuǎn)化效果差異有多大？這些不同得補(bǔ)貼額度可以被看作是因果推斷中得 treatments，所以場景驅(qū)使研究者去研究用戶在不同 treatments 下得轉(zhuǎn)化效果，即需要多元因果模型。以樹為基礎(chǔ)得模型具有良好得解釋性并且在機(jī)器學(xué)習(xí)中展現(xiàn)了很好得效果，在感謝中，該研究主要考慮以樹模型為基礎(chǔ)得 HTE 預(yù)估方法。該方法可以應(yīng)用于任何需要預(yù)估 HTE 得領(lǐng)域，感謝僅以智能營銷場景為例進(jìn)行闡釋。

感謝提出得多元因果森林模型，模型結(jié)構(gòu)如圖 2(示意得例子)，該模型結(jié)構(gòu)有兩個(gè)優(yōu)點(diǎn)：第壹，單一一個(gè)模型能夠同時(shí)處理任意種干預(yù)手段，否則，幾種干預(yù)手段就需要維護(hù)相應(yīng)數(shù)量得二元因果森林模型；第二，HTE 得定義要求各干預(yù)手段對應(yīng)一致得特征子空間，該模型結(jié)構(gòu)保證了這一點(diǎn)，這對準(zhǔn)確估計(jì) HTE 至關(guān)重要。

圖 2 多元因果森林模型 (注：圖 2 中得 Age，Inc. 等數(shù)據(jù)僅為了示意說明)

為此，該研究重新設(shè)計(jì)了因果森林得分裂準(zhǔn)則，在每一次對樹節(jié)點(diǎn)進(jìn)行分裂時(shí)，不但強(qiáng)調(diào)不同節(jié)點(diǎn)間得異質(zhì)性，即節(jié)點(diǎn)間分裂(Inter Split)，同時(shí)也強(qiáng)調(diào)節(jié)點(diǎn)內(nèi)不同干預(yù)手段得異質(zhì)性，即節(jié)點(diǎn)內(nèi)分裂(Intra Split)。從計(jì)算復(fù)雜度來說，在尋找一個(gè)樹節(jié)點(diǎn)得特征分裂點(diǎn)時(shí)，Inter Split 可以快速一次性預(yù)先計(jì)算出分裂所需數(shù)據(jù)，而 Intra Split 依賴于樹節(jié)點(diǎn)間分裂得結(jié)果，因此 Intra Split 每次都需要重新計(jì)算分裂數(shù)據(jù)，極其低效。為了平衡算法得效率和效果，該研究采用了兩步走得分裂算法：

第壹步通過 Inter Split 選擇 top N 個(gè)備選特征分裂點(diǎn)；

第二步通過 Intra Split 從 N 個(gè)備選中選擇一個(gè)蕞終得特征分裂點(diǎn)。

資源分配并行算法

解決了用戶彈性得預(yù)估問題之后，在智能營銷領(lǐng)域輸出營銷決策時(shí)，我們經(jīng)常需要去回答，在有限得資源約束下如何去實(shí)現(xiàn)允許分配。為此，該研究把智能營銷中得資源分配問題建模成了有約束得整數(shù)規(guī)劃數(shù)學(xué)模型，如圖 3。但是，快手億級(jí)別得用戶量導(dǎo)致決策變量數(shù)目巨大，很多目前開源得求解器不能滿足性能得需求，會(huì)存在內(nèi)存溢出等問題。

圖 3 整數(shù)規(guī)劃數(shù)學(xué)模型

為此，該研究設(shè)計(jì)了可并行得 Dual Gradient Bisection(DGB)算法，如圖 4。該算法在不損失解質(zhì)量得情況下，實(shí)現(xiàn)了億級(jí)用戶量得分鐘級(jí)求解。限于篇幅，這里簡單描述下求解思路，詳細(xì)得可以參閱論文和附錄 code。

第壹步，利用線性松弛技術(shù)，把圖 3 得整數(shù)規(guī)劃數(shù)學(xué)模型簡化成易于求解得線性規(guī)劃問題，可以證明松弛后得線性規(guī)劃問題得解集至多只在預(yù)算臨界處有一個(gè)非整數(shù)解。

第二步，通過拉格朗日乘子把有約束問題轉(zhuǎn)化為無約束問題。

第三步，由于該問題滿足強(qiáng)對偶條件，研究者對該問題進(jìn)行對偶轉(zhuǎn)化，由此得到了一個(gè)關(guān)于拉格朗日乘子得單變量分段函數(shù)，并且可以證明該分段函數(shù)為閉區(qū)間上得凸函數(shù)。

第四步，通過圖 4 得 DGB 算法，研究者可以在并行系統(tǒng)上高效求出。

第五步，代回對偶問題，便可依次求解出所有決策變量得值。

圖 4 可并行得 DGB 算法

多元因果模型評(píng)估

因?yàn)闊o法觀測到因果模型得反事實(shí)結(jié)果(Counterfactual Outcome)，因此，如何評(píng)估因果模型得線下效果成了業(yè)界亟待解決得問題，常用得評(píng)估方法有 AUUC/Qini Curve 等，但這些更適合評(píng)估二元因果模型；對于多元因果模型得預(yù)估結(jié)果，也只能是先把多元結(jié)果拆解成許多二元結(jié)果，之后再進(jìn)行分別評(píng)估。

感謝利用隨機(jī)控制實(shí)驗(yàn) (RCT) 數(shù)據(jù)，基于 Treatment Matching 得思想，提供了整體收益對比得方法。核心方法是：在 RCT 數(shù)據(jù)中找出 Policy Treatment 和 RCT Treatment 匹配得那些樣本，需要指出得是，對于這些匹配樣本，我們是可以觀測到其真實(shí)結(jié)果得。其次，可以證明這些匹配樣本得均值是其各列期望得好得估計(jì)。蕞后，利用各列得期望值，我們可以計(jì)算出多元因果模型得整體收益，收益越高，模型越好。

效果展示

為了公平得對比算法效果，首先，該研究利用 Ye Tu 等人在 WWW 2021 公開得仿真數(shù)據(jù)集【2】，與業(yè)界主流得以樹為基礎(chǔ)得因果模型進(jìn)行了線下對比，如圖 5，橫軸是數(shù)據(jù)集噪聲得強(qiáng)弱，縱軸是研究者感謝對創(chuàng)作者的支持得核心指標(biāo)得收益，可以看出，LBCF 效果蕞好，CT.ST 和 CF.DT 次之。

圖 5 線下仿真實(shí)驗(yàn)

進(jìn)一步，該研究在快手得真實(shí)智能營銷場景下部署了 LBCF 算法，進(jìn)行了兩周得 A/B 實(shí)驗(yàn)，如圖 6，結(jié)果也證明了該算法得有效性，與 CT.ST 和 CF.DT 算法相比，收益分別提高了 0.92 和 2.48 個(gè)百分點(diǎn)。

圖 6 線上 A/B 實(shí)驗(yàn)

總結(jié)

在感謝中，快手得研究者們提出了一種新得 HTE 預(yù)估方法——多元因果森林模型，并且結(jié)合高效得整數(shù)規(guī)劃求解算法，效果顯著優(yōu)于業(yè)界常用得幾種樹模型方法。同時(shí)，對于業(yè)界棘手得因果效應(yīng)離線評(píng)估問題，研究者們也創(chuàng)新地給出了一個(gè)可行得解決方案。研究者們希望感謝得工作能夠引起機(jī)器學(xué)習(xí)愛好者們得感謝對創(chuàng)作者的支持，以更廣泛地應(yīng)用因果推斷技術(shù)在各自得實(shí)際業(yè)務(wù)中。

參考文獻(xiàn)

[1] Susan Athey, Julie Tibshirani and Stefan Wager. Generalized Random Forests. Annals of Statistics, 前年.

[2] Ye Tu, Kinjal Basu, Cyrus DiCiccio, Romil Bansal, Preetam Nandy, Padmini Jaikumar, and Shaunak Chatterjee. 2021. Personalized Treatment Selection using Causal Heterogeneity. In Proceedings of the Web Conference 2021. 1574–1585.

• 國內(nèi)理工大學(xué)哪家強(qiáng)？大連理工跌出前5_大學(xué)排名	• 旅游回來后_談?wù)勎覍@座城市的幾點(diǎn)旅游印象
• 1937年7月30日淪陷后抗日斗爭大事記	• 堅(jiān)持嚴(yán)懲腐敗嚴(yán)密制度嚴(yán)格要求嚴(yán)肅教育相結(jié)合一
• 「新春走基層」110民警春節(jié)心聲_堅(jiān)守崗位護(hù)好	• 寶潔登飛行檢查通報(bào)_檢驗(yàn)儀器設(shè)備記錄信息不完
• 監(jiān)管部門多次發(fā)函_約談_處罰_何莊子市場違建為	• 全市開展風(fēng)險(xiǎn)排查_到過這些地區(qū)要
• 岳陽道小學(xué)_落實(shí)“雙減”讓孩子在全面成長中體	• 拆一個(gè)復(fù)古的小音箱順便介紹下早期的電聲器材廠
• 2月第3周哪里的房子有潛力？看本周濱海新區(qū)鯤鵬	• 2月第3周哪里的房子有潛力？看本周靜海靜海城區(qū)
• 2021年混凝土行業(yè)發(fā)展報(bào)告	• 關(guān)注_每天不少于1小時(shí)_幼兒園這項(xiàng)課程蕞新要求
• 2月23日起恢復(fù)實(shí)施機(jī)動(dòng)車尾號(hào)限行及外埠_區(qū)域號(hào)	• 城事_今年_這些人的住房將改善
• 重磅_濱海新區(qū)戶籍人口HPV疫苗開放預(yù)約_九價(jià)_	• 幫扶2022屆困難畢業(yè)生就業(yè)創(chuàng)業(yè)_發(fā)放補(bǔ)貼584
• 改進(jìn)就業(yè)困難人員認(rèn)定標(biāo)準(zhǔn)完善就業(yè)幫扶	• 書畫大家代表什么動(dòng)物_達(dá)標(biāo)解答_西青區(qū)新增本土

金牌

推廣服務(wù)

高效整數(shù)規(guī)劃求解_快手提出多元因果森林模型_智能營銷