如何通過K折交叉驗(yàn)證大幅降低機(jī)器學(xué)習(xí)核心參數(shù)估計(jì)偏差?揭秘Chernozhukov的漸近無(wú)偏證明
如今,在數(shù)據(jù)科學(xué)領(lǐng)域,降低機(jī)器學(xué)習(xí)算法收斂速度慢對(duì)關(guān)鍵參數(shù)造成的影響成了一大難題,這個(gè)問題涉及諸多值得深入研究的內(nèi)容。
降低核心參數(shù)影響的方法
在雙重機(jī)器學(xué)習(xí)領(lǐng)域,有一種特別的方法。它將樣本隨機(jī)劃分為K組,就好比把蘋果按照一定規(guī)則分成了K堆。每次,我們剔除一組數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型,然后用這個(gè)模型來(lái)調(diào)整核心參數(shù)。這個(gè)過程要重復(fù)K次。這種方式在一定程度上打破了常規(guī),創(chuàng)造了一種新的判斷核心參數(shù)影響的方法。這種方法適用于那些機(jī)器學(xué)習(xí)算法收斂速度慢且核心參數(shù)影響顯著的情況,為處理這類問題提供了新的思路。這種做法并非空想,而是基于實(shí)踐和研究得出的。
理論上講,這種隨機(jī)分配樣本的方法為數(shù)據(jù)提供了多種組合途徑以供模型學(xué)習(xí)。這使數(shù)據(jù)的豐富性在訓(xùn)練過程中得到了強(qiáng)調(diào)。同時(shí),各種組合的數(shù)據(jù)在訓(xùn)練后對(duì)關(guān)鍵參數(shù)的作用也發(fā)生了重新分配。因此,可以有效減少對(duì)關(guān)鍵參數(shù)估計(jì)的誤差。
理論支持與證明
2018年,Chernozhukov等人證實(shí),完成前述兩步后,關(guān)鍵參數(shù)的估算趨于無(wú)偏且呈漸近正態(tài)分布。這一理論成果為該方法的正確性與實(shí)效性奠定了堅(jiān)實(shí)的理論基礎(chǔ)。這就像在黑暗中點(diǎn)亮了一盞燈。有了這一證明,研究人員便可以放心地在相關(guān)領(lǐng)域應(yīng)用這一方法。
它還如同一個(gè)衡量準(zhǔn)則。憑借它,后續(xù)的研究或應(yīng)用一旦出現(xiàn)誤差,便可依據(jù)此理論進(jìn)行調(diào)整。這成為該方法拓展至更廣范圍的通行證。若缺少這一理論作為支撐,其在實(shí)際應(yīng)用中的說(shuō)服力或許會(huì)顯著減弱。
部分線性回歸模型中的應(yīng)用
在簡(jiǎn)單的線性回歸模型中,例如與實(shí)際生產(chǎn)和日常生活相關(guān)的模型,其關(guān)鍵參數(shù)是θ0。對(duì)于未知的函數(shù)或高維的冗余參數(shù),估計(jì)核心參數(shù)需要遵循明確步驟。首先,需要對(duì)數(shù)據(jù)進(jìn)行劃分,以IIK數(shù)據(jù)為例,將Y和D分別作為標(biāo)簽,X作為輸入,用于訓(xùn)練機(jī)器學(xué)習(xí)模型。簡(jiǎn)單來(lái)說(shuō),這就像是在構(gòu)建一座橋梁,Y和D是橋梁的兩端,而X則是中間的支撐結(jié)構(gòu)。
接著,重復(fù)上述步驟K次以獲得樣本外殘差,隨后,將Y的殘差視為因變量,D的殘差作為自變量,通過普通最小二乘法進(jìn)行回歸,以估算θ0。這一過程猶如在迷宮中尋找出路,每一步都是通往核心參數(shù)的目標(biāo)路徑。這一系列回歸操作實(shí)現(xiàn)了Neyman正交化,從而使得雙重機(jī)器學(xué)習(xí)既具備了Neyman正交化的優(yōu)勢(shì),又享有了交叉擬合的益處。
實(shí)際研究案例
2020年,Dube等人在探討在線勞動(dòng)市場(chǎng)的勞動(dòng)供給彈性時(shí),采用了這一方法。在Mturk平臺(tái)上,雇主發(fā)布任務(wù),勞動(dòng)者按需完成任務(wù)以獲得報(bào)酬。任務(wù)時(shí)長(zhǎng)和報(bào)酬與任務(wù)內(nèi)容緊密相連,而變量x則包含眾多固定因素。然而,該模型在處理任務(wù)難度與報(bào)酬關(guān)聯(lián)性問題上存在挑戰(zhàn),且由于x維度眾多,直接分析變得較為復(fù)雜。
他們采用Doc2Vec和詞袋模型來(lái)擴(kuò)展任務(wù)標(biāo)題和描述的文本維度,接著用隨機(jī)森林?jǐn)M合部分線性模型,從而獲得無(wú)偏估計(jì)。這一做法將抽象的雙重機(jī)器學(xué)習(xí)方法應(yīng)用于實(shí)際場(chǎng)景,就如同將理論公式用于實(shí)際工程設(shè)計(jì),展示了其在復(fù)雜現(xiàn)實(shí)中的實(shí)用價(jià)值。
廣泛的應(yīng)用領(lǐng)域
在經(jīng)濟(jì)和統(tǒng)計(jì)學(xué)研究的眾多領(lǐng)域中,雙重機(jī)器學(xué)習(xí)正逐漸被廣泛采用。以因果推斷為例,Chernozhukov在2017年采用了一種雙向穩(wěn)健的方法,對(duì)無(wú)混淆分配假設(shè)下的平均處理效應(yīng)以及處理組平均處理效應(yīng)的估計(jì)問題進(jìn)行了探討,并應(yīng)用了相關(guān)技術(shù)。在其他經(jīng)濟(jì)統(tǒng)計(jì)領(lǐng)域,也有各種不同的研究情境,例如在分析消費(fèi)行為與市場(chǎng)環(huán)境的關(guān)系時(shí),一旦遇到需要精確估計(jì)關(guān)鍵參數(shù)的情況,這種方法便能發(fā)揮其作用。
每個(gè)應(yīng)用場(chǎng)景都證明了這種方法的有效性。它就像一塊塊疊加的基石,讓這種方法在多個(gè)學(xué)科中穩(wěn)固立足。隨著應(yīng)用范圍的擴(kuò)大,該方法也在持續(xù)地得到優(yōu)化和提升。
未來(lái)發(fā)展展望
盡管雙重機(jī)器學(xué)習(xí)已在多個(gè)領(lǐng)域得到應(yīng)用,但仍有廣闊的發(fā)展前景。比如,面對(duì)更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)或不同模型假設(shè),現(xiàn)有模式可能需作調(diào)整。在數(shù)據(jù)量持續(xù)膨脹的當(dāng)下,增長(zhǎng)速度的加快或許會(huì)引發(fā)新的挑戰(zhàn)。
新的混合模型能否在雙重機(jī)器學(xué)習(xí)的基礎(chǔ)上實(shí)現(xiàn)創(chuàng)新?又或者,在分析特定行業(yè),比如環(huán)保行業(yè)碳排放與經(jīng)濟(jì)發(fā)展關(guān)系時(shí),雙重機(jī)器學(xué)習(xí)應(yīng)如何更有效地發(fā)揮作用?這些問題都值得我們深入探討。
你認(rèn)為雙重機(jī)器學(xué)習(xí)今后會(huì)有怎樣的改進(jìn)?期待大家積極參與討論,并給予點(diǎn)贊和轉(zhuǎn)發(fā)。
作者:小藍(lán)
鏈接:http://www.yunyix1.cn/content/6988.html
本站部分內(nèi)容和圖片來(lái)源網(wǎng)絡(luò),不代表本站觀點(diǎn),如有侵權(quán),可聯(lián)系我方刪除。