算法人生(1):從“強(qiáng)化學(xué)習(xí)”看如何“戰(zhàn)勝拖延”

0 評(píng)論 826 瀏覽 4 收藏 13 分鐘

強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,是一個(gè)動(dòng)態(tài)的、可迭代的過程,需要進(jìn)行試錯(cuò),并找到正確的策略。本文從“強(qiáng)化學(xué)習(xí)”看如何“戰(zhàn)勝拖延”,一起來看看吧。

強(qiáng)化學(xué)習(xí)簡介:

強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)是一種機(jī)器學(xué)習(xí)方法,它模擬了有機(jī)體在環(huán)境中的學(xué)習(xí)過程,通過不斷嘗試和獲得反饋來優(yōu)化其行為策略。在強(qiáng)化學(xué)習(xí)中,智能體并不是被告知應(yīng)該采取何種行動(dòng),而是基于執(zhí)行特定動(dòng)作后獲得的獎(jiǎng)勵(lì)或懲罰來調(diào)整其行為,旨在讓模型通過嘗試和錯(cuò)誤,學(xué)習(xí)如何在特定環(huán)境中采取行動(dòng)以最大化累積獎(jiǎng)勵(lì)。

強(qiáng)化學(xué)習(xí)的步驟大致為:

  1. 初始化:智能體(學(xué)習(xí)主體)首先與環(huán)境互動(dòng),根據(jù)初始策略選擇一個(gè)動(dòng)作。
  2. 執(zhí)行動(dòng)作:智能體在當(dāng)前狀態(tài)下執(zhí)行一個(gè)動(dòng)作,環(huán)境對(duì)此作出響應(yīng),進(jìn)入一個(gè)新的狀態(tài)。
  3. 接收獎(jiǎng)勵(lì):智能體從環(huán)境接收一個(gè)獎(jiǎng)勵(lì)信號(hào),該信號(hào)反映了環(huán)境對(duì)智能體當(dāng)前動(dòng)作價(jià)值的評(píng)價(jià),可能是是正向的激勵(lì)或負(fù)向的懲罰。正向激勵(lì)可以理解為當(dāng)智能體執(zhí)行的動(dòng)作導(dǎo)致環(huán)境產(chǎn)生了有利的結(jié)果,或者朝著目標(biāo)更近了一步時(shí),環(huán)境會(huì)給智能體一個(gè)正向獎(jiǎng)勵(lì),如+1,以此來表明這次動(dòng)作是值得學(xué)習(xí)并保留的策略。負(fù)向懲罰則是智能體的動(dòng)作導(dǎo)致了不利結(jié)果或者遠(yuǎn)離了目標(biāo),環(huán)境會(huì)給智能體一個(gè)負(fù)向獎(jiǎng)勵(lì),如-1,以此告訴智能體應(yīng)盡量避免在未來采取同樣的行動(dòng)。
  4. 學(xué)習(xí):智能體根據(jù)接收到的獎(jiǎng)勵(lì)和新的狀態(tài)更新其內(nèi)部的價(jià)值函數(shù)、策略或者其他學(xué)習(xí)參數(shù)。
  5. 決策:根據(jù)更新后的策略選擇下一個(gè)動(dòng)作,再次進(jìn)入執(zhí)行動(dòng)作與接收獎(jiǎng)勵(lì)的循環(huán)。

這個(gè)過程會(huì)一直持續(xù),直到智能體收斂到一個(gè)相對(duì)穩(wěn)定的策略。強(qiáng)化學(xué)習(xí)是一個(gè)動(dòng)態(tài)的、迭代的過程,需要大量的試錯(cuò)和時(shí)間來找到最優(yōu)策略。通過不斷地與環(huán)境交互,模型才能學(xué)習(xí)到如何在給定的任務(wù)中做出最佳決策,以實(shí)現(xiàn)長期目標(biāo)的最大化。

由強(qiáng)化學(xué)習(xí)的原理,我們可以看出強(qiáng)化學(xué)習(xí)有以下常見的思路:

  • 識(shí)別環(huán)境:智能體首先需要定義環(huán)境,這個(gè)環(huán)境決定了學(xué)習(xí)任務(wù)的規(guī)則和邊界。
  • 小步快跑:這跟敏捷開發(fā)的思路也類似,選定一個(gè)動(dòng)作,環(huán)境做出響應(yīng),根據(jù)結(jié)果調(diào)整策略,進(jìn)行下一個(gè)動(dòng)作。
  • 強(qiáng)正避負(fù):正向行為的結(jié)果保留或發(fā)揚(yáng)光大,負(fù)向行為的結(jié)果警惕不要再犯。
  • 持續(xù)調(diào)優(yōu):同樣跟敏捷開發(fā)類似,強(qiáng)化學(xué)習(xí)的過程是個(gè)動(dòng)態(tài)持續(xù)調(diào)整的過程,只有不斷地試錯(cuò)調(diào)整才能讓讓長期價(jià)值最大化。

對(duì)于拖延來說,我們同樣可以采用類似的思路來克服拖延癥對(duì)自身的影響:

1、識(shí)別原因,分解目標(biāo)(類似強(qiáng)化學(xué)習(xí)中的狀態(tài)與動(dòng)作)

拖延產(chǎn)生的原因可能很多,比如完美主義,害怕失敗,約拿情結(jié),被動(dòng)攻擊的心理或者是本身就討厭做這件事等等,針對(duì)不同的拖延癥原因,需要針對(duì)性地先解開“心結(jié)”,也就是識(shí)別自己拖延的原因,然后才能針對(duì)性的找到解決方法。

在識(shí)別自身拖延產(chǎn)生的原因之后,為了能走出拖延,需要將“宏偉的目標(biāo)”分解成一個(gè)個(gè)小目標(biāo),以減輕給自己的壓力過大,從而更沒有動(dòng)力戰(zhàn)勝拖延。

舉個(gè)例子,有的時(shí)候我們并不是討厭做這件事情,但總是給自己找理由拖著不做,在對(duì)自我分析后,發(fā)現(xiàn)是“完美主義”在作祟,內(nèi)在的潛意識(shí)總想要做到最好,才能對(duì)得起自己,對(duì)得起別人的期待,但是越是這樣的自我期待,越讓自己拖著不做,等待著以后的“好狀態(tài)”,“好時(shí)機(jī)”來讓未來變得“完美”, 這時(shí)候需要先調(diào)整自己對(duì)做事的認(rèn)知,學(xué)習(xí)接受不完美是常態(tài)。西游記里,唐僧一行取來的經(jīng)書還因?yàn)槁淙胨锷倭艘唤?,孫悟空勸唐僧說:天地本不全,何況是經(jīng)書呢!此外,有時(shí)候適當(dāng)?shù)叵蛳卤容^,學(xué)習(xí)原諒不完美,設(shè)定合理的目標(biāo)和期望,遵循效果優(yōu)先等等都是很好的方法應(yīng)對(duì)“完美主義”產(chǎn)生的拖延。

在了解了自我拖延的原因是完美主義之后,就需要為自己克服拖延的目標(biāo)分解成小任務(wù),比如有件事因?yàn)橥昝乐髁x被拖了很久,做起來可能需要花上幾天的時(shí)間,那此時(shí)可以把這件事情分解成幾個(gè)階段性的小目標(biāo),每個(gè)小目標(biāo)只有半天的工作量,然后不要管整件事情有多少個(gè)半天,先只想第一個(gè)半天的工作量,這樣減化了工作量后,可以在這半天范圍內(nèi)盡可能的“完美”,但時(shí)間一到,就不再糾結(jié)這個(gè)半天的結(jié)果是否完美與否,整理下思路進(jìn)入下個(gè)半天的“完美”準(zhǔn)備工作中。

2、強(qiáng)正拖負(fù),及時(shí)反饋(類似強(qiáng)化學(xué)習(xí)中的獎(jiǎng)懲機(jī)制)

對(duì)于造成我們拖延的刺激物(思想)要警醒,比如最近某個(gè)流行的劇更新了,很久沒買能能讓自己開心的手辦了,這些思想在某些場景下能讓我們及時(shí)獲得應(yīng)有的“放松”,是正向的。但在拖延的場景下,這些刺激物(思想)就會(huì)加重我們的拖延,本來就因?yàn)楦鞣N原因不想做,這些刺激物(思想)正好給了我們理由可以不做,心想著等做完了那些刺激物(思想)的事情再做這個(gè)“被拖延”的事情吧,可誰知道多巴胺刺激讓自己“停不下來”,從而錯(cuò)過了“被拖延之事”最該做的時(shí)間點(diǎn)。

這時(shí)候,我們應(yīng)該警惕這類型的刺激物(思想),如果發(fā)現(xiàn)它們會(huì)加重自身的拖延,可以采用以下方法來面對(duì)負(fù)面刺激物(思想):

  • 延遲滿足:也就是延遲做刺激事情,當(dāng)看到刺激物(思想),告訴自己等2個(gè)小時(shí)就可以滿足自己,而不是當(dāng)下滿足自己;
  • 替換刺激物:也就是為導(dǎo)致拖延的刺激物(思想)找到替換物(思想),此處的替換物(思想)需要不會(huì)讓自己上癮,但是又可適當(dāng)“滿足”自己,比如很想刷短視頻放松下,但是當(dāng)前又有必須要做的事情,可以喝一杯咖啡來放松,這個(gè)方法也滿足了自己放松的想法,又不會(huì)占用太多時(shí)間;
  • 更大的獎(jiǎng)勵(lì)滿足:在拖延場景下,可以用更大的獎(jiǎng)賞物來誘惑自己先做完“被拖延的事情”。比如,一口氣把拖延的事情做完后,可以買個(gè)最愛劇的點(diǎn)映券,一口氣看完想追的劇,就不用等后面幾天的更新了。(想想就很美的獎(jiǎng)勵(lì))

同樣地,對(duì)于能讓我們克服拖延的刺激物(思想),也需要識(shí)別并發(fā)揚(yáng)光大,比如自己想拖延不學(xué)習(xí)的時(shí)候,一看到旁邊的學(xué)霸,不服輸?shù)膭啪蛠砹?,就很想跟他比個(gè)高下,然后就學(xué)起來了。而看不到這個(gè)學(xué)霸時(shí),就沒什么“比”的動(dòng)力,就會(huì)拖著不學(xué)習(xí)。再比如,發(fā)現(xiàn)自己在定時(shí)定量工作后就固定休息一段時(shí)間,這樣能有效減少自己拖延的頻率或縮短拖延的時(shí)間,那么以后就可以重復(fù)沿用、多用這一策略。

注意,不同的方法在不同的場景下,產(chǎn)生的效果是不同的,同樣的方法有的場景會(huì)產(chǎn)生正向效果,有的場景則會(huì)產(chǎn)生負(fù)面效果,因此在應(yīng)用時(shí)要根據(jù)場景小心甄別方法的實(shí)用性,以及要掌握好平衡,再適用的方法一旦過了度,到了“執(zhí)著”,也會(huì)轉(zhuǎn)積極為消極的效果的。上述的舉例中,如果過度運(yùn)用“比”或者是在其他不適合“比”的場景應(yīng)用這個(gè)思想,都會(huì)帶來負(fù)面的效果,大家需要小心甄別。

以上方法,舉例僅是為了讓大家了解方法如何用,具體還要根據(jù)各自的情況,小心甄別。

3、持續(xù)調(diào)整,最大化效果(類似強(qiáng)化學(xué)習(xí)中的策略迭代):

在治療拖延癥時(shí),通過不斷嘗試不同的方法,觀察并體驗(yàn)?zāi)姆N方法帶來的即時(shí)效果最好。同時(shí),個(gè)體需要不斷反思自己的行為和策略,根據(jù)完成任務(wù)的實(shí)際情況再進(jìn)行調(diào)整,比如調(diào)整時(shí)間管理方法,或者優(yōu)化工作環(huán)境以減少干擾等。

盡管強(qiáng)化學(xué)習(xí)中的算法通過短期獎(jiǎng)勵(lì)來學(xué)習(xí),但其最終目標(biāo)是優(yōu)化長期的累積獎(jiǎng)勵(lì)。而在治療拖延癥的過程中,雖然采用了分解任務(wù)和及時(shí)的獎(jiǎng)懲策略,但最終目的是幫助個(gè)體克服拖延,提高長期的工作效率和生活質(zhì)量。所以個(gè)體也需要持之以恒地執(zhí)行新的行為模式,并根據(jù)實(shí)際效果進(jìn)行微調(diào),最終形成一個(gè)適合自己的、能夠有效克服拖延的行為習(xí)慣系統(tǒng)。劃重點(diǎn):任何行為習(xí)慣如果沒有得到有效地“重復(fù)”,都可能被遺忘或思維鏈接被弱化而起不到應(yīng)有的效果,所以持續(xù)調(diào)優(yōu)很重要!

拖延,已經(jīng)成為了現(xiàn)代人的普遍問題,工作壓力大,個(gè)人對(duì)自我的期待高,害怕讓別人失望等等都會(huì)讓我們或多或少的有拖延心理。但只要自己愿意“識(shí)別自我”、“持續(xù)改善”,總能找到法子來應(yīng)對(duì)!

生活中的思想很多是相通的,無論是程序還是人生,都可以互為啟發(fā),互為扶持,互為激勵(lì)!如果你也有更好的想法,歡迎分享交流!

本文由 @養(yǎng)心進(jìn)行時(shí) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!