怎樣寫好事故報(bào)告,并且做好經(jīng)驗(yàn)復(fù)用與分享?

0 評(píng)論 15265 瀏覽 21 收藏 10 分鐘

我只想知道將來(lái)我會(huì)死在什么地方,這樣我就永遠(yuǎn)不去那兒了。

常在河邊走,哪能不濕鞋?日常工作中,總會(huì)遇到產(chǎn)品在正式使用過(guò)程中出故障,導(dǎo)致功能出現(xiàn)缺陷或者信息暴露等等問(wèn)題。無(wú)論大公司或小公司,例如2017年12月7日美團(tuán)外賣重復(fù)支付bug,2018年6月27日下午阿里云掛了長(zhǎng)達(dá)2時(shí),2019年1月3日,藝考報(bào)名系統(tǒng)“藝術(shù)升”APP持續(xù)崩潰、閃退,導(dǎo)致數(shù)十萬(wàn)藝考生無(wú)法報(bào)名。

在事故來(lái)臨時(shí),我們積極應(yīng)對(duì),處理完事故,后面的事情同樣重要。作為產(chǎn)品相關(guān)人員,撰寫一份優(yōu)秀的事故報(bào)告,做出經(jīng)驗(yàn)總結(jié),落地執(zhí)行改進(jìn)措施,既能有效避免同類事情再次發(fā)生,又能提前消滅其他隱藏的危險(xiǎn)。

事故報(bào)告內(nèi)容結(jié)構(gòu)

事故報(bào)告基本可以分為五大模塊:標(biāo)題、事故描述、事故處理、事故責(zé)任人、經(jīng)驗(yàn)總結(jié)。其他諸如處罰、資料附件等等根據(jù)實(shí)際需要添加。下面,我以真實(shí)事件為原型,模擬一個(gè)事故來(lái)作為例子描述。

標(biāo)題

標(biāo)題:XX系統(tǒng)響應(yīng)崩潰事故報(bào)告

說(shuō)明:直接點(diǎn)名主題;或準(zhǔn)確指明事故具體名稱+事故報(bào)告

事故描述

這里我們應(yīng)用記述六要素,時(shí)間、地點(diǎn)、人物、起因、經(jīng)過(guò)、結(jié)果。

時(shí)間:2018年12月3日10:00—2018年12月4日00:00

地點(diǎn):全國(guó)各區(qū)域用戶(無(wú)區(qū)域性的事故,可去掉本項(xiàng))

人物:產(chǎn)品用戶(有些事故由于人為操作不當(dāng)導(dǎo)致,需加上相關(guān)人物。)

起因:2018年12月3日上午10點(diǎn),官網(wǎng)活動(dòng)開(kāi)始,用戶大量進(jìn)入APP,每秒最大并發(fā)連接數(shù)1.98萬(wàn),隨后,其他活動(dòng)也開(kāi)始舉行,并發(fā)數(shù)保持高峰。由于排隊(duì)人數(shù)過(guò)多,服務(wù)器的響應(yīng)能力嚴(yán)重不足,導(dǎo)致系統(tǒng)出現(xiàn)了擁堵。

經(jīng)過(guò):2018年12月3日10點(diǎn),官網(wǎng)活動(dòng)開(kāi)始,用戶大量進(jìn)入APP,每秒最大并發(fā)連接數(shù)1.98萬(wàn),上午11點(diǎn),每秒最大并發(fā)連接數(shù)2萬(wàn);系統(tǒng)報(bào)警,開(kāi)發(fā)人員XX緊急檢查……

隨后,A、B、C三大活動(dòng)方活動(dòng)也開(kāi)始舉行,并發(fā)數(shù)保持高峰,2018年12月3日12點(diǎn),每秒最大并發(fā)連接數(shù)2.5萬(wàn)。

2018年12月3日18點(diǎn),所有活動(dòng)方均已開(kāi)始舉行活動(dòng),每秒最大并發(fā)連接數(shù)5.7萬(wàn)。

……

以上為各重點(diǎn)節(jié)點(diǎn)描述,本文不再贅述。

說(shuō)明:簡(jiǎn)要描述各個(gè)重要時(shí)間節(jié)點(diǎn),還原事件經(jīng)過(guò),讓查看的人有清晰的事件發(fā)展路線,如有相關(guān)數(shù)據(jù)圖表,也應(yīng)加上。

結(jié)果:2018年12月3日10:00起-2019年12月4日00:00,期間APP持續(xù)崩潰、閃退,導(dǎo)致所參與的200萬(wàn)用戶提交請(qǐng)求出現(xiàn)失敗。12月4日凌晨,APP恢復(fù)正常。

說(shuō)明:結(jié)果描述需要具體、真實(shí)并且包含影響范圍。

事故處理

2018年12月3日10:00,系統(tǒng)報(bào)警,開(kāi)發(fā)人員XX緊急檢查,并聯(lián)系相關(guān)負(fù)責(zé)人匯報(bào)情況……商討方案……馬上申請(qǐng)調(diào)用服務(wù)器…..組織進(jìn)行架構(gòu)優(yōu)化……由于之前系統(tǒng)在線排隊(duì)用戶較多,消化用戶隊(duì)列需要一段時(shí)間,此過(guò)程用戶體驗(yàn)略慢,截止12月4日凌晨,所有頁(yè)面與App己完全恢復(fù)正常,目前系統(tǒng)穩(wěn)定。

說(shuō)明:事故處理需要描述從開(kāi)始導(dǎo)處理完畢的過(guò)程,可用于復(fù)盤,若有發(fā)現(xiàn)處理過(guò)程不足的地方,可備后續(xù)改進(jìn),優(yōu)秀的經(jīng)驗(yàn)可用于分享。

事故責(zé)任人

產(chǎn)品負(fù)責(zé)人XXX

技術(shù)負(fù)責(zé)人XXX

說(shuō)明:根據(jù)實(shí)際情況填寫負(fù)責(zé)人,以便進(jìn)行追責(zé)、改進(jìn)等等工作。

經(jīng)驗(yàn)總結(jié)

本次事故突出了我們系統(tǒng)人員在前期系統(tǒng)流量沖擊預(yù)估不足,沒(méi)有緊急擴(kuò)充服務(wù)器方案。

說(shuō)明:一次事故,表面的原因可能是是一行代碼寫錯(cuò),一個(gè)失誤、一個(gè)忽視。但實(shí)際上暴露的產(chǎn)品研發(fā)流程規(guī)范、制度規(guī)范、人員安全意識(shí)等等,這些才是我們后續(xù)需要重點(diǎn)解決的,很多時(shí)候,事故報(bào)告被當(dāng)作一種形式化的文檔。

甚至,有部分公司也根本不需要寫事故報(bào)告,解決問(wèn)題后就不管了,沒(méi)有進(jìn)行后續(xù)的跟進(jìn)總結(jié)。事故一次次發(fā)生,無(wú)論產(chǎn)品或者人員沒(méi)有從這一次次的事故中吸取教訓(xùn)、取得進(jìn)步。

以上為事故報(bào)告的內(nèi)容構(gòu)成,事故報(bào)告之外,經(jīng)驗(yàn)復(fù)用、分享同樣重要。

經(jīng)驗(yàn)復(fù)用與分享

經(jīng)驗(yàn)復(fù)用

產(chǎn)品內(nèi)部:每一個(gè)事故都不是偶然的,造成的原因不是唯一,在其他地方往往也存在問(wèn)題。例如:產(chǎn)品某個(gè)接口暴露敏感信息,我們也應(yīng)該同樣檢查類似接口,避免其他接口也出現(xiàn)同樣的問(wèn)題。

其他產(chǎn)品:在一家公司中,往往產(chǎn)品研發(fā)流程、制度規(guī)范大部分一致,若是由于流程不完善,此時(shí)不應(yīng)該只對(duì)出問(wèn)題的產(chǎn)品線進(jìn)行優(yōu)化,在做出改進(jìn)措施后,應(yīng)當(dāng)將其延伸復(fù)用到其他產(chǎn)品線,避免其他產(chǎn)品線出現(xiàn)同樣的問(wèn)題。

經(jīng)驗(yàn)分享

這里我們參考萬(wàn)達(dá)內(nèi)部培訓(xùn)方法《11130教學(xué)法》來(lái)對(duì)我們的經(jīng)驗(yàn)進(jìn)行分享。“11130”的含義是:1個(gè)業(yè)務(wù)問(wèn)題;1個(gè)實(shí)際案例;1個(gè)解決方法;30分鐘講解。

  • 1個(gè)業(yè)務(wù)問(wèn)題+1個(gè)實(shí)際案例:兩者避免了我們之前在做經(jīng)驗(yàn)分享時(shí)內(nèi)容大而全、不聚焦、無(wú)重點(diǎn)導(dǎo)致受眾根本記不住的問(wèn)題。專注一個(gè)或一類業(yè)務(wù)問(wèn)題,徹底分析,舉一反三,全面解決問(wèn)題。實(shí)際發(fā)生的案例,我們印象更為深刻,也更加容易產(chǎn)生聯(lián)想,用工作中實(shí)際發(fā)生的案例來(lái)呈現(xiàn)問(wèn)題,呈現(xiàn)解決方法,問(wèn)題實(shí),方法實(shí),有價(jià)值。
  • 1個(gè)解決方法:復(fù)盤后,我們根據(jù)實(shí)際問(wèn)題,制定最好的那個(gè)解決方法,只分享最好的,不累贅,更有利于大家吸收,反思自己所負(fù)責(zé)的產(chǎn)品。
  • 30分鐘講解:平時(shí)大家工作任務(wù)重,所以對(duì)于這種經(jīng)驗(yàn)分享,事故總結(jié)會(huì)議總是心存排斥,30分鐘只是一個(gè)概念,如果一個(gè)問(wèn)題可以講透,可以縮短到20分鐘、15分鐘甚至10分鐘。30分鐘講解,讓分享可以靈活安排在部門例會(huì)后或問(wèn)題發(fā)生的現(xiàn)場(chǎng)。根據(jù)不同情況,時(shí)間也可以適當(dāng)延長(zhǎng),但我們盡量在短時(shí)間內(nèi)把問(wèn)題講透。

通過(guò)《11130教學(xué)法》,我們可以快速學(xué)習(xí),特別是互聯(lián)網(wǎng)行業(yè),在這個(gè)快速迭代更新的世界,我們也需要快速更新我們的知識(shí)。重大的事故,帶來(lái)的負(fù)面影響往往很大,但是隨著帶來(lái)的教訓(xùn)與經(jīng)驗(yàn)也往往更多,我們需要將這些解決問(wèn)題的方法與經(jīng)驗(yàn)得到快速的沉淀,轉(zhuǎn)化為企業(yè)資產(chǎn)。

以上,通過(guò)回顧事故,做出總結(jié),將經(jīng)驗(yàn)進(jìn)行復(fù)用與分享,相信我們能夠做到不重復(fù)踩坑!

最后分享投資大師查理芒格最喜歡的一句諺語(yǔ):

我只想知道將來(lái)我會(huì)死在什么地方,這樣我就永遠(yuǎn)不去那兒了。

 

作者:彬go,微信公眾號(hào)“有個(gè)思享”,專注讀書(shū)與產(chǎn)品心得分享,歡迎交流。

本文由 @彬go 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!