☰

一個算法工程師復現算法的踩坑總結

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜

作者丨Michael 來源丨我愛計算機視覺編輯丨極市平臺

導讀

本文作者總結了一些自己在模型調優和復現算法時遇到的一些坑，希望能對大家有所幫助。

博客地址：https://blog.csdn.net/liuxiaoheng1992/article/details/120228724

作爲一名算法工程師，主要是想把自己模型調優和復現算法遇到的一些坑總結一下（裡面的一行字可能是我當時花費了一週甚至更長時間得到的總結），希望能對讀者有所幫助。

一、熟悉數據

模型是數據的濃縮版----Andrew NG的二八定律，即80%的數據+20%的=更好的AI

對於新上手的一任務來說，需要熟悉你的數據。拿檢測任務來說，可以寫個可視化代碼查看標註是否合理，查看一下待檢測物體的大小分佈情況（例如anchor的預設），查看一下圖片大小，查看類別分佈情況（例如是否有極端的分佈）等等。

二、算法選型

在接到一個新領域的新任務時，需要調研相關領域算法，對該領域的發展有個大概的瞭解，掌握一些關鍵算法（比如歷年的SOTA）的思路。雖然調研需要花費一些時間，但是這樣在算法選型上可以少做一些實驗，性價比是很高的。站在他們的肩膀上就好了。

不太可取的思路：

在指標上太鑽牛角尖。有些算法工程師遇到指標在自己數據集效果不太好的情況時，立馬換別的算法，或者立馬換個backbone，或者立馬換個loss去做實驗。（需要認真分析爲什麼效果不好，是自己訓練有問題，還是當前數據不太適合該算法，是評測指標不合理，還是評測指標實現有問題。）

不進行相關調研，直接上SOTA算法。這樣做會有一些不太理想的問題，比如SOTA可能沒有針對自己場景的數據做優化，比如當前任務是小目標居多（通過分析數據得到），雖然SOTA的總的mAP很高，但是small mAP比之前算法還低，那就要慎用。比如SOTA用的是很重的網絡，但是任務是速度快，或者速度與效果兼顧，那也應該慎用。

對於某個任務在選擇好合適的算法以後，如果有相應的效果比較好的開源實現，最好用開源項目進行算法的復現。

這樣做的目的：

更方便深入的理解算法的具體細節，比如可能代碼在文章沒有提到的某些層上偷摸的加了一個shift操作，比如文章提到的一些trick代碼根本沒有實現，比如代碼用了額外的數據訓練但文章沒有提到，比如文章描述的數據增強方式與代碼的實現不一樣等。（這些可能發生在開源復現者沒有“一比一”復現論文的情況，也可能發生在論文作者自己沒有實現的情況）

能快速掌握算法的基礎性能，比如復現算法大概的運行速度（特別是文章沒給出的時候）和達到的效果

不用自己做一些無用功。要知道重寫和調試一份新的模型不僅費時費力，可能還因爲文章沒有寫清楚一些細節，導致你幾乎無法復現到相應的結果。

利用開源項目已復現的算法（這裡復現不是完全能與代碼作者或者文章作者結果一致，可能是數據增強，隨機種子導致結果有偏差，但已獲取到八九不離十的結果）來改進模型可以有下面幾點思路：

代碼是否實現了文章一些漲點的trick，如果沒有可以嘗試

文章一般會分析實驗結果，後面會有作者自己的一些觀點，他們可能會說明爲什麼有些情況文章的算法效果較差

有些文章會寫他們將來可能的工作，這也是一個改進思路

需要可視化查看實驗結果（特別是跑自己的數據集），結果可能與作者在公開數據集展示出的問題不一樣，分析效果差的原因

復現算法是一個比較大的工程，這裡的大工程不只是指代碼多或者工作量大，而是沒有一個基礎版，導致引入的不可控因素太多調試困難，比如數據接口是否有問題，模型是否搭建正確，訓練方式是否存在問題。

在復現算法或者優化算法是比較頭疼的是一切訓練正常，loss曲線比你想象的還好看，訓練了一年後（just kidding， maybe longer），測試一下發現效果奇差無比，都不好意思說是自己寫的代碼。一年就過去了。

這裡有下面一些建議：

儘量測試每一個細節，從數據接口，模型，到loss輸出，到最終的評測代碼。保證每個部分都可控。

測試數據接口，從單進程，batch爲1開始，方便打印數值進行對比。

不要隨意的去隨機，儘量保證問題可以復現比如先不要加入隨機數據增強，模型的隨機種子固定。

用少量的數據，這樣可以快速的做實驗，也可以讓模型快速過擬合。模型能過擬合可以大概確定模型是可以學到點什麼的。

儘量按照原文來複現，在復現前，先不要過多的添加自己獨特的想法。比如訓練參數，模型backbone，數據增強方式等等先按照文章來。不清楚的點可以嘗試email作者或者尋找相關圈子討論。

日誌打印全，比如解loss爲nan的情況，需要知道是forward的導致還是bp導致。

保證數據是可靠的

有預訓練模型最好用上

通常學習率參數小於1e-5基本沒啥用了，比如cosine或者step操作，最後的學習率到1e-5就好了。當然特殊任務不一樣

bn在訓練時記得打開更新（特別是tf的小夥伴，容易漏），不然可能出現的問題是訓練時loss下降很快，測試感覺模型就沒收斂

sgd是很棒的，但是實驗用adam或許收斂速度更好

如果想要很好的壓榨出一個算法的性能，請先保證當前模型能到達相應的性能再去壓榨。而不是盲目的換模塊，瘋狂調參，那樣可能只是浪費時間

不要太相信自己的調參技術，在沒有一個較好的baseline情況下，調參不會有質的飛躍（除非是之前參數造成了某種bug）

數據小時，使用了預訓練模型記得固定前幾層的模型參數，還可以用小點的學習率

loss balance有時候很有用

重複訓練可能可以提升點數，將一個模型訓練好後，用訓練好的模型做預訓練模型載入，繼續用同一套參數訓練。有點像CyclicLR（ https://pytorch.org/docs/stable/generated/torch.optim.lr_scheduler.CyclicLR.html#torch.optim.lr_scheduler.CyclicLR）

DL沒有像機器學習有那麼多公式支撐，很多都是make sense就做個實驗來驗證，所以儘量多閱讀論文，看看別人的實驗，這樣就可以減少不必要的實驗

這篇文章是爲了分享自己的一些心得，希望讀者能用得上，如果有嚴重錯誤還請告知，不想誤導他人

（點擊標題可跳轉閱讀）

老鐵，三連支持一下，好嗎？↓↓↓

一個算法工程師復現算法的踩坑總結

相關資訊