روش AdamW، در ریاضیات (Mathematics)
انواع روش های بهینه سازی (Optimization Methods) را در آموزش زیر شرح دادیم :
روش AdamW :
📌 معرفی
روش AdamW یک اصلاح از Adam است که توسط لوشچیلوف و هاتتر در سال ۲۰۱۷ ارائه شد. مشکل اصلی Adam این بود که تنظیم کنندگی وزن (Weight Decay) به درستی در آن پیاده سازی نشده بود. AdamW این مشکل را با جدا کردن تنظیم کنندگی وزن از به روزرسانی مبتنی بر گرادیان حل می کند.
📐 تفاوت با Adam
در Adam معمولی، تنظیم کنندگی وزن به صورت
\[ w_{t+1} = w_t - \eta (\hat{m}_t / (\sqrt{\hat{v}_t} + \epsilon) + \lambda w_t) \]انجام می شود. در AdamW، این دو مرحله از هم جدا هستند:
\[ w_{t+1} = w_t - \eta \left( \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda w_t \right) \]این تغییر ساده باعث بهبود قابل توجه در عملکرد، به ویژه در مسائل یادگیری عمیق و بینایی کامپیوتر می شود.