روش AdaDelta، در ریاضیات (Mathematics)
انواع روش های بهینه سازی (Optimization Methods) را در آموزش زیر شرح دادیم :
روش AdaDelta :
📌 معرفی
روش AdaDelta یک توسعه دیگر از AdaGrad است که برای رفع مشکل کاهش نرخ یادگیری طراحی شده است. AdaDelta نیازی به نرخ یادگیری اولیه ندارد و به طور کامل تطبیقی است.
📐 ایده اصلی
AdaDelta از دو میانگین متحرک استفاده می کند: یکی برای مربعات گرادیان ها و دیگری برای مربعات به روزرسانی های پارامتر. فرمول ها:
\[ E[g^2]_t = \rho E[g^2]_{t-1} + (1-\rho) g_t^2 \] \[ \Delta w_t = -\frac{\sqrt{E[\Delta w^2]_{t-1} + \epsilon}}{\sqrt{E[g^2]_t + \epsilon}} g_t \] \[ E[\Delta w^2]_t = \rho E[\Delta w^2]_{t-1} + (1-\rho) (\Delta w_t)^2 \] \[ w_{t+1} = w_t + \Delta w_t \] نظرات 0 0 0