آموزش ریاضیات (Mathematics)
۲۳۸۵ آموزش
نمایش دسته بندی ها (۲۳۸۵ آموزش)

روش AdaGrad (انگلیسی : Adaptive Gradient Algorithm)، در ریاضیات (Mathematics)

انواع روش های بهینه سازی (Optimization Methods) را در آموزش زیر شرح دادیم :

روش AdaGrad (انگلیسی : Adaptive Gradient Algorithm) :

📌 معرفی

روش AdaGrad (Adaptive Gradient) یک الگوریتم بهینه سازی با نرخ یادگیری تطبیقی است. ایده اصلی این است که برای هر پارامتر، نرخ یادگیری متفاوتی بر اساس تاریخچه گرادیان های آن پارامتر در نظر گرفته شود. پارامترهایی که گرادیان های بزرگ و مکرر داشته اند، نرخ یادگیری کوچکتری خواهند داشت و بالعکس.

📐 فرمول بندی

\[ G_{t} = G_{t-1} + (\nabla f(w_t))^2 \] \[ w_{t+1} = w_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \odot \nabla f(w_t) \]

که

\[ G_t \]

مجموع مربعات گرادیان های گذشته،

\[ \eta \]

نرخ یادگیری پایه، و

\[ \epsilon \]

یک عدد کوچک برای جلوگیری از تقسیم بر صفر است. عملگر

\[ \odot \]

ضرب نقطه ای (Element-wise) را نشان می دهد.

🔧 ویژگی ها

مزایا: نیاز به تنظیم دستی نرخ یادگیری را کاهش می دهد، برای داده های پراکنده (Sparse) بسیار مناسب است.

معایب:

\[ G_t \]

همواره افزایش می یابد و نرخ یادگیری به تدریج به صفر میل می کند که ممکن است باعث توقف زودهنگام یادگیری شود.

نویسنده علیرضا گلمکانی
شماره کلید 8808
گزینه ها
به اشتراک گذاری (Share) در شبکه های اجتماعی
نظرات 0 0 0

ارسال نظر جدید (بدون نیاز به عضو بودن در وب سایت)