00:00 / 00:00
1.8x
1.4x
1.0x
0.7x
HD SD
HD
SD
ثبت‌نام رایگان
  • دسترسی به 8 جلسه نمونه از دوره
  • دسترسی به 8 جلسه نمونه از دوره
  • عضویت در تالار گفت‌وگوی دوره
  • اضافه شدن دوره به پروفایل
فقط محتوا
  • دسترسی کامل و نامحدود به محتوای دوره
  • تمام قابلیت‌‌های پلن رایگان
    +
  • دسترسی کامل و نامحدود به محتوا
209,000 تومان
دوره کامل
  • دسترسی به تمام قابلیت‌های دوره
  • تمام قابلیت‌های پلن محتوا
    +
  • گواهی‌نامه مکتب‌خونه
  • پروژه محور
  • تمرین و آزمون
  • تالار گفتگو
  • تسهیل استخدام
289,000 تومان
00:00 / 00:00
1.8x
1.4x
1.0x
0.7x
HD SD
HD
SD
مکتب‌خونه مکتب‌خونه

آموزش یادگیری تقویتی (Reinforcement Learning)

دوره‌های مکتب‌پلاس
32 ساعت
84٪ (396 رای)

دوره آموزش یادگیری تقویتی چیست؟

زمینه‌هایی مثل علم داده، هوش مصنوعی و یادگیری ماشین در حال حاضر محبوبیت زیادی را به خود اختصاص داده‌اند. چراکه با استفاده از این علوم می‌توان سیستم‌های هوشمند و یادگیرنده طراحی کرد و کارها را با سرعت و دقت بیشتری انجام داد. یادگیری تقویتی یا Reinforcement Learning برای ارتباط دادن یادگیری ماشین و شبکه‌های عمیق با دنیای صنعت کاربرد دارد. با یادگیری تقویتی می‌توان یک ماشین را برای انجام یک بازی به نحوی آموزش داد که در برابر انسان به پیروزی برسد.

یادگیری تقویتی ارتباط بین هوش مصنوعی با صنعت را برقرار می‌کند. کاربرد اصلی یادگیری تقویتی در برنامه‌ریزی ربات‌ها و ماشین‌هایی است که به تولید کارخانه‌ها یا مدیریت انبار کمک می‌کنند. این ربات‌ها با یادگیری تقویتی تمام سناریوهای احتمالی زمان کار را فراگرفته و در زمان اتفاق افتادن هرکدام از حالات، واکنشی متناسب با آن از خود نشان می‌دهند. سیستم‌های خودآموز در دنیای امروز نقش بسیار ویژه‌ای دارند و شرکت‌هایی مثل آمازون یا اپل بر اساس این سیستم‌ها کار می‌کنند.

 

هدف از یادگیری دوره آموزش یادگیری تقویتی چیست؟

هدف نهایی از دوره آموزش یادگیری تقویتی، راه‌اندازی سیستم‌های خودآموز است. سیستم‌هایی که بتوانند با درس گرفتن از تجربیات خود، به‌روز شده و واکنش‌های بهتری به شرایط نشان دهند. در واقع در این دوره ما به فراگیری مفهوم یادگیری تقویتی می‌پردازیم که در پی آن توانایی نوشتن برنامه‌ای را داریم که با کمک آن، کامپیوتر به‌جای تکرار یک مسیر ثابت، علاوه بر انجام کار، از هر بار انجام شدن کار درس می‌گیرد و دفعات بعدی آن را با خطاهای کمتری انجام خواهد داد. همان‌طور که گفتیم با یادگیری تقویتی می‌توان برنامه‌ای نوشت که کامپیوتر با استفاده از آن در برابر انسان پیروز شود.

 

دوره آموزش یادگیری تقویتی مناسب چه کسانی است؟

  • علاقه‌مندان به هوش مصنوعی و فعالین در این حوزه
  • کسانی که به حوزه علم داده علاقه‌مند هستند
  • شاغلین و علاقه‌مندان حوزه gameplay و رباتیک
  • دانشجویان و پژوهشگران که در زمینه علم داده فعالیت می‌کنند

 

بعد از یادگیری دوره آموزش یادگیری تقویتی چه مهارت‌هایی کسب خواهید کرد؟

در پایان این دوره قادر خواهید بود سیستم خودآموز دلخواهتان را بسازید. علاوه بر این با توجه به اینکه در این دوره با اصطلاحات و مفاهیم اساسی این حوزه آشنا می‌شوید. پس از پایان دوره امکان مطالعه و پژوهش سطح بالا در این زمینه را هم خواهید داشت. دو موردی که گفته شد را می‌توان به‌عنوان اصلی‌ترین مزایای این دوره بیان کرد. اما علاوه بر این مورد، در پایان دوره آموزش یادگیری تقویتی به مهارت‌های زیر هم مسلط خواهید بود:

  • آشنایی با انواع مدل‌های یادگیری تقویتی 
  • آشنایی با کتابخانه gym
  • آشنایی با مدل‌های deep Q-learning
  • آشنایی با مدل‌های Policy Based
  • پیاده‌سازی روش‌های مختلف مدل کردن یادگیری تقویتی

 

ویژگی‌های متمایز دوره آموزش یادگیری تقویتی چیست؟

شیوه آموزش این دوره ترکیبی از آموزش تئوریک و آموزش عملی است. به این صورت که ابتدا مباحث تئوری بررسی شده و سپس با پروژه‌ها و مثال‌های عملی، این یادگیری تثبیت می‌شود. علاوه بر این‌ها سعی شده است در این دوره تا حد ممکن مباحث ریاضی مربوط به یادگیری تقویتی بیان شود تا شرکت‌کننده در ادامه بتواند این مبحث را به‌صورت آکادمیک یا پژوهشی دنبال کند.

سرفصل‌های دوره آموزش یادگیری تقویتی (Reinforcement Learning)

فصل اول: آشنایی با یادگیری تقویتی
00:24 ساعت
00:23
Combined Shape Created with Sketch. 3 جلسه
بارم:
0%
نمایش جلسات فصل  

یادگیری تقویتی یکی از روش‌های یادگیری ماشین Machine Learning به شمار می‌آید. در این نوع یادگیری، عامل خود باتوجه‌به معیارهای تنبیه و پاداش، عمل صحیح در هر وضعیت را درک می‌کند. اگر بخواهیم برای این نوع مکانیسم یادگیری مثالی ارائه دهیم، می‌توانیم به نوع شکل‌گیری الگو‌های رفتاری حیوانات و انسان‌ها اشاره کنیم. در واقع بسیاری از حیوانات، تنها با استفاده از مکانیسم یادگیری تقویتی، مسائل مختلف را یاد می‌گیرند. در حال حاضر یادگیری تقویتی کاربرد‌های گسترده‌ای در حل مسائل گوناگون یافته است.

فصل اول درباره آشنایی با کاربرد‌های یادگیری تقویتی و ارائه تعریفی کلی درباره یادگیری تقویتی است و شما به‌صورت کلی با مباحث و سرفصل‌های ارائه شده در بخش‌های دیگر این آموزش آشنا می‌شوید. در پایان فصل نیز اطلاعات شما درباره تعریف و کاربرد یادگیری تقویتی با یک کوییز سنجیده می‌شود.

معرفی سرفصل‌ها
"07:13
تعریف و کاربرد یادگیری تقویتی
"16:31
کوییز تعریف و کاربرد یادگیریتقویتی
100.0%
     
"01:00
فصل دوم: مسئله‌ی راهزن چنددست (Multi-Armed Bandit)
03:21 ساعت
00:50
Combined Shape Created with Sketch. 6 جلسه
بارم:
10%
نمایش جلسات فصل  

فصل دوم درباره مسئله راهزن چنددست (Multi-Armed Bandit) است که یک روش کلاسیک در یادگیری تقویتی محسوب می‌شود و به روش‌های مختلفی سعی در حل مسئله دارد. هدف اصلی در مسئله راهزن چنددست (Multi-Armed Bandit) ارائه یک روش غریزی برای حل مسئله است. اگر بخواهیم مثالی برای درک این موضوع عنوان کنیم، می‌توانیم از حل مسئله توسط انسان تنها با نگاه‌کردن به مسئله را عنوان کنیم؛ لذا می‌توانیم عنوان کنیم که هدف اصلی این بخش پیشنهاد روش‌های ساده برای حل مسئله توسط ماشین است. در مسئله فرض می‌شود که چندین دستگاه ماشین جایزه وجود دارد. در این مسئله سعی می‌شود تا دستگاهی که بیشترین جایزه را برای ما خواهد داشت را پیدا کنیم. برای این کار ما از مکانیسم‌هایی نظیر خطا و جایزه استفاده می‌کنیم. نکته مهم در این موضوع این است که بتوانیم به طور غریزی و با استفاده از راه‌حل‌های ساده بتوانیم این مسئله را حل کنیم.

این فصل در چهار بخش کلی آموزشی تدوین شده است. شما در بخش اول و دوم این فصل با مکانیسم راهزن چنددست (Multi-Armed Bandit) آشنا می‌شوید. بعد از تسلط و یادگیری تعاریف و نکات مهم مسئله‌ی راهزن چنددست، شما با پیاده‌سازی راهزن چنددست در دو بخش پایانی این فصل آشنا می‌شوید. در پایان برای سنجش میزان اطلاعات و یادگیری شما در این مسئله کوییز راهزن چنددست وجود دارد. همچنین شما ملزم هستید تا در پایان تمرین بخش مسئله راهزن چنددست را انجام دهید.

راهزن چنددست - بخش اول
"16:30
راهزن چنددست - بخش دوم
"14:06
پیاده‌سازی راهزن چنددست - بخش اول
"12:47
پیاده‌سازی راهزن چنددست - بخش دوم
"06:52
کوییز راهزن چنددست
7.0%
     
"01:00
تمرین بخش مسئله راهزن چنددست

 (الزامی)

93.0%
     
"150:00
فصل سوم: تعاریف یادگیری تقویتی
00:59 ساعت
00:57
Combined Shape Created with Sketch. 7 جلسه
بارم:
1%
نمایش جلسات فصل  

در این فصل سعی شده است تا با بررسی تعریف و نکات مهم یادگیری تقویتی، موضوع‌های همچون تعیین ارزش اقدامات (Actions)، حالت‌ها (States)، تعیین ارزش بازده و سود (Returns and profits) و تابع پاداش و جریمه (Rewards and fines function) تعریف می‌شود. می‌توان این تعاریف را اصول پایه موردنیاز در یادگیری تقویتی دانست که یادگیری درست آن در تمام بخش‌ها موردنیاز است. سه بخش این فصل به ارائه این تعاریف مهم اختصاص یافته است. همچنین برای سنجش میزان یادگیری شما درباره تعاریف یادگیری تقویتی یک کوییز طراحی شده است.

در ادامه این فصل نیز رابطه‌ی Bellman (بلمن) توضیح داده شده است. رابطه Bellman در واقع یک موضوع ریاضیاتی است که شرط لازم برای بهینه‌سازی یک برنامه‌ریزی پویا را توضیح می‌دهد. در پایان این بخش نیز یک کوییز برای تعیین میزان یادگیری شما در مورد رابطه بلمن وجود دارد.

بخش پایانی این فصل نیز به اثبات رابطه Bellman  اختصاص یافته است. این رابطه با تبدیل مسئله موجود به دنباله‌ای از زیرمشکلات ساده‌تر، سعی در بهینه‌سازی جواب‌های ارائه شده دارد.

تعاریف یادگیری تقویتی - قسمت اول
"10:30
تعاریف یادگیری تقویتی - قسمت دوم
"11:36
تعاریف یادگیری تقویتی - قسمت سوم
"14:36
کوییز تعاریف یادگیری تقویتی
50.0%
     
"01:00
رابطه‌ی Bellman
"15:10
کوییز رابطه‌ی Bellman
50.0%
     
"01:00
اثبات رابطه Bellman
"05:18
فصل چهارم: برنامه‌نویسی پویا (Dynamic Programming)
03:17 ساعت
00:45
Combined Shape Created with Sketch. 7 جلسه
بارم:
11%
نمایش جلسات فصل  

برنامه‌نویسی پویا یا دینامیک (Dynamic Programming) در علوم رایانه و ریاضیات به معنی ارائه روش کارآمد بهینه‌سازی و حل مسائل با استفاده از زیرساخت‌های بهینه و زیرمسئله‌های هم‌پوشان است. در حل مسئله برنامه‌نویسی پویا، روش به نام تکرار سیاست (Policy Iteration) ارائه می‌شود. بخش اول این فصل به روش تکرار سیاست اختصاص یافته است. در این روش سعی می‌شود تا با تکرار متداوم یک عمل، ارزش وضعیت‌های مختلف را به دست بیاوریم. در این روش سعی می‌شود تا با عمل حریصانه (Greedy action) وضعیت خود را بهبود ببخشیم. این بخش به این موضوع می‌پردازد که تکرار حریصانه و بهبود متداوم وضعیت خود می‌توان به یک سیاست بهینه رسید. در پایان این بخش نیز یک کوییز برای تعیین میزان یادگیری شما در مورد روش تکرار سیاست وجود دارد. بخش دوم این فصل نیز به پیاده‌سازی سیاست تکرار اختصاص یافته است.

در بخش بعدی به روش تکرار ارزش (Value Iteration) اختصاص یافته است. در این روش هدف اصلی بهینه‌سازی تابع ارزش است. در واقع تابع ارزش ما، تابعی است که حداکثر پاداش در آینده را تعیین می‌کند. در این روش با تکرار حریصانه عمل در حلقه تابع ارزش سعی می‌شود تا تابع ارزش بهینه‌سازی گردد. در پایان این بخش نیز یک کوییز برای تعیین میزان یادگیری شما در مورد روش تکرار ارزش (Value Iteration) وجود دارد. بخش پایانی این فصل نیز به نحوه پیاده‌سازی تکرار ارزش اختصاص یافته است.

در پایان این فصل نیز شما ملزم به ارائه یک تمرین در بخش برنامه‌نویسی داینامیک خواهید بود.

Policy Iteration
"14:19
کوییز Policy Iteration
6.5%
     
"01:00
پیاده‌سازی سیاست تکرار - بخش اول
"17:44
پیاده‌سازی Policy Iteration - بخش دوم
"06:32
Value Iteration
"06:27
کوییز Value Iteration
6.5%
     
"01:00
تمرین بخش برنامه‌نویسی داینامیک (Dynamic Programming)

 (الزامی)

87.0%
     
"150:00
فصل پنجم: روش‌های مبتنی بر جدول (Tabular)
07:09 ساعت
02:04
Combined Shape Created with Sketch. 17 جلسه
بارم:
18%
نمایش جلسات فصل  

در این فصل روش‌های مبتنی بر جدول (Tabular) توضیح داده می‌شود. در واقع فرض می‌شود که یک جدول دوبعدی از ارزش‌ها (Values) و فعالیت‌ها (Actions) وجود دارد. در این روش هدف این است که شما با روش‌های مختلف تابع ارزش وضعیت را تعیین کنید و سپس با اقدامات حریصانه (Greedy actions) می‌توانید ارزش‌های ارائه شده را بهینه‌سازی کنید. در این روش برخلاف روش ارائه شده در فصل چهارم ما از اقدامات ارائه شده خود نمونه (Sample) تهیه می‌کنیم و با استفاده از تکرار (itertic) سعی می‌کنم تا مسئله را به شکلی بهینه حل کنیم.

در بخش اول این فصل شما با روش مونت‌کارلو (Monte Carlo) برای تعیین ارزش‌های خود آشنا می‌شوید. در دو بخش بعدی فصل مشکلات و محدودیت‌های موجود در برنامه‌ریزی پویا، پیاده‌سازی و ارزیابی سیاست مبتنی بر رویکرد مونت کارلو (Monte Carlo Policy Evalution) بیان می‌گردد. در بخش بعدی این فصل نیز همچنین سیاست تأثیر تفاوت‌های زمانی (Temporal Difference) توضیح داده می‌شود. در پایان این بخش نیز یک کوییز برای تعیین میزان یادگیری شما در مورد روش تفاوت‌های زمانی (Temporal Difference) وجود دارد.

در این بخش پیاده‌سازی TDO State Value Prediction توضیح داده می‌شود. همچنین بخش بعدی این فصل به توضیح روش‌های SARSA و Q-learning بیان می‌گردد. در دو بخش بعدی این فصل نیز نحوه پیاده‌سازی SARSA and Q-learning شرح داده می‌شود.

بعد از توضیح پیاده‌سازی و ارزیابی روش‌های SARSA and Q-learning، بخش بعدی این فصل به تعریف روش Expected SARSA and double Q-learning اختصاص یافته است. در پایان این بخش نیز یک کوییز برای تعیین میزان یادگیری شما در مورد روش  Expected SARA and Double Q-learning وجود دارد. بخش بعدی ارائه شده در فصل نیز به ارزیابی و پیاده‌سازی روش Expected SARA and Double Q-learning اختصاص یافته است.

بخش توضیح روش ردیابی واجد شرایط بودن (Eligibility Trace) آخرین بخش از این فصل به شمار می‌آید. در پایان این بخش نیز یک کوییز برای تعیین میزان یادگیری شما در مورد روش ردیابی واجد شرایط بودن (Eligibility Trace) وجود دارد.

در پایان این فصل نیز شما ملزم به ارائه یک تمرین در مورد روش‌های مبتنی بر جدول (Tabular) خواهید بود.

مونت‌کارلو (Monte Carlo)
"12:39
کوییز Monte Carlo
4.0%
     
"01:00
پیاده‌سازی Monte Carlo Policy Evalution
"08:59
پیاده‌سازی Monte Carlo Control Problem
"08:34
Temporal Difference
"11:17
کوییز Temporal Difference
4.0%
     
"01:00
پیاده‌سازی TDO State Value Prediction
"05:20
SARSA و Q-learning
"12:21
کوییز SARSA and Q-learning
4.0%
     
"01:00
پیاده‌سازی SARSA and Q-learning - بخش اول
"12:11
پیاده‌سازی SARSA and Q-learning - بخش دوم
"13:05
Expected SARSA and double Q-learning
"12:45
کوییز Expected SARA and Double Q-learning
4.0%
     
"01:00
پیاده‌سازی Expected SARA and Double Q-learning
"09:59
Eligibility Trace
"17:23
کوییز Eligibility Trace
4.0%
     
"01:00
تمرین بخش روش‌های مبتنی بر جدول

 (الزامی)

80.0%
     
"300:00
فصل ششم: استفاده از تخمین‌گر
06:57 ساعت
01:54
Combined Shape Created with Sketch. 11 جلسه
بارم:
17%
نمایش جلسات فصل  

در فصل قبل توضیح داده شد که با استفاده از یک جدول دوبعدی بر اساس ارزش‌ها (Values) و فعالیت‌ها (Actions) وجود دارد تا تابع ارزش را تعیین کند. اما باید در نظر داشت که اگر تعداد توابع حالت‌ها (States) زیاد باشد، ما نمی‌توانیم با استفاده روش‌های مبتنی بر جدول (Tabular) تابع خود را بهینه‌سازی کنیم. در این فصل به‌جای استفاده از یک جدول از توابع نظیر ماشین لرنینگ (Deep learning) استفاده می‌کنیم تا تخمینی از توابع وضعیت ما ارائه شود. تفاوت روش‌های ارائه شده این فصل با فصل گذشته، استفاده از یک تخمین‌گر (Estimator) به‌منظور ارائه یک تخمین از وضعیت‌ها است.

ورودی این تخمین‌گر‌ها حالت‌ها (States) هستند و خروجی ارائه شده توسط آن‌ها یک تخمین (estimate) است.

در بخش اول این فصل تخمین Q-value آموزش داده می‌شود و سپس در پایان بخش یک کوییز به‌منظور سنجش میزان یادگیری شما وجود دارد. بخش بعدی این فصل نیز به توضیح روش Deep Q-learning اختصاص یافته است و سپس در پایان بخش یک کوییز به‌منظور سنجش میزان یادگیری شما در مورد روش Deep Q-learning وجود دارد.

در دو بخش بعدی این فصل نیز روش‌های بهبود مدل‌های DQN توضیح داده خواهد شد. در پایان این دو بخش نیز یک کوییز به‌منظور ارزیابی میزان یادگیری شما در مورد روش‌های بهبود مدل‌های DQN وجود دارد.

دو بخش بعدی این فصل نیز به پیاده‌سازی بهبود مدل‌های DQN اختصاص یافته است. در پایان این فصل نیز شما ملزم به ارائه یک تمرین در مورد استفاده از DQN خواهید بود.

تخمین Q-value
"15:31
کوییز تخمین Q-value
4.3%
     
"01:00
Deep Q-learning
"20:45
کوییز Deep Q-learning
4.3%
     
"01:00
پیاده‌سازی Deep Q-learning
"31:41
بهبود مدل‌های DQN - بخش اول
"10:42
بهبود مدل‌های DQN - بخش دوم
"06:21
کوییز بهبود مدل‌های DQN
4.3%
     
"01:00
پیاده‌سازی بهبود مدل‌های DQN - بخش اول
"13:08
پیاده‌سازی بهبود مدل‌های DQN - بخش دوم
"16:17
تمرین بخش استفاده از DQN

 (الزامی)

87.0%
     
"300:00
فصل هفتم: Policy Gradient
01:17 ساعت
01:14
Combined Shape Created with Sketch. 9 جلسه
بارم:
2%
نمایش جلسات فصل  

این فصل به موضوع اختصاص یافته است که چه روش‌هایی برای یادگیری مستقیم سیاست و استراتژی وجود دارد. در این فصل ابتدا یادگیری مستقیم (policy) بری شما توضیح داده می‌شود. در پایان بخش شما با انجام یک کوییز میزان یادگیری خود در مورد یادگیری مستقیم (policy) را ارزیابی می‌کنید. بخش بعدی این فصل الگوریتم تقویتی (Reinforce) توضیح داده می‌شود. در پایان بخش شما با انجام یک کوییز میزان یادگیری خود را مورد ارزیابی قرار می‌دهید. در این فصل بخشی نیز به توضیح الگوریتم Actor-Critic و بخشی نیز به پیاده‌سازی الگوریتم Actor Critic اختصاص یافته است. شما بعد از اتمام بخش توضیح الگوریتم Actor-Critic در یک کوییز به‌منظور ارزیابی و سنجش میزان یادگیری خود در این بخش می‌پردازید.

چنانچه خواهان یادگیری بیشتری در مورد مطالب ارائه شده در این فصل هستید، می‌توانید مطالب ارائه شده در بخش اختیاری روش گرادیان سیاست عمیق قاطعیت Deep Deterministic Policy Gradient (DDPG) را بررسی کنید.

بخش پایانی این فصل در مورد آشنایی با TF-Agent است.

یادگیری مستقیم policy
"14:42
کوییز یادگیری مستقیم policy
30.0%
     
"01:00
الگوریتم تقویتی (Reinforce)
"11:18
کوییز الگوریتم Reinforce
30.0%
     
"01:00
الگوریتم Actor-Critic
"11:31
کوییز الگوریتم Actor-Critic
40.0%
     
"01:00
پیاده‌سازی Actor Critic
"21:35
روش Deep Deterministic Policy Gradient (DDPG) (اختیاری)
"07:27
آشنایی با TF-Agent
"08:01
فصل هشتم: پروژه پایانی
09:00 ساعت
Combined Shape Created with Sketch. 1 جلسه
بارم:
37%
نمایش جلسات فصل  

در این فصل با توجه به مطالبی که در فصل گذشته با آن آشنا شده‌اید، یک پروژه برای شما تعریف شده است. لازم به ذکر است که ارائه این پروژه کاملا الزامی است.

پروژه نهایی

 (الزامی)

100.0%
     
"540:00

تالار گفت‌وگو

استاد دوره
علی قندی علی قندی

علی قندی تحصیلات خود در رشته‌ی مهندسی برق گرایش سیستم‌های دیجیتال را از سال ۹۲ در دانشگاه صنعتی شریف آغاز نمود. کارشناسی ارشد خود را در همین دانشگاه در زمینه علوم داده گذرانده و از سال 1399 مقطع دکترا را در این زمینه آغاز نموده است.

وی از سال ۱۳۹۵ فعالیت خود در زمینه‌ی هوش مصنوعی را بصورت تخصصی آغاز کرده و پروژه‌های متعدد یادگیری ماشین و شبکه‌ی عمیق در زمینه‌های گوناگون را به انجام رسانیده است. وی همچنین به‌عنوان مشاور و متخصص تحلیل داده در شرکت‌های مطرح مشغول به فعالیت است.

درباره گواهینامه
مکتب‌خونه مکتب‌خونه
حد نصاب قبولی در دوره:
75.0 نمره
فارغ‌التحصیل شدن در این دوره نیاز به ارسال تمرین‌ها و پروژه‌های الزامی دارد.

پیش‌نیاز‌های دوره آموزش یادگیری تقویتی (Reinforcement Learning)

برای بهره‌بردن از مزایای آموزشی این دوره، باید ابتدا تسلط کافی به زبان برنامه‌نویسی پایتون و همچنین مفاهیم اساسی هوش مصنوعی و شبکه عصبی و مباحث آمار و احتمال داشته باشید. بدون برخورداری از این موارد، شرکت در این دوره کمک چندانی به شما نخواهد کرد. علاوه بر این تمام کدها روی colab.research.google.com اجرا می‌شوند تا تمام شرکت‌کنندگان به قدرت محاسباتی و سرعت یکسانی دسترسی داشته باشند و در نتیجه عدالت بین همه رعایت شود. 

آموزش پایتون مقدماتی
اطلاعات بیشتر
آموزش یادگیری ماشین
اطلاعات بیشتر

ویژگی‌های دوره آموزش یادگیری تقویتی (Reinforcement Learning)

Combined Shape1 Created with Sketch. گواهی‌نامه مکتب‌خونه

در صورت قبولی در دوره، گواهی نامه رسمی پایان دوره توسط مکتب‌خونه به اسم شما صادر شده و در اختیار شما قرار می گیرد.

 

مشاهده نمونه گواهینامه

خدمات منتورینگ

خدمات منتورینگ به معنای برخورداری دانشجو از راهنما یا پشتیبان علمی در طول گذراندن دوره می‌باشد. این خدمات شامل پاسخگویی به سوالات آموزشی(در قالب تیکتینگ)، تصحیح آزمون یا پروژه های دوره و ارائه باز خورد موثر به دانشجو می‌باشد.

پروژه محور

این دوره طوری طراحی شده است که محتوای آموزشی دوره حول چند پروژه واقعی و کاربردی هستند تا یادگیری دانشجو در طول دوره به کاربردهای عملی تبدیل شود و به این ترتیب بالاترین سطح یادگیری را فراهم نمایند.

تمرین و آزمون

با قرار گرفتن تمرین ها و آزمون های مختلف در طول دوره، محیطی تعاملی فراهم شده است تا بهره گیری از محتوا و یادگیری بهتر و عمیق تر شود.

تالار گفتگو

شما می توانید از طریق تالار گفتگو با دیگر دانشجویان دوره در ارتباط باشید، شبکه روابط حرفه ای خود را تقویت کنید یا سوالات مرتبط با دوره خود را از دیگر دانشجویان بپرسید.

تسهیل استخدام

در صورت قبولی در دوره، شما می‌توانید با وارد کردن اطلاعات آن در بخش دوره‌های آموزشی رزومه‌ساز «جاب ویژن»، تایید مهارت خود را در قالب اضافه شدن «مدال مهارت» به روزمه آنلاین خود دریافت نمایید. این مدال علاوه بر ایجاد تمایز در نمایش رزومه شما، باعث بالاتر قرار گرفتن آن در لیست انبوه رزومه‌های ارسالی به کارفرما شده و بدین ترتیب شانس شما را برای استخدام در سازمانهای موفق و پر متقاضی افزایش می‌دهد. 

 

مشاهده اطلاعات بیشتر

نظرات  (2 نظر)

یونس
12:10 - 1400/06/05
دانشجوی دوره
شاید یکی از بدترین دوره های خریداری شده من بود اونقدر بد توضیح دادن که آدم به زور می فهمه . سر اخر هم یک مثال میندازه جلوت میگه خودت بفهم . حیف پول من
پشتیبانی مکتب‌خونه
یونس عزیز؛ از اینکه نظر خود را با ما در میان گذاشتید صمیمانه سپاسگزاریم موارد مطرح شده جهت بررسی به بخش مربوطه ارسال شد.
محمد
15:28 - 1400/06/04
فارغ‌التحصیل دوره
خیلی ممنون از مهندس قندی عزیز و تیم مکتب خونه، بسیار دوره خوب و کاربردی بود. خسته نباشید

سوالات پرتکرار

آیا در صورت خرید دوره، گواهی نامه آن به من تعلق می گیرد؟
خیر؛ شما با خرید دوره می توانید در آن دوره شرکت کنید و به محتوای آن دسترسی خواهید داشت. در صورتی که در زمان تعیین شده دوره را با نمره قبولی بگذرانید، گواهی نامه دوره به نام شما صادر خواهد شد.
حداقل و حداکثر زمانی که می توانم یک دوره را بگذرانم چقدر است؟
برای گذراندن دوره حداقل زمانی وجود ندارد و شما می توانید در هر زمانی که مایل هستید فعالیت های مربوطه را انجام دهید. برای هر دوره یک حداکثر زمان تعیین شده است که در صفحه معرفی دوره می توانید مشاهده کنید که از زمان خرید دوره توسط شما تنها در آن مدت شما از ویژگی های تصحیح پروژه ها توسط پشتیبان و دریافت گواهی نامه بهره مند خواهید بود.
در صورت قبولی در دوره، آیا امکان دریافت نسخه فیزیکی گواهی نامه دوره را دارم؟
پس از صدور گواهی نامه، نسخه الکترونیکی گواهی نامه در اختیار شما قرار می گیرد. در صورت درخواست شما، نسخه فیزیکی گواهی نامه نیز می تواند برای شما ارسال شود. هزینه ارسال بر عهده کاربر خواهد بود.
پس از سپری شدن زمان دوره، به محتوای دوره دسترسی خواهم داشت؟
بله؛ پس از سپری شدن مدت زمان دوره شما به محتوای دوره دسترسی خواهید داشت و می توانید از ویدئوها، تمارین، پروژه و دیگر محتوای دوره در صورت وجود استفاده کنید ولی امکان تصحیح تمارین توسط پشتیبان و دریافت گواهی نامه برای شما وجود نخواهد داشت.

×

ثبت نظر

به این دوره از ۱ تا ۵ چه امتیازی می‌دهید؟

فصل اول: آشنایی با یادگیری تقویتی
00:24 ساعت
00:23
Combined Shape Created with Sketch. 3 جلسه
بارم:
0%
نمایش جلسات فصل  

یادگیری تقویتی یکی از روش‌های یادگیری ماشین Machine Learning به شمار می‌آید. در این نوع یادگیری، عامل خود باتوجه‌به معیارهای تنبیه و پاداش، عمل صحیح در هر وضعیت را درک می‌کند. اگر بخواهیم برای این نوع مکانیسم یادگیری مثالی ارائه دهیم، می‌توانیم به نوع شکل‌گیری الگو‌های رفتاری حیوانات و انسان‌ها اشاره کنیم. در واقع بسیاری از حیوانات، تنها با استفاده از مکانیسم یادگیری تقویتی، مسائل مختلف را یاد می‌گیرند. در حال حاضر یادگیری تقویتی کاربرد‌های گسترده‌ای در حل مسائل گوناگون یافته است.

فصل اول درباره آشنایی با کاربرد‌های یادگیری تقویتی و ارائه تعریفی کلی درباره یادگیری تقویتی است و شما به‌صورت کلی با مباحث و سرفصل‌های ارائه شده در بخش‌های دیگر این آموزش آشنا می‌شوید. در پایان فصل نیز اطلاعات شما درباره تعریف و کاربرد یادگیری تقویتی با یک کوییز سنجیده می‌شود.

معرفی سرفصل‌ها
"07:13
تعریف و کاربرد یادگیری تقویتی
"16:31
کوییز تعریف و کاربرد یادگیریتقویتی
100.0%
     
"01:00
فصل دوم: مسئله‌ی راهزن چنددست (Multi-Armed Bandit)
03:21 ساعت
00:50
Combined Shape Created with Sketch. 6 جلسه
بارم:
10%
نمایش جلسات فصل  

فصل دوم درباره مسئله راهزن چنددست (Multi-Armed Bandit) است که یک روش کلاسیک در یادگیری تقویتی محسوب می‌شود و به روش‌های مختلفی سعی در حل مسئله دارد. هدف اصلی در مسئله راهزن چنددست (Multi-Armed Bandit) ارائه یک روش غریزی برای حل مسئله است. اگر بخواهیم مثالی برای درک این موضوع عنوان کنیم، می‌توانیم از حل مسئله توسط انسان تنها با نگاه‌کردن به مسئله را عنوان کنیم؛ لذا می‌توانیم عنوان کنیم که هدف اصلی این بخش پیشنهاد روش‌های ساده برای حل مسئله توسط ماشین است. در مسئله فرض می‌شود که چندین دستگاه ماشین جایزه وجود دارد. در این مسئله سعی می‌شود تا دستگاهی که بیشترین جایزه را برای ما خواهد داشت را پیدا کنیم. برای این کار ما از مکانیسم‌هایی نظیر خطا و جایزه استفاده می‌کنیم. نکته مهم در این موضوع این است که بتوانیم به طور غریزی و با استفاده از راه‌حل‌های ساده بتوانیم این مسئله را حل کنیم.

این فصل در چهار بخش کلی آموزشی تدوین شده است. شما در بخش اول و دوم این فصل با مکانیسم راهزن چنددست (Multi-Armed Bandit) آشنا می‌شوید. بعد از تسلط و یادگیری تعاریف و نکات مهم مسئله‌ی راهزن چنددست، شما با پیاده‌سازی راهزن چنددست در دو بخش پایانی این فصل آشنا می‌شوید. در پایان برای سنجش میزان اطلاعات و یادگیری شما در این مسئله کوییز راهزن چنددست وجود دارد. همچنین شما ملزم هستید تا در پایان تمرین بخش مسئله راهزن چنددست را انجام دهید.

راهزن چنددست - بخش اول
"16:30
راهزن چنددست - بخش دوم
"14:06
پیاده‌سازی راهزن چنددست - بخش اول
"12:47
پیاده‌سازی راهزن چنددست - بخش دوم
"06:52
کوییز راهزن چنددست
7.0%
     
"01:00
تمرین بخش مسئله راهزن چنددست

 (الزامی)

93.0%
     
"150:00
فصل سوم: تعاریف یادگیری تقویتی
00:59 ساعت
00:57
Combined Shape Created with Sketch.