×
ribbon

یادگیری تقویتی هوش مصنوعی با پایتون

مدرس:Udemy

آکادمی گرولیThe Lazy Programmer

آیا تا به حال فکر کرده اید که فناوری های هوش مصنوعی مانند OpenAI ChatGPT و GPT-4 واقعاً... بیشتر
زیرنویس
4.6 (5)
3 دیدگاه
477دانشجو
15ساعت
سرفصل‌ها
مقدماتی سطح دوره
بروزرسانیمهر ۱۴۰۴

اشتراک مکتب‌پلاس

خرید اشتراک

با خرید اشتراک مکتب‌پلاس، علاوه بر این دوره، به بیش از ۴،۰۰۰ دوره دیگر دسترسی خواهید داشت.

دسترسی به تمام دوره‌هابیش از ۴،۰۰۰ دوره
محتوای دوره
سرفصل‌ها
توضیحات دوره
دیدگاه کاربران
درباره مدرس

آنچه در این دوره می‌آموزید

به‌کارگیری روش‌های یادگیری نظارت‌شده مبتنی بر گرادیان در یادگیری تقویت

درک یادگیری تقویتی از نظر فنی

فهم رابطه بین یادگیری تقویتی و روان‌شناسی

پیاده‌سازی 17 الگوریتم مختلف یادگیری تقویتی

این دوره شامل:

15 ساعت ویدئو

گواهینامه مکتب‌خونه

دسترسی مادام‌العمر به محتوای دوره

زیرنویس اختصاصی مکتب‌خونه

سرفصل‌های دوره

14 فصل111 جلسه15 ساعت ویدیو
خوش‌آمد گویی
  طرح و نمایه کلی دوره
07:55
  از کجا می توان کد را دریافت کرد؟
04:35
  چگونه در این دوره موفق شویم؟
03:03
  جمع بندی
15:36
بازگشت مسئله Multi-Armed Bandit (چندبازویی)
  معرفی بخش: معضل جستجو یا بهره‌برداری (Explore-Exploit Dilemma)
10:17
  کاربردهای معضل جستجو یا بهره‌برداری (Explore-Exploit Dilemma)
07:59
  نظریه اپسیلون-گریدی (Epsilon-Greedy)
07:04
  محاسبه میانگین نمونه (بخش1)
05:55
  تمرین مبتدی اپسیلون-گریدی (Epsilon-Greedy)
05:05
  طراحی برنامه چندبازویی (Bandit) شما
04:09
  پیاده‌سازی اپسیلون-گریدی (Epsilon-Greedy) در کد
07:12
  مقایسه اپسیلون‌های مختلف
06:02
  نظریه مقادیر اولیه خوش‌بینانه (Optimistic Initial Values)
05:40
  تمرین مبتدی نظریه مقادیر اولیه خوش‌بینانه (Optimistic Initial Values)
02:26
  کد مقادیر اولیه خوش‌بینانه (Optimistic Initial Values)
04:18
  نظریه UCB1 (Upper Confidence Bound 1)
14:32
  تمرین مبتدی نظریه UCB1 (Upper Confidence Bound 1)
02:14
  کد نظریه UCB1 (Upper Confidence Bound 1)
03:28
  نظریه چندبازویی بیزی: نمونه‌برداری تامپسون (بخش 1)
09:49
  نظریه چندبازویی بیزی: نمونه‌برداری تامپسون (بخش 2)
12:01
  تمرین مبتدی نمونه‌برداری تامپسون (Thompson Sampling)
02:50
  کد نمونه‌برداری تامپسون (Thompson Sampling)
05:03
  نمونه‌گیری تامپسون با نظریه پاداش گاوسی
11:24
  کد نمونه‌گیری تامپسون با نظریه پاداش گاوسی
06:18
  تمرین درباره پاداش‌های گاوسی
01:20
  چرا فقط از یک کتابخانه استفاده نکنیم؟
05:40
  باندیت‌های تغییر پذیر
07:11
  خلاصه باندیت، داده‌های واقعی، و یادگیری آنلاین
06:29
  طراحی‌های جایگزین باندیت(اختیاری)
10:05
  صندوق پیشنهادات
03:10
مرور کلی سطح بالا بر یادگیری تقویتی
  یادگیری تقویتی چیست؟
08:08
  از باندیت‌ها تا یادگیری تقویتی کامل
08:42
فرایندهای تصمیم‌گیری مارکوف
  مقدمه بخش فرایندهای تصمیم‌گیری مارکوف (MDP)
06:19
  دنیای شبکه‌ای
12:35
  انتخاب پاداش‌ها
03:58
  خاصیت مارکوف
06:12
  فرایندهای تصمیم‌گیری مارکوف (MDPها)
14:42
  پاداش‌های آینده
09:34
  تابع ارزش
05:07
  معادله بلمان (قسمت 1)
08:46
  معادله بلمان (قسمت 2)
06:42
  معادله بلمان (قسمت 3)
06:09
  مثال‌هایی از معادله بلمان
22:24
  سیاست و تابع ارزش بهینه (قسمت 1)
09:17
  سیاست و تابع ارزش بهینه (قسمت 2)
04:36
  خلاصه فرایندهای تصمیم‌گیری مارکوف (MDP)
02:58
برنامه‌نویسی پویا
  مقدمه‌ای بر بخش برنامه‌نویسی پویا
08:58
  ارزیابی تکراری سیاست
15:36
  طراحی برنامه یادگیری تقویتی خودت
05:00
  پیاده‌سازی دنیای شبکه‌ای در کد
11:37
  پیاده‌سازی ارزیابی تکراری سیاست در کد
12:17
  پیاده‌سازی Windy Gridworld در کد
07:47
  پیاده‌سازی ارزیابی تکراری سیاست برایWindy Gridworld در کد
07:14
  بهبود سیاست
11:23
  تکرار سیاست
07:57
  پیاده‌سازی تکرار سیاست در کد
08:27
  تکرار سیاست در Windy Gridworld
08:50
  تکرار مقدار
07:39
  پیاده‌سازی تکرار مقدار در کد
06:36
  خلاصه‌ای از برنامه‌نویسی پویا
04:57
مونت کارلو
  معرفی مونته کارلو
09:21
  ارزیابی سیاست با روش مونت کارلو
10:52
  پیاده‌سازی ارزیابی سیاست با روش مونت کارلو در کد
07:52
  کنترل به روش مونت‌کارلو
09:00
  پیاده‌سازی کنترل مونت‌کارلو در کد
08:51
  روش کنترل مونت‌کارلو بدون نیاز به نقاط شروع اکتشافی
04:41
  کدنویسی الگوریتم کنترل مونت‌کارلو بدون نیاز به شروع‌های اکتشافی
05:40
  خلاصه روش مونت‌کارلو
01:53
یادگیری تفاوت زمانی
  مقدمه‌ای بر یادگیری تفاوت زمانی
03:55
  پیش‌بینی در یادگیری تفاوت زمانی با TD(0)
05:24
  پیاده‌سازی پیش‌بینی TD(0) در کد
04:54
  سارسا (SARSA)
04:36
  پیاده‌سازی الگوریتم سارسا در کد
06:20
  یادگیری کیو (Q Learning)
04:54
  پیاده‌سازی یادگیری کیو در کد
05:02
  خلاصه بخش یادگیری تفاوت زمانی
02:27
روش‌های تخمین‌زنی
  معرفی بخش روش‌های برآورد تقریبی
04:19
  مدل‌های خطی برای یادگیری تقویتی
08:32
  مهندسی ویژگی‌ها
10:16
  روش‌های تقریب برای پیش‌بینی
09:55
  کدنویسی روش‌های تقریب برای پیش‌بینی
08:26
  روش‌های تقریب برای کنترل
04:41
  کدنویسی روش‌های تقریب برای کنترل
08:54
  مسئله CartPole
05:34
  کد حل مسئله CartPole
05:59
  تمرین روش‌های تقریب
04:07
  خلاصه بخش روش‌های تقریب
03:05
میان‌فصل: پرسش‌های متداول مبتدیان
  تفاوت این دوره با کتاب یادگیری تقویتی چیست؟
07:10
پروژه معاملات سهام با الگوریتم‌های یادگیری تقویتی
  تازه‌کارها، صبر کنید! اگر تا اینجا را سریع رد کرده‌اید، بهتر است برگردید.
14:09
  مقدمه بخش پروژه معامله‌گری در بازار سهام
05:13
  داده‌ها و محیط
12:22
  روش مدل‌سازی تابع Q در الگوریتم Q-Learning
09:37
  طراحی برنامه
06:45
  کد بخش اول
07:59
  کد بخش دوم
09:40
  کد بخش سوم
04:28
  کد بخش چهارم
07:17
  گفت‌وگو درباره پروژه معامله‌گری در بورس
03:37

توضیحات دوره

آیا تا به حال فکر کرده‌اید که فناوری‌های هوش مصنوعی مانند OpenAI ChatGPT و GPT-4 واقعاً چگونه کار می‌کنند؟ در این دوره، شما پایه‌های این برنامه‌های تحول‌آفرین را خواهید آموخت.

وقتی مردم درباره هوش مصنوعی صحبت می‌کنند، معمولاً منظورشان یادگیری نظارت‌شده و بدون نظارت نیست.

این وظایف در مقایسه با کاری که ما معمولاً از هوش مصنوعی انتظار داریم — مثل بازی شطرنج و گو، رانندگی خودروها و شکست دادن بازی‌های ویدیویی در سطحی فراتر از انسان — نسبتاً ساده هستند.

یادگیری تقویتی اخیراً برای انجام تمام این کارها و بیشتر از آن محبوب شده است.

دقیقا مانند یادگیری عمیق، بخش زیادی از نظریه آن در دهه‌های ۷۰ و ۸۰ کشف شده بود، اما تا همین اواخر امکان مشاهده نتایج شگفت‌انگیز آن وجود نداشت.

در سال ۲۰۱۶ شاهد بودیم که AlphaGo شرکت گوگل قهرمان جهان در بازی Go را شکست داد.

هوش‌های مصنوعی بازی‌هایی مثل Doom و Super Mario را انجام دادند.

خودروهای خودران شروع به رانندگی در جاده‌های واقعی با سایر رانندگان و حتی جابه‌جایی مسافران (مثل Uber) بدون کمک انسان کردند.

اگر این موارد برای شما شگفت‌انگیز است، برای آینده آماده باشید چون قانون بازگشت شتاب‌گیرنده می‌گوید این پیشرفت‌ها به صورت تصاعدی ادامه خواهد یافت.

یادگیری درباره یادگیری نظارت‌شده و بدون نظارت کار کوچکی نیست. تا به امروز من بیش از ۲۵ دوره فقط درباره این موضوعات داشته‌ام.

اما یادگیری تقویتی دنیای جدیدی را باز می‌کند. همان‌طور که در این دوره خواهید آموخت، یادگیری تقویتی بسیار متفاوت از یادگیری نظارت‌شده و بدون نظارت است.

این حوزه منجر به بینش‌های جدیدی در روان‌شناسی رفتاری و علوم اعصاب شده است. همان‌طور که خواهید دید، فرآیند آموزش یک عامل بسیار شبیه آموزش یک حیوان یا حتی انسان است. این نزدیک‌ترین چیزی است که تاکنون به هوش عمومی مصنوعی واقعی رسیده‌ایم.

 
آنچه در این دوره پوشش داده می‌شود:

مسئله Multi-Armed Bandit و معضل جستجو و بهره‌برداری
روش‌های محاسبه میانگین و میانگین متحرک و ارتباط آن‌ها با گرادیان کاهشی تصادفی
فرایندهای تصمیم‌گیری مارکوف (MDPs)
برنامه‌نویسی پویا
روش مونت کارلو
یادگیری تفاوت زمانی (Q-Learning و SARSA)
روش‌های تقریب (چگونه یک شبکه عصبی عمیق یا مدل قابل مشتق دیگر را در الگوریتم یادگیری تقویتی وارد کنیم)
نحوه استفاده از OpenAI Gym بدون تغییر کد
پروژه: ساخت یک ربات معامله‌گر بورس با استفاده از Q-Learning
اگر آماده یک چالش جدید و یادگیری تکنیک‌های هوش مصنوعی هستید که در یادگیری نظارت‌شده، بدون نظارت یا یادگیری عمیق ندیده‌اید، این دوره برای شماست.

 
منتظرتان در کلاس هستم!

"اگر نتوانی آن را پیاده‌سازی کنی، یعنی آن را نفهمیده‌ای."

همان‌طور که فیزیک‌دان بزرگ ریچارد فاینمن گفت:
"چیزی را که نتوانم بسازم، نمی‌توانم بفهمم."

دوره‌های من تنها دوره‌هایی هستند که در آن‌ها یاد می‌گیرید الگوریتم‌های یادگیری ماشین را از صفر پیاده‌سازی کنید.

دوره‌های دیگر فقط به شما یاد می‌دهند چطور داده‌ها را در کتابخانه‌ها وارد کنید، اما آیا واقعاً برای نوشتن ۳ خط کد به کمک نیاز دارید؟

بعد از انجام همین کار برای ۱۰ دیتاست، متوجه می‌شوید ۱۰ چیز یاد نگرفته‌اید؛ فقط یک چیز یاد گرفته‌اید و ۱۰ بار آن را تکرار کرده‌اید...

دیدگاه کاربران

4.6

بر اساس امتیاز 5 دانشجو

1
2
3
4
5

دانشجوی دوره

4 ماه پیش

5

اگر مکتبخونه برای چنین مباحثی امکانی مانند https://www.deeplearning.ai برای مشاهده پیاده‌سازی‌ها میداشت احتمالا مفیدتر می‌بود

حدیث بیرالوند

22 روز پیش

4

تو بخش اول، فیلم های نظریه بیزی پارت 1 و پارت 2 اشتباه هستش لطفا اصلاح بشه

ثمین سلوکی

1 ماه پیش

4

کاش فایل کد ها رو هم قرار بدید. خود آموزش دوره خوبه ولی اینکه کد ها نیست اصلا جالب نیست

گواهینامه اختصاصی دو زبانه

پس از گذراندن دوره به صورت آنلاین در سایت مکتب‌خونه، گواهی‌نامه رسمی پایان دوره به زبان فارسی و انگلیسی، توسط مکتب‌خونه به اسم شما صادر شده و در اختیار شما قرار می‌گیرد.

امکان اشتراک گذاری در لینکدین
دو زبانه
آکادمی گرولیآموزش مهارت‌های شغلی
100دوره
50,691دانشجو
1,503نظر و امتیاز

• آکادمی گرولی با هدف توانمندسازی و توسعه‌ی حرفه‌ای افراد فعالیت می‌کند.

دوره‌های این آکادمی در حوزه‌های شغلی متنوعی مانند هوش مصنوعی، برنامه‌نویسی، نرم‌افزارهای کاربردی، مدیریت محصول، بازاریابی دیجیتال، مهارت‌های نرم و توسعه کسب‌وکار دسته‌بندی می‌شوند.

این دوره‌ها اکثرا از پرفروش‌ترین آموزش‌های برترین پلتفرم‌های یادگیری دنیا مانند یودمی، لینکدین‌لرنینگ، کورسرا و ریفورج هستند که همگی با زیرنویس فارسی منتشر شده‌اند. همچنین چندی از دوره‌های این آکادمی نیز، به صورت اختصاصی توسط مدرسان معتبر ایرانی تهیه گردیده‌اند.

1دوره
477دانشجو
5نظر و امتیاز

لیزی مدرس با بیش از ۱۰ سال تجربه در حوزه داده‌کاوی و یادگیری ماشین، با تدریس دوره‌های جامع و کاربردی، به یکی از پیشگامان آموزش آنلاین تبدیل شده است. او دارای دو مدرک کارشناسی ارشد در مهندسی کامپیوتر و آمار است و از اولین مدرسانی بود که دوره‌های یادگیری عمیق را به‌صورت آنلاین ارائه کرد. علاوه بر آموزش، تجربه عملی گسترده‌ای در مهندسی نرم‌افزار و تبلیغات دیجیتال دارد و با فناوری‌های متنوعی آشناست. علاقه‌مندی او به حوزه‌های مختلف علمی و تعهدش به ساده‌سازی مفاهیم پیچیده، باعث شده تا هزاران دانشجو و متخصص را در مسیر یادگیری هوش مصنوعی و داده‌کاوی همراهی و الهام‌بخش باشد.

دیگر دوره‌های آکادمی گرولی