×
ribbon

تا پایان تخفیف

آموزش مدل‌های زبانی-تصویری (VLM): از درک تصویر و ویدیو تا فاین‌تیون پیشرفته

مدرس:

علیرضا اخوان‌پورکلاس ویژن

در دنیای امروز، هوش مصنوعی دیگر تنها به پردازش متن محدود نمی شود. تصور کنید سیستمی که بتواند... بیشتر
محبوب کاربران
گواهی‌نامه
دسترسی: کامل
اطلاعات بیشتر
4.7 (31)
12 دیدگاه
2,912دانشجو
48ساعت
سرفصل‌ها
متوسط سطح دوره
بروزرسانیشهریور ۱۴۰۴

اشتراک مکتب‌پلاس

خرید اشتراک

با خرید اشتراک مکتب‌پلاس، علاوه بر این دوره، به بیش از ۴،۰۰۰ دوره دیگر دسترسی خواهید داشت.

دسترسی به تمام دوره‌هابیش از ۴،۰۰۰ دوره
محتوای دوره
سرفصل‌ها
پیش‌نیاز‌ها
توضیحات دوره
دیدگاه کاربران
درباره مدرس

آنچه در این دوره می‌آموزید

درک و پیاده‌سازی مدل‌های اتصال متن-تصویر

تحلیل پیشرفته تصاویر و ویدیوها با مدل‌های زبانی-بصری (VLM)

فاین‌تیونینگ و بهینه‌سازی مدل‌ها برای وظایف خاص

یادگیری سریع و کارآمد با ابزارهای مدرن و به‌روز

این دوره شامل:

6 ساعت ویدئو

7 تمرین و پروژه

34 سؤال سنجش و یادگیری

دسترسی به تالار گفتگو

گواهینامه مکتب‌خونه

دسترسی مادام‌العمر به محتوای دوره

7 هفته مهلت ارسال تمرین و پروژه

سرفصل‌های دوره

5 فصل22 جلسه6 ساعت ویدیو
آشنایی با مدل‌های مولتی‌مدال تصویر-متن از CLIP تا SigLIP
  معرفی دوره
02:40
  پیش‌نیازها
02:07
  LLM vs VLM
10:07
  معماری CLIP (پیش‌آموزش زبان-تصویر)
15:46
  تابع ضرر (Loss Function) در CLIP
12:07
  آشنایی با امبدینگ‌های مولتی‌مدال CLIP
15:19
  یادگیری بدون نمونه (Zero Shot) با CLIP
19:54
  SigLIP، مدلی بهتر از CLIP
13:12
  کوئیز آشنایی با مدل‌های مولتی‌مدال تصویر-متن
15:00
  تمرین عملی: سیستم بازیابی تصاویر مشابه با CLIP/SigLIP (الزامی)
300:00
مدل‌های VLM برای درک تصویر و ویدئو
  مقدمه‌ای بر Qwen2.5-VL و توصیف تصویر با آن
15:59
  Image Captioning فارسی: خلق توضیحات خودکار برای تصاویر با مدل از پیش آموزش‌دیده
13:53
  تشخیص اشیاء بدون آموزش با Qwen2.5-VL
16:42
  Gemma 3: مدل VLM معرفی‌شده توسط گوگل
14:55
  Fast VLM: مدل VLM سبک و سریع معرفی‌شده توسط اپل
15:28
  درک ویدئو با Qwen 2.5
23:48
  کوئیز مدل‌های VLM برای درک تصویر و ویدئو
08:00
  تمرین عملی: تشخیص چهره و ارزیابی پرامپت‌ها با یک VLM (الزامی)
300:00
  تمرین عملی: تولید کپشن‌های فارسی و انگلیسی (الزامی)
300:00
  مینی پروژه: ساخت سیستم بازیابی تصویر-متن با CLIP (الزامی)
360:00
فاین‌تیون کردن (Fine-tuning) و کاربردهای تخصصی مدل‌های مولتی‌مدال
  Fine-tuning با granite vision
21:11
  OCR فرمول‌های ریاضی: آموزش و فاین‌تیون با Unsloth
33:29
  آموزش Llama 3.2 روی تصاویر رادیولوژی
16:01
  Fine-tune کردن یک VLM برای تشخیص اشیاء
33:34
  کوئیز فاین‌تیون کردن (Fine-tuning) و کاربردهای تخصصی مدل‌های مولتی‌مدال
05:00
  تمرین عملی: آموزش مدل روی دیتاست LaTeX و بارگذاری روی Hugging Face (الزامی)
300:00
روش‌های پیشرفته آموزش با ترجیحات: DPO، GRPO و MPO
  بهینه‌سازی ترجیحات با DPO در چارچوب TRL
09:03
  Fine-tune کردن VLM با GRPO
17:56
  از ترجیحات تا استدلال چندوجهی: درک مقاله MPO
12:34
  پیاده‌سازی MPO
07:57
  کوئیز روش‌های پیشرفته آموزش با ترجیحات: DPO، GRPO و MPO
06:00
  مینی پروژه: آموزش Object Detection با GRPO روی زیر مجموعه دیتاست علائم دست‌ (الزامی)
360:00
پروژه نهایی VLM
  پروژه نهایی: سیستم Simple Multimodal RAG (الزامی)
600:00

پیش‌نیاز‌ها

دوره برای سطوح متوسط طراحی شده، اما تازه‌کارها هم می‌توانند دو فصل اول را بدون آشنایی قبلی با LLMها یا ترنسفورمرها استفاده کنند.

اگر دوره LLM قبلی مدرس این دوره، علیرضا اخوان‌پور، را گذرانده باشید، بهره بیشتری خواهید برد، خصوصاً فصل‌های ۳ و ۴ که مبحث فاین تیون کردن این مدل‌ها است.

توضیحات دوره

در دنیای امروز، هوش مصنوعی دیگر تنها به پردازش متن محدود نمی‌شود. تصور کنید سیستمی که بتواند همزمان یک تصویر را تحلیل کند، محتوای آن را توضیح دهد، ویدیوها را درک کند و حتی بر اساس ترجیحات انسانی پاسخ‌های هوشمند ارائه دهد – این دقیقاً قدرت مدل‌های زبانی-تصویری (Vision-Language Models یا VLM) است!

اگر شما یک توسعه‌دهنده، پژوهشگر یا علاقه‌مند به هوش مصنوعی هستید و می‌خواهید در حوزه چندوجهی (multimodal AI) بدرخشید، این دوره دقیقاً برای شما طراحی شده است.

این دوره مبتنی بر آخرین پیشرفت‌های سال ۲۰۲۵، شامل تکنیک‌هایی مانند SigLIP و روش‌های بهینه‌سازی پیشرفته است. هدف دوره این است که شما نه تنها مفاهیم را یاد بگیرید، بلکه بتوانید بلافاصله آن‌ها را در پروژه‌های واقعی پیاده‌سازی کنید. دوره شامل ۱۵ نوت‌بوک عملی (Jupyter Notebook) آماده اجراست – بدون نیاز به نصب پیچیده است.

چرا VLM مهم است؟

مدل‌های زبانی-تصویری پلی بین جهان دیجیتال و واقعی می‌زنند. برخلاف مدل‌های سنتی متن‌محور مانند GPT، VLMها تصاویر و ویدیوها را با زبان طبیعی ترکیب می‌کنند. این یعنی آینده AI: از چت‌بات‌هایی که عکس‌ها را تحلیل می‌کنند تا سیستم‌های خودران که محیط را می‌فهمند.

 کاربردهای عملی VLM

  • جستجو و توصیه‌گرها: مثل Google Lens یا Pinterest، که تصاویر را تحلیل کرده و محتوای مرتبط پیشنهاد می‌دهند. تصور کنید اپلیکیشنی که بر اساس عکس لباس، استایل‌های مشابه را پیدا کند!
  • پردازش پزشکی: تحلیل تصاویر MRI یا X-ray با تشخیص دقیق علائم، مثل شناسایی تومورها و تولید گزارش اتوماتیک.
  • تولید محتوا: ایجاد کپشن‌های هوشمند برای شبکه‌های اجتماعی یا ویرایش ویدیوها با دستورات متنی.
  • رباتیک و واقعیت افزوده: ربات‌هایی که اشیاء را شناسایی و دستورات صوتی را اجرا می‌کنند، مانند دستیارهای خانگی هوشمند.
  • آموزش و پژوهش: تحلیل داده‌های بصری برای تحقیقات علمی، مانند طبقه‌بندی تصاویر ماهواره‌ای برای تغییرات اقلیمی.

دیدگاه کاربران

4.7

بر اساس امتیاز 31 دانشجو

1
2
3
4
5

محمدصدرا ظهوری

3 روز پیش

5

دوره عالی و بسیار کاربردی

دانشجوی دوره

5 روز پیش

5

دوره خوب ست توضیحات مدرس عالی ست فقط کد ها کمی پیچیده ست

دانشجوی دوره

6 روز پیش

5

عالی عالی عالی

محمد صابری اسفرجانی

25 روز پیش

5

بسیار آموزش مفیدی بود.

طاها مختاری

1 ماه پیش

5

دوره رو ببینید و خیالتون راحت که بهترین آموزش به زبان فارسی رو می‌بینید نحوه بیان و شیوه تدریس استاد بسیار خوبه و در عین یادگیری راحت تر، خسته هم نمیشید.

کاربر بیست و هشت

1 ماه پیش

5

good

گواهینامه اختصاصی دو زبانه

پس از گذراندن دوره به صورت آنلاین در سایت مکتب‌خونه، گواهی‌نامه رسمی پایان دوره به زبان فارسی و انگلیسی، توسط مکتب‌خونه به اسم شما صادر شده و در اختیار شما قرار می‌گیرد.

امکان اشتراک گذاری در لینکدین
دو زبانه
علیرضا اخوان‌پورمدرس و متخصص هوش مصنوعی
12دوره
57,227دانشجو
1,283نظر و امتیاز

علیرضا اخوان‌پور، متخصص برجسته در حوزه هوش مصنوعی و یادگیری عمیق، با بیش از ۱۰ سال سابقه تدریس و فعالیت حرفه‌ای، یکی از چهره‌های شناخته‌شده در این حوزه است. او علاوه بر سابقه ۷ سال مدیریت فنی در مجموعه دانش‌بنیان شناسا، در طراحی و پیاده‌سازی چندین پروژه عملی در زمینه پردازش تصویر، بینایی کامپیوتر و مدل‌های یادگیری عمیق نقش کلیدی داشته است.

از سال ۱۳۹۴ به عنوان مدرس در دانشگاه شهید رجایی فعالیت خود را آغاز کرد و از سال ۱۳۹۵ به طور تخصصی در حوزه هوش مصنوعی و یادگیری عمیق به تدریس مشغول است. در کنار تدریس، او چاپ مقالات بین‌المللی و داوری بیش از ۱۰ مقاله علمی را نیز در کارنامه دارد و تجربه عملی خود را با پیاده‌سازی پروژه‌های صنعتی و پژوهشی موفق ترکیب کرده است.

حضور او در محیط‌های آکادمیک با ارائه ورکشاپ در دانشگاه‌های امیرکبیر، شریف و تهران همراه بوده و دوره‌های تخصصی خود را در جهاد دانشگاهی شریف، دانشگاه تهران و سازمان‌های بزرگی مانند معاونت علمی و فناوری ریاست جمهوری، صندوق نوآوری و شکوفایی، همراه اول و دیجی‌کالا برگزار کرده است. همچنین در حوزه بانکی و تلکام، دوره‌های تخصصی برای کارکنان بانک‌های قوامین، سپه و صادرات و همراه اول و ایبیکام ارائه کرده و مدرس رویداد علم داده ایرانسل بوده است.

او در سایت مکتب‌خونه نیز دوره‌های پرمخاطبی در زمینه LLM، یادگیری عمیق، پردازش تصویر و OpenCV ضبط کرده که تجربه عملی گسترده او در پروژه‌های واقعی را نیز پوشش می‌دهند.

علیرضا اخوان‌پور به عنوان منتور و مشاور هوش مصنوعی با شتاب‌دهنده همتک و شرکت‌های معتبر مانند همراه اول و ایبیکام همکاری داشته و مدیریت سایت تخصصی Class.Vision را بر عهده دارد، که در زمینه هوش مصنوعی، یادگیری عمیق، بینایی کامپیوتر و یادگیری ماشین فعالیت می‌کند.

حضور موثر او در رویدادهای مهم مانند کنفرانس MVIP، فیس کاپ، داده ایرانسل و من برنامه‌نویسم و تولید محتوا در آکادمی همراه اول، مکتب‌خونه، کلاس ویژن و نماتک، به همراه تجربه عملی در چندین پروژه صنعتی و پژوهشی موفق، نقش برجسته او در گسترش دانش و کاربرد هوش مصنوعی در کشور را نشان می‌دهد.

کلاس ویژنسایت تخصصی برای دوره‌های هوش مصنوعی، دیپ لرنینگ، بینایی کامپیوتر و یادگیری ماشین
8دوره
53,996دانشجو
1,248نظر و امتیاز

کلاس‌ویژن، یک سایت تخصصی برای دوره‌های هوش مصنوعی، دیپ لرنینگ، بینایی کامپیوتر و یادگیری ماشین است.

مهارت‌هایی که می‌آموزید

دوره‌های مشابه

دیگر دوره‌های علیرضا اخوان‌پور

دیگر دوره‌های کلاس ویژن

سوالات پرتکرار

حداقل و حداکثر زمانی که می‌توانم یک دوره را بگذرانم چقدر است؟

برای گذراندن دوره، حداقل زمان مشخصی وجود ندارد و شما می‌توانید در هر زمان که مایل هستید، ویدیوهای آموزشی دوره را ببینید و تمارین را انجام دهید؛ اما برای هر دوره یک حداکثر زمان تعیین شده که در صفحه معرفی دوره قابل مشاهده است که تنها در این بازه زمانی امکان تصحیح پروژه‌ها توسط پشتیبان و دریافت گواهی‌نامه را خواهید داشت.

آیا پس از به اتمام رساندن و قبولی در دوره، می‌توانم نسخه فیزیکی گواهی‌نامه را دریافت کنم؟

خیر. به‌دلیل ملاحظات محیط‌زیستی و کاهش مصرف کاغذ، گواهی‌نامه فقط به‌صورت الکترونیکی ارائه می‌شود.

آیا بعد از پایان مدت دوره همچنان به محتوای آن دسترسی دارم؟

بله. پس از پایان مدت دوره نیز به ویدئوها، تمرین‌ها، پروژه‌ها و سایر محتوای آموزشی دوره دسترسی خواهید داشت؛ اما امکان تصحیح تمرین‌ها توسط پشتیبان دوره و دریافت گواهی‌نامه برای شما وجود نخواهد داشت.

آیا در صورت خرید دوره، گواهی‌نامه آن به من تعلق می‌گیرد؟

خیر. با خرید دوره، امکان شرکت در دوره و دسترسی به محتوای آن را خواهید داشت؛ اما تنها در صورتی که در بازه زمانی تعیین‌شده دوره را با موفقیت و نمره قبولی به اتمام برسانید، گواهی‌نامه به نام شما صادر می‌شود.