آموزش داده کاوی به صورت عملی با پایتون

این دوره آموزشی به‌صورت عملی به دانشجویان کمک می‌کند تا با استفاده از پایتون و کتابخانه‌های مختلف، مهارت‌های لازم برای داده‌کاوی و تحلیل داده‌ها را به دست آورند. در این دوره از کتابخانه‌هایی مانند numpy، ... ادامه

برگزارکننده:  مکتب‌خونه  مکتب‌خونه
مدرس دوره:
3.5 (2 رای)
سطح: مقدماتی
 پلاس
  
زمان مورد نیاز برای گذارندن دوره:  5 ساعت
مجموع محتوای آموزشی:  5 ساعت ویدئو
 (قابل دانلود می‌باشد)

آنچه در این دوره می‌آموزیم:

 یادگیری فرآیند داده‌کاوی به صورت عملی

 آشنایی با معروف‌ترین ابزارهای داده‌کاوی

 آموزش تحلیل انواع مختلف داده

 آموزش ساخت مدل‌های مختلف هوش مصنوعی

پیش‌نیاز‌ها

آشنایی حداقلی با زبان برنامه‌نویسی پایتون و مفاهیم الگوریتم‌های یادگیری ماشین پیش نیاز این دوره است.

 

سرفصل‌های دوره آموزش داده کاوی به صورت عملی با پایتون

مقدمه

در این فصل ابتدا مقدمه‌ای داریم بر این دوره و فرایند داده‌کاوی در صنعت و پیش‌نیازهایش:

* معرفی پیش‌نیازها

* مواردی که در این دوره می‌آموزید

* فرایند داده‌کاوی در صنعت (CRISP-DM)

* هرم دانش

* معرفی زبان برنامه‌نویسی (Python) و محیط‌های مناسب برای داده‌کاوی (Colab/Jupyter)

  مقدمه‌ای بر دوره و فرایند داده‌کاوی در صنعت
"14:20  
  معرفی زبان‌برنامه نویسی و محیط‌های مناسب برای داده‌کاوی
"13:13  
کتابخانه‌ی NumPy

Numpy یکی از پرکاربردترین کتابخانه‌های پایتون برای عملیات عددی و علمی است. این کتابخانه ابزارهایی را برای انجام عملیات ماتریسی، محاسبات عددی، تبدیل داده‌ها و سایر عملیات مربوط به علوم داده‌ای و ریاضیات ارایه می‌دهد. با استفاده از Numpy، می‌توانید با داده‌های چند بعدی (مانند آرایه‌های چند بعدی) کار کنید و عملیات‌های پیچیده‌ای را انجام دهید.

عملیات‌هایی که با استفاده از Numpy می‌توان انجام داد، شامل ترکیب داده‌های چند بعدی، محاسبات آماری، تبدیل داده‌ها، تولید داده‌های تصادفی، مقایسه داده‌ها و سایر عملیات پردازش داده‌های علمی می‌شود. Numpy از آرایه‌های چند بعدی استفاده می‌کند که امکان تغییر اندازه، برش و کپی داده‌ها را فراهم می‌کند. همچنین Numpy به دلیل عملکرد بهینه و قابلیت پردازش موازی، برای کار با داده‌های بزرگ و پراستفاده در علوم داده‌ای و محاسبات علمی مناسب است.

در فصل Numpy این دوره، شما ساخت ماتریس‌های چند بعدی به وسیله‌ی Numpy و انجام محاسبات بر روی آن‌ها را یادخواهید گرفت. سپس با توابع تصادفی این کتابخانه آشنا خواهید.

  تعریف ماتریس و عملیات‌های پایه‌ای
"15:00  
  توابع تصادفی (Random Generator)
"14:28  
کتابخانه‌ی Pandas

Pandas یکی از محبوب‌ترین کتابخانه‌های پایتون برای پردازش داده‌ها و تحلیل آن‌ها است. این کتابخانه ابزارهایی را برای خواندن، نوشتن، تبدیل، تحلیل و مدیریت داده‌های جدولی (مانند داده‌های اکسل یا دیتابیس‌های رابطه‌ای) ارایه می‌دهد. با استفاده از Pandas، می‌توانید با داده‌های جدولی کار کنید و عملیات‌های پیچیده‌ای را انجام دهید.

با استفاده از Pandas، می‌توانید داده‌های خود را به صورت سری و دیتافریم (DataFrame) درآورده و با استفاده از توابع مختلف، با آن‌ها کار کنید. این کتابخانه ابزارهایی را برای انجام عملیات مرتبط با داده‌های جدولی ارایه می‌دهد، از جمله انتخاب و فیلتر کردن داده‌ها، مرتب‌سازی، ترکیب و تبدیل داده‌ها، حذف داده‌های تکراری، ایجاد و حذف ستون‌ها و سطرها، و غیره.

همچنین Pandas ابزارهایی را برای تحلیل و استخراج اطلاعات از داده‌ها ارایه می‌دهد، از جمله محاسبه میانگین، واریانس و انحراف معیار، ایجاد نمودارهای مختلف، تحلیل داده‌های زمانی، تحلیل داده‌های دسته‌ای و بسیاری از توابع دیگر. به دلیل عملکرد بهینه و قابلیت پردازش موازی، Pandas برای کار با داده‌های بزرگ و پراستفاده در علوم داده‌ای، تحلیل مالی، آمار و سایر حوزه‌های مربوط به داده‌ها مناسب است.

ابتدا با داده‌های جدولی (DataFrame) در Pandas کار می‌کنیم و نحوه‌ی خواندن، نوشتن، ترکیب، تبدیل و مدیریت داده‌های جدولی را با Pandas بررسی می‌کنیم. در ادامه، با توابع مرتب‌سازی و فیلتر کردن داده‌ها در Pandas آشنا می‌شوید و می‌توانید داده‌های خود را براساس معیارهای مختلف، مانند مقدار یک ستون، مرتب کنید و فیلتر کنید. همچنین با توابع تبدیل داده‌ها، مانند تغییر نوع داده‌ها، ایجاد ستون‌های جدید و تغییر نام ستون‌ها، آشنا می‌شوید. در نهایت، با توابع تحلیل داده‌ها و استخراج اطلاعات در Pandas آشنا می‌شوید و می‌توانید مقادیر میانگین، واریانس و انحراف معیار را برای داده‌های خود محاسبه کنید.

  تعریف و ساخت DataFrame
"12:46  
  آشنایی با توابع DataFrame
"14:52  
کتابخانه‌ی PySpark

Pyspark یکی از پرکاربردترین کتابخانه‌های پایتون برای پردازش داده‌های بزرگ و توزیع‌شده است. این کتابخانه برای پردازش داده‌ها با استفاده از فریمورک توزیع‌شده Apache Spark طراحی شده است.

با استفاده از Pyspark، می‌توانید برنامه‌های پایتون خود را برای پردازش داده‌های بزرگ، توزیع‌شده کنید. این کتابخانه ابزارهایی را برای کار با داده‌های بزرگ ارایه می‌دهد، از جمله ابزارهایی برای خواندن و نوشتن داده‌های بزرگ، تبدیل داده‌ها، ایجاد دیتافریم‌ها، انجام عملیات‌های مرتب‌سازی و فیلتر کردن داده‌ها، ایجاد و حذف ستون‌ها و سطرها، و غیره.

با استفاده از Pyspark، می‌توانید برای پردازش داده‌ها از پتانسیل پردازش موازی و توزیع‌شده Apache Spark بهره بگیرید. این کتابخانه برای پردازش داده‌های بزرگ و پراستفاده در حوزه‌هایی مانند علوم داده‌ای، تحلیل مالی، بانکداری، تحلیل رفتار مشتریان و بسیاری حوزه‌های دیگر، مناسب است.

در این فصل، ابتدا با معماری و قابلیت‌های Apache Spark و روش کار با آن در Pyspark آشنا می‌شوید. سپس ساخت RDD را یاد خواهید گرفت و در نهایت، با توابع تحلیل داده‌ها و استخراج اطلاعات در Pyspark آشنا می‌شوید و می‌توانید مقادیر میانگین، واریانس و انحراف معیار را برای داده‌های خود محاسبه کنید.

  Spark چیست و چگونه کار می‌کند
"13:38  
  تعریف و ساخت RDD
"14:45  
  آشنایی با توابع مهم RDD
"11:55  
کتابخانه‌ی Matplotlib

Matplotlib یکی از پرکاربردترین کتابخانه‌های پایتون برای تولید نمودارها و تصاویر داده‌ای است. این کتابخانه توابعی را برای تولید نمودارها از داده‌های مختلف، از جمله داده‌های عددی و داده‌های آماری، ارایه می‌دهد.

با Matplotlib می‌توان نمودارهای ساده و پیچیده، از جمله نمودارهای خطی، نمودارهای نقطه‌ای، نمودارهای میله‌ای، نمودارهای دایره‌ای، نمودارهای پراکندگی و نمودارهای سه بعدی، ساخت. همچنین با استفاده از این کتابخانه، می‌توانید نمودارهای مختلف را با استفاده از انواع مختلف نمایش، از جمله نمایش خطی، نمایش نقطه‌ای، نمایش پراکندگی و غیره، تولید کنید.

این کتابخانه قابلیت‌های مختلفی را برای سفارشی‌سازی نمودارها ارایه می‌دهد، از جمله تغییر رنگ، اندازه، نوع خط، تغییر محورها، اضافه کردن برچسب و غیره. همچنین با استفاده از این کتابخانه، می‌توانید تصاویر داده‌ای و نمودارهای خود را با فرمت‌های مختلف، از جمله PDF، PNG، SVG و غیره، ذخیره کنید.

در این فصل شما با نحوه‌ی تولید نمودارهای خطی، نمودارهای نقطه‌ای، نمودارهای میله‌ای، نمودارهای دایره‌ای، نمودارهای پراکندگی در Matplotlib آشنا می‌شوید و در ادامه، با توابع سفارشی‌سازی نمودارها در Matplotlib کارخواهیم کرد تا رنگ، اندازه، نوع خط، تغییر محورها و اضافه کردن برچسب و غیره را بر روی نمودارهای خود اعمال کنیم.

  معرفی Matplotlib و ساخت نمودار خطی
"11:08  
  Markers
"06:28  
  Labels
"11:12  
  Grid & Subplot
"06:51  
  نمودار پراکندگی (Scatter)
"07:29  
  نمودارهای ستونی (Histograms)، میله‌ای (Bars) و دایره‌ای (Pie)
"10:32  
کتابخانه‌ی Scikit-Learn

Scikit-Learn یکی از محبوب‌ترین کتابخانه‌های پایتون برای یادگیری ماشین و داده کاوی است. این کتابخانه توابعی را برای تحلیل داده‌های عددی و آماری، تحلیل داده‌های علمی و مهندسی، تحلیل داده‌های مالی و بسیاری حوزه‌های دیگر، ارایه می‌دهد.

Scikit-Learn شامل روش‌های مختلف یادگیری ماشین است، از جمله روش‌های یادگیری نظارت‌شده مانند رگرسیون خطی، رگرسیون لجستیک، شبکه‌های عصبی، درخت تصمیم، SVM و غیره، و روش‌های یادگیری بدون نظارت مانند خوشه‌بندی، کاهش بعد، تحلیل مؤلفه‌های اصلی و غیره است. این کتابخانه قابلیت‌های مختلفی را برای سفارشی‌سازی روش‌های یادگیری و تحلیل داده‌ها ارایه می‌دهد، از جمله تنظیم پارامترها، انتخاب ویژگی‌ها، ارزیابی عملکرد روش‌های یادگیری، ایجاد مدل‌های ترکیبی و غیره.

در این فصل ابتدا با نحوه‌ی استفاده از ابزارهای مختلف Scikit-Learn برای تحلیل داده‌ها آشنا می‌شوید. در ادامه، با روش‌های یادگیری ماشین با نظارت آشنا می‌شوید، از جمله مدل نزدیک‌ترین همسایه (KNN) برای طبقه بندی و رگرسیون خطی. با استفاده از این روش‌ها، می‌توانید داده‌های خود را به شکل ماشینی آموزش دهید و از آن‌ها برای پیش‌بینی و تحلیل داده‌های خود استفاده کنید. سپس با روش‌های یادگیری بدون نظارت آشنا می‌شوید، از جمله خوشه‌بندی. با استفاده از این روش‌ها، می‌توانید الگوهای مخفی در داده‌های خود را شناسایی کنید و از آن‌ها برای تحلیل داده‌های خود استفاده کنید.

  معرفی و مقدمات استفاده از Scikit-learn
"10:41  
  یادگیری با نظارت (Supervised learning): طبقه‌بندی (Classification)
"13:38  
  یادگیری با نظارت (Supervised learning): مدل خطی (Linear model)
"08:35  
  ارزیابی مدل‌ها
"14:48  
  یادگیری بدون نظارت (Unsupervised learning): خوشه بندی (Clustering)
"04:36  
کتابخانه‌ی PyTorch

PyTorch یک کتابخانه یادگیری ماشین و شبکه‌های عصبی با متن‌باز و پرکاربرد برای پایتون است. این کتابخانه توسط تیم تحقیقاتی Facebook AI تولید شده است و ابزارهایی برای توسعه‌ی شبکه‌های عصبی و یادگیری ماشین را فراهم می‌کند.

در PyTorch، شبکه‌های عصبی به صورت داینامیک تعریف می‌شوند و به راحتی می‌توانند تغییر کنند، این به معنای این است که شما می‌توانید شبکه‌های عصبی پیچیده‌تر را با PyTorch ساخته و آن‌ها را برای تحلیل داده‌های خود استفاده کنید.

PyTorch توابعی برای پیاده‌سازی الگوریتم‌های یادگیری ماشین، شبکه‌های عصبی، یادگیری تقویتی، پردازش زبان طبیعی و بسیاری دیگر ارایه می‌دهد. همچنین PyTorch به شما امکان می‌دهد که شبکه‌های عصبی خود را به سادگی بر روی GPU اجرا کنید که دقت و سرعت بسیار بالاتری در مقایسه با اجرای شبکه‌های عصبی بر روی CPU دارد.

در این فصل ابتدا با ساختار ماتریس داده (Tensor) آشنا خواهید شد سپس در ادامه یک مدل شبکه‌ی عصبی خواهیم ساخت و روش آموزش آن را خواهیم آموخت. در پایان این فصل هم نگاهی به TensorFlow خواهیم کرد که یک جایگذین برای Pytorch است.

  Tensor
"14:23  
  Datasets و DataLoader
"10:37  
  ساخت Model شبکه عصبی
"14:00  
  معرفی TensorFlow
"04:16  
کتابخانه‌ی NetworkX

NetworkX یک کتابخانه‌ی متن‌باز و پرکاربرد برای تحلیل و شبیه‌سازی شبکه‌ها و گراف‌ها در پایتون است. با استفاده از این کتابخانه، شما می‌توانید گراف‌های مختلف را تعریف، ساخت، تحلیل و ویرایش کنید. این کتابخانه توابع بسیاری برای تحلیل گراف‌ها، شامل محاسبه‌ی خصوصیات گرافی، پیدا کردن کوتاه‌ترین مسیرها، تحلیل ارتباطات و غیره، فراهم می‌کند.

با استفاده از NetworkX، شما می‌توانید گراف‌هایی را با استفاده از روش‌های مختلفی مانند ماتریس مجاورت و لیست مجاورت ساخته و سپس آن‌ها را تحلیل کنید. همچنین، شما می‌توانید خصوصیات مختلف گرافی را محاسبه کنید، از جمله درجه گره، مرکزیت گره، ضریب خوشه‌ای، فاصله‌ی بین گره‌ها و غیره.

NetworkX همچنین به شما امکان می‌دهد تا گراف‌های خود را بصورت بصری رسم کنید. با استفاده از این کتابخانه، می‌توانید گراف‌های ریاضیاتی و شبکه‌های واقعی را برای تحلیل شبکه‌های اجتماعی، شبکه‌های ارتباطی، شبکه‌های رایانه‌ای و غیره، استفاده کنید.

دراین فصل شما ابتدا با نحوه‌ی ساخت گراف در NetworkX آشنا خواهید شد. در ادامه توابع کاربردی موجود در این کتابخانه را معرفی خواهیم کرد و نحوه‌ی استفاده از الگوریتم‌های گرافی را در این کتابخانه آموزش خواهیم داد. در انتها نیز به رسم گراف‌ها می‌پردازیم.

 

  گره (Node) و یال (Edge)
"17:25  
  توابع کاربردی
"06:41  
  الگوریتم‌های گرافی
"06:57  
  رسم گراف
"05:50  
ابزارهای تحلیل گرافی

Cytooscape و Gephi هر دو ابزارهای قدرتمند و محبوب برای تحلیل و بصری‌سازی گراف‌ها و شبکه‌ها هستند. Cytooscape بیشتر برای تحلیل شبکه‌های بزرگ و پیچیده استفاده می‌شود، در حالی که Gephi به عنوان یک ابزار بصری‌سازی گراف، برای تحلیل شبکه‌های کوچک و متوسط به کار می‌رود. در این فصل، شما با Cytooscape و Gephi آشنا می‌شوید و نحوه‌ی استفاده از این ابزارها برای تحلیل و بصری‌سازی گراف‌ها و شبکه‌ها را یاد می‌گیرید. شما یاد خواهید گرفت که چگونه گراف‌های خود را با استفاده از فرمت‌های مختلف وارد این ابزارها کنید و سپس آن‌ها را برای تحلیل و بصری‌سازی بهینه کنید. همچنین، شما با نحوه‌ی استفاده از ابزارهای مختلف برای تحلیل گراف‌ها و شبکه‌ها مانند محاسبه‌ی خصوصیات گرافی، پیدا کردن کوتاه‌ترین مسیرها، تحلیل ارتباطات و غیره، با استفاده از Cytooscape و Gephi آشنا خواهید شد.

  Cytoscape
"07:03  
  Gephi
"04:09  

درباره دوره

این دوره آموزشی به‌صورت عملی به دانشجویان کمک می‌کند تا با استفاده از پایتون و کتابخانه‌های مختلف، مهارت‌های لازم برای داده‌کاوی و تحلیل داده‌ها را به دست آورند. در این دوره از کتابخانه‌هایی مانند numpy، pandas، pyspark، matplotlib، scikit-learn، pytorch و networkx استفاده می‌شود.

در ابتدا با چرخه عملی داده‌کاوی در صنعت آشنا شده و سپس با کتابخانه numpy به‌عنوان ابزاری برای کار با داده‌های عددی از جمله آرایه‌ها، ماتریس‌ها و بردارها آشنا می‌شویم. سپس با استفاده از کتابخانه pandas، به‌عنوان ابزاری برای کار با داده‌های جدولی، مهارت‌های لازم برای تحلیل داده‌ها و پردازش داده‌های بزرگ را فرامی‌گیریم.
 در ادامه، با کتابخانه pyspark، به‌عنوان یک ابزار برای پردازش داده‌های بزرگ و توزیع شده، آشنا می‌شویم و با استفاده از آن، داده‌ها را به‌صورت موازی پردازش می‌کنیم.
 سپس با کتابخانه matplotlib، به‌عنوان ابزاری برای تولید نمودارها و نمایش داده‌ها در قالب گرافیکی، آشنا می‌شویم و با استفاده از آن، داده‌های خود را به‌صورت گرافیکی نمایش می‌دهیم.
 در ادامه با کتابخانه scikit-learn، به‌عنوان یک ابزار برای یادگیری ماشین و استفاده از الگوریتم‌های تحلیل داده، آشنا می‌شویم و با استفاده از آن، داده‌های خود را با استفاده از روش‌های مختلف تحلیل می‌کنیم.
 سپس با کتابخانه pytorch، به‌عنوان یک ابزار برای طراحی و پیاده‌سازی شبکه‌های عصبی، آشنا می‌شویم و با استفاده از آن، داده‌های خود را با استفاده از شبکه‌های عصبی تحلیل می‌کنیم.
 در نهایت با کتابخانه networkx، به‌عنوان یک ابزار برای تحلیل شبکه‌ها و گراف‌ها، آشنا می‌شویم و با استفاده از آن، داده‌های خود را در قالب شبکه‌های گرافی تحلیل می‌کنیم.

در دوره آموزش داده کاوی شرکت‌کنندگان چه می آموزند؟

در این دوره، شرکت‌کنندگان به دانش و مهارت‌های لازم برای کار با داده‌های بزرگ، تحلیل داده‌ها و استفاده از روش‌های مختلف داده‌کاوی و تحلیل داده، با استفاده از ابزارهای مختلف پایتون، آشنا می‌شوند.

هدف از دوره آموزش داده کاوی چیست؟

هدف این دوره، آشنایی با ابزارهای مختلف داده‌کاوی و تحلیل داده و یادگیری کار با آنها است. با پایان این دوره، شرکت‌کنندگان می‌توانند به‌صورت مستقل، داده‌های خود را تحلیل کرده و از روش‌های مختلف داده‌کاوی و تحلیل داده برای بهبود کیفیت تصمیم‌گیری استفاده کنند.

درباره استاد

maktabkhooneh-teacher محمد نظری

مهندس محمد نظری، دانشجوی دکترای مهندسی نرم‌افزار دانشگاه صنعتی شریف و برنامه‌نویس مرکز راهکارهای اطلاعاتی هوشمند شریف هستند. ایشان و همکاران‌شان در این مرکز بر روی پروژه‌های مهندسی نرم‌افزار و برنامه‌نویسی مقیاس بزرگ در زمینه توسعه تکنولوژی‌های ارزش‌آفرین در صنایع مختلف فعالیت دارند. مهندس محمد نظری مدرک کارشناسی ارشد خود را از دانشگاه علم و صنعت اخذ کرده و در کنکور دکتری مهندسی نرم افزار سال ۱۴۰۱ موفق به کسب رتبه یک شده است.

مشاهده پروفایل و دوره‌‌های استاد

نظرات کاربران

تا کنون نظری برای این دوره ثبت نشده است. برای ثبت نظر باید ابتدا در دوره ثبت نام کرده و دانشجوی دوره باشید.
امید عبادی 1402-08-17
با تشکر از استاد گرامی- دوره کاربردی و مفید بود.
سجاد رزاقی 1402-12-20
دوره اصلا کاربردی نیست. هر کدام از کتابخانهچند ساعت زمان نیاز دارد تامعرفی شود ، زمان تمرین و نمونه پروژه به کنار. در این دوره هر کتابخانه به نیم ساعت نمیرسد ، تمرین هم ندارد ، آموزش دهنده نیاز دارد تا در زمینه آموزش تجربه کسب کند چون هیچ مسیر مشخصی برای آموزش ندارد

دوره‌های پیشنهادی

سوالات پرتکرار

پس از سپری شدن زمان دوره، به محتوای دوره دسترسی خواهم داشت؟
بله؛ پس از سپری شدن مدت زمان دوره شما به محتوای دوره دسترسی خواهید داشت و می توانید از ویدئوها، تمارین، پروژه و دیگر محتوای دوره در صورت وجود استفاده کنید ولی امکان تصحیح تمارین توسط پشتیبان و دریافت گواهی نامه برای شما وجود نخواهد داشت.
poster
  
برگزار کننده:  مکتب‌خونه
  
زمان مورد نیاز برای گذارندن دوره:  5 ساعت
مجموع محتوای آموزشی:  5 ساعت ویدئو
 (قابل دانلود می‌باشد)