آموزش تحلیل داده‌های علمی با رویکرد بازتولیدپذیری

در دنیای امروز که تحلیل داده‌ها به‌طور فزاینده‌ای پیچیده‌تر می‌شود و شامل مجموعه داده‌های بزرگ و محاسبات پیشرفته است، بازتولیدپذیری (Reproducibility) در پژوهش‌های علمی و تحلیل‌های داده‌ای به یک ضرورت تبدیل شده است. دوره "Reproducible ... بیشتر

جدید
زیرنویس
5 دانشجو
مقدماتی
Coursera

Brian Caffo

+ 2 مدرس دیگر

به‌روزرسانی: ۱۴۰۳/۱۲/۲۵

محتوای دوره
پیش‌نیاز‌ها
درباره دوره
درباره استاد

آنچه در این دوره می‌آموزید

سازمان‌دهی تحلیل داده‌ها برای افزایش بازتولیدپذیری

مستندسازی تحلیل داده‌های بازتولیدپذیر با استفاده از knitr

ارزیابی میزان بازتولیدپذیری یک پروژه تحلیل داده

انتشار اسناد بازتولیدپذیر تحت وب با استفاده از Markdown

محتوای دوره

4 فصل 32 جلسه 4 ساعت ویدیو
مفاهیم، ایده‌ها و ساختار
  پژوهش بازتولیدپذیر چیست؟
مشاهده
"08:19
  پژوهش بازتولیدپذیر: مفاهیم و ایده‌ها - بخش اول
مشاهده
"07:11
  پژوهش بازتولیدپذیر: مفاهیم و ایده‌ها - بخش دوم
"05:26
  پژوهش بازتولیدپذیر: مفاهیم و ایده‌ها - بخش سوم
"03:26
  نوشتن اسکریپت برای تحلیل داده‌ها
"04:35
  ساختار یک تحلیل داده - بخش اول
"12:29
  ساختار یک تحلیل داده - بخش دوم
"17:40
  سازمان‌دهی تحلیل داده‌ها
"11:05
Markdown و knitr
چک‌لیست پژوهش‌های بازتولیدپذیر و تحلیل داده مبتنی بر شواهد
مطالعات موردی و تحلیل‌های تفسیری

پیش‌نیاز‌ها

این دوره به نحوی تهیه و تدوین شده است که مباحث آن به ساده‌ترین شکل ممکن بیان شوند و مخاطبان دوره بتوانند به‌سادگی متوجه موضوعات مطرح شده شوند. به همین جهت برای شرکت در این دوره هیچ پیش‌نیاز به خصوصی وجود ندارد و افراد با هر سطحی از آگاهی و تحصیلات می‌توانند از مباحث این دوره نهایت استفاده را داشته باشند.

درباره دوره

در دنیای امروز که تحلیل داده‌ها به‌طور فزاینده‌ای پیچیده‌تر می‌شود و شامل مجموعه داده‌های بزرگ و محاسبات پیشرفته است، بازتولیدپذیری (Reproducibility) در پژوهش‌های علمی و تحلیل‌های داده‌ای به یک ضرورت تبدیل شده است.

دوره  "Reproducible Research"به شما کمک می‌کند تا با اصول و ابزارهای موردنیاز برای گزارش‌گیری از تحلیل‌های داده به روشی بازتولیدپذیر آشنا شوید. ایده اصلی در پژوهش‌های بازتولیدپذیر این است که تحلیل داده‌ها و ادعاهای علمی همراه با داده‌ها و کدهای نرم‌افزاری مرتبط منتشر شوند تا دیگران بتوانند یافته‌ها را تأیید کرده و بر اساس آن‌ها کارهای تحقیقاتی جدیدی انجام دهند.

در این دوره، شما یاد می‌گیرید که چگونه تحلیل‌های آماری خود را با استفاده از ابزارهایی مانند Markdown، R Markdown و knitr مستندسازی کنید و گزارش‌هایی ایجاد کنید که نه‌تنها نتایج نهایی، بلکه داده‌ها و کدهای مورد استفاده برای رسیدن به این نتایج را نیز در بر داشته باشند. با این رویکرد، دیگر نیازی به تمرکز بر جزئیات سطحی یک گزارش متنی نخواهید داشت و به‌جای آن می‌توانید بر محتوای واقعی تحلیل داده و یافته‌های علمی تمرکز کنید.

یکی از مزایای کلیدی این روش این است که تحلیل‌های شما شفاف‌تر، قابل اعتمادتر و برای سایر محققان و تحلیل‌گران داده مفیدتر خواهد بود. شما یاد خواهید گرفت که چگونه از چک‌لیست‌های پژوهش بازتولیدپذیر استفاده کنید تا مطمئن شوید که تحلیل‌های شما استانداردهای لازم را دارند. همچنین، با نمونه‌های واقعی از تحلیل‌های داده، از جمله مطالعات موردی در زمینه آلودگی هوا و زیست‌شناسی با توان پردازش بالا، آشنا خواهید شد.

این دوره همچنین شامل تکنیک‌های ذخیره‌سازی محاسبات (Caching Computations) برای بهینه‌سازی پردازش داده‌ها است. در پایان این دوره، شما قادر خواهید بود تحلیل‌های خود را در قالب اسناد یکپارچه منتشر کنید، به‌گونه‌ای که هر فرد دیگری بتواند به‌راحتی همان تحلیل را اجرا کرده و به همان نتایج دست یابد.

با تسلط بر این مهارت‌ها، می‌توانید در پژوهش‌های علمی، تحلیل داده‌های تجاری و پروژه‌های داده‌محور عملکردی حرفه‌ای‌تر داشته باشید و به‌عنوان یک تحلیل‌گر، استانداردهای بالاتری در کار خود اعمال کنید.

اطلاعات بیشتر

درباره استاد

Brian Caffo
3 دوره
43 دانشجو

Brian Caffo، دکترا استاد زیست‌آمار در دانشکده بهداشت عمومی بلومبرگ دانشگاه جانز هاپکینز است. او در سال ۲۰۰۱ از گروه آمار دانشگاه فلوریدا فارغ‌التحصیل شد و در زمینه‌های آمار محاسباتی و نورواینفورماتیک فعالیت می‌کند. دکتر کافو یکی از بنیان‌گذاران گروه پژوهشی SMART (Smart Statistics, www.smart-stats.org) است که بر توسعه روش‌های آماری پیشرفته تمرکز دارد. او به دلیل دستاوردهای برجسته علمی و آموزشی خود، موفق به دریافت جایزه ریاست‌جمهوری برای دانشمندان و مهندسان جوان (PECASE) شده است. علاوه بر این، او جوایز سیب طلایی دانشکده بلومبرگ (Golden Apple Award) و جایزه آموزش AMTRA را نیز به دلیل تعهد و تأثیرگذاری در آموزش آمار زیستی دریافت کرده است.

اطلاعات بیشتر

دیگر دوره‌های Brian Caffo

Jeff Leek
3 دوره
43 دانشجو

Jeff Leek مدیر ارشد داده (Chief Data Officer)، معاون رئیس و رئیس بنیاد J Orin Edson در دپارتمان زیست‌آمار علوم بهداشت عمومی در مرکز سرطان فرد هاچینسون است. پیش از این، او استاد زیست‌آمار و آنکولوژی در دانشکده بهداشت عمومی بلومبرگ دانشگاه جانز هاپکینز و هم‌مدیر آزمایشگاه علوم داده جانز هاپکینز بوده است. دکتر لیک مدرک دکترای زیست‌آمار خود را از دانشگاه واشنگتن دریافت کرده و به دلیل مشارکت‌های برجسته در تحلیل داده‌های ژنومی و توسعه روش‌های آماری برای پزشکی شخصی‌سازی‌شده شناخته می‌شود. تحلیل‌های داده‌ای او به درک بهتر مکانیسم‌های مولکولی رشد مغز، خودنوسازی سلول‌های بنیادی و پاسخ ایمنی بدن به آسیب‌های شدید کمک کرده است. پژوهش‌های او در برترین مجلات علمی و پزشکی مانند Nature، Proceedings of the National Academy of Sciences، Genome Biology و PLoS Medicine منتشر شده‌اند.

او دوره تحلیل داده را به‌عنوان بخشی از مجموعه دروس اصلی روش‌های آماری سالانه برای دانشجویان زیست‌آمار در دانشگاه جانز هاپکینز طراحی کرد. این دوره، هر سال که توسط دکتر لیک تدریس شده، موفق به دریافت جایزه برتری در آموزش شده است؛ جایزه‌ای که توسط دانشجویان جانز هاپکینز به بهترین دوره آموزشی اعطا می‌شود.

اطلاعات بیشتر

دیگر دوره‌های Jeff Leek

Roger D. Peng
3 دوره
43 دانشجو

Roger D. Peng, استاد زیست‌آمار در دانشکده بهداشت عمومی بلومبرگ دانشگاه جانز هاپکینز و یکی از ویراستاران وبلاگ Simply Statistics است. او مدرک دکترای آمار خود را از دانشگاه کالیفرنیا، لس‌آنجلس (UCLA) دریافت کرده و یکی از پژوهشگران برجسته در زمینه آلودگی هوا، ارزیابی خطرات بهداشتی و روش‌های آماری برای داده‌های محیط‌زیستی محسوب می‌شود. دکتر پنگ در سال ۲۰۱۶ برنده جایزه معتبر Mortimer Spiegelman از انجمن بهداشت عمومی آمریکا شد؛ جایزه‌ای که به آمارشناسانی اعطا می‌شود که مشارکت‌های چشمگیری در زمینه آمار سلامت داشته باشند. او دوره برنامه‌نویسی آماری را در دانشگاه جانز هاپکینز طراحی کرد تا دانشجویان را با ابزارهای محاسباتی موردنیاز برای تحلیل داده‌ها آشنا کند.

دکتر پنگ یکی از رهبران ملی در حوزه روش‌ها و استانداردهای پژوهش‌های بازتولیدپذیر است و به‌عنوان ویراستار بخش پژوهش‌های بازتولیدپذیر در ژورنال Biostatistics فعالیت می‌کند. پژوهش‌های او ماهیتی بین‌رشته‌ای دارند و مقالاتش در معتبرترین مجلات علمی و آماری از جمله Journal of the American Medical Association و Journal of the Royal Statistical Society منتشر شده‌اند. او بیش از دوازده بسته نرم‌افزاری را توسعه داده که شامل پیاده‌سازی روش‌های آماری برای مطالعات محیط‌زیستی، ابزارهای پژوهش‌های بازتولیدپذیر و توزیع داده‌ها است. دکتر پنگ همچنین کارگاه‌ها، آموزش‌های تخصصی و دوره‌های کوتاه‌مدت در زمینه محاسبات آماری و تحلیل داده‌ها برگزار کرده و نقش مهمی در ترویج روش‌های مدرن تحلیل داده و استانداردهای علمی ایفا کرده است.

اطلاعات بیشتر

دیگر دوره‌های Roger D. Peng

سوالات پرتکرار

پس از سپری شدن زمان دوره، به محتوای دوره دسترسی خواهم داشت؟

بله؛ پس از سپری شدن مدت زمان دوره شما به محتوای دوره دسترسی خواهید داشت و می توانید از ویدئوها، تمارین، پروژه و دیگر محتوای دوره در صورت وجود استفاده کنید ولی امکان تصحیح تمارین توسط پشتیبان و دریافت گواهی نامه برای شما وجود نخواهد داشت.

تمام حقوق این وب‌سایت برای شرکت ندای دانش همراه ایرانیان (مکتب‌خونه‌‌‌‌) است.