در دنیای امروز که تحلیل دادهها بهطور فزایندهای پیچیدهتر میشود و شامل مجموعه دادههای بزرگ و محاسبات پیشرفته است، بازتولیدپذیری (Reproducibility) در پژوهشهای علمی و تحلیلهای دادهای به یک ضرورت تبدیل شده است. دوره "Reproducible ... بیشتر
Brian Caffo
+ 2 مدرس دیگر
بهروزرسانی: ۱۴۰۳/۱۲/۲۵
سازماندهی تحلیل دادهها برای افزایش بازتولیدپذیری
مستندسازی تحلیل دادههای بازتولیدپذیر با استفاده از knitr
ارزیابی میزان بازتولیدپذیری یک پروژه تحلیل داده
انتشار اسناد بازتولیدپذیر تحت وب با استفاده از Markdown
این دوره به نحوی تهیه و تدوین شده است که مباحث آن به سادهترین شکل ممکن بیان شوند و مخاطبان دوره بتوانند بهسادگی متوجه موضوعات مطرح شده شوند. به همین جهت برای شرکت در این دوره هیچ پیشنیاز به خصوصی وجود ندارد و افراد با هر سطحی از آگاهی و تحصیلات میتوانند از مباحث این دوره نهایت استفاده را داشته باشند.
در دنیای امروز که تحلیل دادهها بهطور فزایندهای پیچیدهتر میشود و شامل مجموعه دادههای بزرگ و محاسبات پیشرفته است، بازتولیدپذیری (Reproducibility) در پژوهشهای علمی و تحلیلهای دادهای به یک ضرورت تبدیل شده است.
دوره "Reproducible Research"به شما کمک میکند تا با اصول و ابزارهای موردنیاز برای گزارشگیری از تحلیلهای داده به روشی بازتولیدپذیر آشنا شوید. ایده اصلی در پژوهشهای بازتولیدپذیر این است که تحلیل دادهها و ادعاهای علمی همراه با دادهها و کدهای نرمافزاری مرتبط منتشر شوند تا دیگران بتوانند یافتهها را تأیید کرده و بر اساس آنها کارهای تحقیقاتی جدیدی انجام دهند.
در این دوره، شما یاد میگیرید که چگونه تحلیلهای آماری خود را با استفاده از ابزارهایی مانند Markdown، R Markdown و knitr مستندسازی کنید و گزارشهایی ایجاد کنید که نهتنها نتایج نهایی، بلکه دادهها و کدهای مورد استفاده برای رسیدن به این نتایج را نیز در بر داشته باشند. با این رویکرد، دیگر نیازی به تمرکز بر جزئیات سطحی یک گزارش متنی نخواهید داشت و بهجای آن میتوانید بر محتوای واقعی تحلیل داده و یافتههای علمی تمرکز کنید.
یکی از مزایای کلیدی این روش این است که تحلیلهای شما شفافتر، قابل اعتمادتر و برای سایر محققان و تحلیلگران داده مفیدتر خواهد بود. شما یاد خواهید گرفت که چگونه از چکلیستهای پژوهش بازتولیدپذیر استفاده کنید تا مطمئن شوید که تحلیلهای شما استانداردهای لازم را دارند. همچنین، با نمونههای واقعی از تحلیلهای داده، از جمله مطالعات موردی در زمینه آلودگی هوا و زیستشناسی با توان پردازش بالا، آشنا خواهید شد.
این دوره همچنین شامل تکنیکهای ذخیرهسازی محاسبات (Caching Computations) برای بهینهسازی پردازش دادهها است. در پایان این دوره، شما قادر خواهید بود تحلیلهای خود را در قالب اسناد یکپارچه منتشر کنید، بهگونهای که هر فرد دیگری بتواند بهراحتی همان تحلیل را اجرا کرده و به همان نتایج دست یابد.
با تسلط بر این مهارتها، میتوانید در پژوهشهای علمی، تحلیل دادههای تجاری و پروژههای دادهمحور عملکردی حرفهایتر داشته باشید و بهعنوان یک تحلیلگر، استانداردهای بالاتری در کار خود اعمال کنید.
اطلاعات بیشتر
Brian Caffo، دکترا استاد زیستآمار در دانشکده بهداشت عمومی بلومبرگ دانشگاه جانز هاپکینز است. او در سال ۲۰۰۱ از گروه آمار دانشگاه فلوریدا فارغالتحصیل شد و در زمینههای آمار محاسباتی و نورواینفورماتیک فعالیت میکند. دکتر کافو یکی از بنیانگذاران گروه پژوهشی SMART (Smart Statistics, www.smart-stats.org) است که بر توسعه روشهای آماری پیشرفته تمرکز دارد. او به دلیل دستاوردهای برجسته علمی و آموزشی خود، موفق به دریافت جایزه ریاستجمهوری برای دانشمندان و مهندسان جوان (PECASE) شده است. علاوه بر این، او جوایز سیب طلایی دانشکده بلومبرگ (Golden Apple Award) و جایزه آموزش AMTRA را نیز به دلیل تعهد و تأثیرگذاری در آموزش آمار زیستی دریافت کرده است.
اطلاعات بیشتر
Jeff Leek مدیر ارشد داده (Chief Data Officer)، معاون رئیس و رئیس بنیاد J Orin Edson در دپارتمان زیستآمار علوم بهداشت عمومی در مرکز سرطان فرد هاچینسون است. پیش از این، او استاد زیستآمار و آنکولوژی در دانشکده بهداشت عمومی بلومبرگ دانشگاه جانز هاپکینز و هممدیر آزمایشگاه علوم داده جانز هاپکینز بوده است. دکتر لیک مدرک دکترای زیستآمار خود را از دانشگاه واشنگتن دریافت کرده و به دلیل مشارکتهای برجسته در تحلیل دادههای ژنومی و توسعه روشهای آماری برای پزشکی شخصیسازیشده شناخته میشود. تحلیلهای دادهای او به درک بهتر مکانیسمهای مولکولی رشد مغز، خودنوسازی سلولهای بنیادی و پاسخ ایمنی بدن به آسیبهای شدید کمک کرده است. پژوهشهای او در برترین مجلات علمی و پزشکی مانند Nature، Proceedings of the National Academy of Sciences، Genome Biology و PLoS Medicine منتشر شدهاند.
او دوره تحلیل داده را بهعنوان بخشی از مجموعه دروس اصلی روشهای آماری سالانه برای دانشجویان زیستآمار در دانشگاه جانز هاپکینز طراحی کرد. این دوره، هر سال که توسط دکتر لیک تدریس شده، موفق به دریافت جایزه برتری در آموزش شده است؛ جایزهای که توسط دانشجویان جانز هاپکینز به بهترین دوره آموزشی اعطا میشود.
اطلاعات بیشتر
Roger D. Peng, استاد زیستآمار در دانشکده بهداشت عمومی بلومبرگ دانشگاه جانز هاپکینز و یکی از ویراستاران وبلاگ Simply Statistics است. او مدرک دکترای آمار خود را از دانشگاه کالیفرنیا، لسآنجلس (UCLA) دریافت کرده و یکی از پژوهشگران برجسته در زمینه آلودگی هوا، ارزیابی خطرات بهداشتی و روشهای آماری برای دادههای محیطزیستی محسوب میشود. دکتر پنگ در سال ۲۰۱۶ برنده جایزه معتبر Mortimer Spiegelman از انجمن بهداشت عمومی آمریکا شد؛ جایزهای که به آمارشناسانی اعطا میشود که مشارکتهای چشمگیری در زمینه آمار سلامت داشته باشند. او دوره برنامهنویسی آماری را در دانشگاه جانز هاپکینز طراحی کرد تا دانشجویان را با ابزارهای محاسباتی موردنیاز برای تحلیل دادهها آشنا کند.
دکتر پنگ یکی از رهبران ملی در حوزه روشها و استانداردهای پژوهشهای بازتولیدپذیر است و بهعنوان ویراستار بخش پژوهشهای بازتولیدپذیر در ژورنال Biostatistics فعالیت میکند. پژوهشهای او ماهیتی بینرشتهای دارند و مقالاتش در معتبرترین مجلات علمی و آماری از جمله Journal of the American Medical Association و Journal of the Royal Statistical Society منتشر شدهاند. او بیش از دوازده بسته نرمافزاری را توسعه داده که شامل پیادهسازی روشهای آماری برای مطالعات محیطزیستی، ابزارهای پژوهشهای بازتولیدپذیر و توزیع دادهها است. دکتر پنگ همچنین کارگاهها، آموزشهای تخصصی و دورههای کوتاهمدت در زمینه محاسبات آماری و تحلیل دادهها برگزار کرده و نقش مهمی در ترویج روشهای مدرن تحلیل داده و استانداردهای علمی ایفا کرده است.
اطلاعات بیشتر