در این دوره آموزشی، با دو رویکرد مختلف برای تبدیل دادههای خام به دادههای آماده تحلیل آشنا میشوید:
- فرآیند استخراج، تبدیل، و بارگذاری (ETL)
- فرآیند استخراج، بارگذاری، و تبدیل (ELT)
رویکرد ETL معمولاً در انبارهای داده و دیتامارتها بهکار میرود، در حالی که ELT بیشتر برای دریاچههای داده (Data Lakes) مناسب است؛ جایی که تبدیل دادهها بهصورت درخواستی توسط اپلیکیشنهای مصرفکننده انجام میشود.
در طول این دوره، با ابزارها و تکنیکهای مورد استفاده در پایپلاینهای داده و فرآیندهای ETL آشنا خواهید شد. شما نحوه استخراج داده از منابع مختلف، انتقال داده در مسیر پایپلاین، و ذخیرهسازی آن در سیستم مقصد را تجربه میکنید و تفاوتهای کلیدی بین ETL و ELT را درک خواهید کرد.
همچنین روشها و ابزارهای مختلف برای:
- استخراج دادهها
- ادغام منطقی یا فیزیکی دادههای استخراجشده
- بارگذاری دادهها در مخازن مختلف
را بررسی خواهید کرد.
در ادامه، تبدیلهایی که بر روی دادههای خام برای افزایش اعتبار، زمینهسازی، و دسترسیپذیری داده اعمال میشود را تعریف خواهید کرد. همچنین با روشهای مختلف بارگذاری داده در مقصد، بررسی کیفیت داده، پایش خطاهای بارگذاری، و استفاده از مکانیزمهای بازیابی در صورت بروز خطا آشنا میشوید.
در بخش عملی دوره، با استفاده از Apache Airflow یاد میگیرید چگونه پایپلاینهای داده بسازید و مزایای استفاده از این ابزار را خواهید شناخت. همچنین با Apache Kafka برای ساخت پایپلاینهای دادهی جریانی (streaming pipelines) و اجزای اصلی آن از جمله Broker، Topic، Partition، Replication، Producer و Consumer آشنا خواهید شد.