«علم داده» (دیتا ساینس | Data Science ) در سادهترین تعریف ممکن به معنی مطالعه دادهها است. مانند علوم زیستی که مطالعه زیستشناسی است، علوم فیزیکی، مطالعه واکنشهای فیزیکی است و علم داده معنی تجزیهوتحلیل دادهها است.
میتوان گفت که دیتا ساینس مهارت آشکار کردن بینشها و روندهایی است که در پشت دادهها پنهان هستند. این تعریف دهههای 1980 و 1990 مطرح شد، زمانی که برخی از اساتید، متخصصان فناوری اطلاعات و دانشمندان در حال بررسی دادههای آماری بودند و به این فکر کردند که بهتر است آن را علم داده بنامند.
به بیان ساده و در یک تعریف عمومی دیتا ساینس یا همان علوم داده شامل به دست آوردن اطلاعات یا بینش معنادار از دادههای ساختاریافته یا بدون ساختار از طریق فرآیند تجزیهوتحلیل، برنامهنویسی و مهارتهای تجاری است. این رشته حاوی عناصر بسیاری مانند ریاضیات، آمار، علوم کامپیوتر و غیره با رویکرد داده محور است که برای مدیریت پروژه و بهینهسازی کارها به کار گرفته میشود.
کسانی که در این زمینههای مربوطه کار میکنند و دانش عمیقی از آن دارند بهعنوان دانشمند داده شناخته میشوند. امروزه علم داده به نوعی با ابزارها، الگوریتمها و اصول یادگیری ماشینی مختلف ترکیب شده است.
با ورود جهان به عصر داده و کلان دادهها نیاز به ذخیرهسازی آنها هم افزایش یافت. این مسئله یکی از چالشهای و نگرانیهای اصلی صنایع سازمانی تا سال 2010 بود. از همین رو تمرکز اصلی آنها روی ایجاد چارچوب و راهحلهای ذخیره داده بود. با به وجود آمدن Hadoop و سایر چارچوبها مشکل ذخیرهسازی حل شده و تمرکزها روی پردازش این داده معطوف شد. دیتا ساینس علمی بود که بدین منظور ایجاد شد. علم داده آینده هوش مصنوعی، یادگیری ماشین و تام زیرشاخههای آن شامل یادگیری عمیق، شبکه های عصبی و سیار موارد است. تمام ایدههای فیلمهای علمی-تخیلی هالیوود با این دانش عظیم میتواند تحقق یابد. از این رو بسیار مهم است که بدانیم حوزه علم داده چیست و چگونه میتواند برای کسبوکارها ارزش افزوده ایجاد کند.
دیتا ساینس همچنان یکی از پرتقاضاترین مسیرهای شغلی است. متخصصان علم داده میدانند که برای موفقیت در این حوزه باید مهارتهای سنتی تجزیهوتحلیل حجم زیادی از دادهها، دادهکاوی و مهارتهای برنامهنویسی را کسب کنند. متخصص علم داده برای کشف هوش سودمند برای سازمانهای خود باید به طور کامل بر چرخه حیات علم داده تسلط داشته باشد. همچنین او باید دارای انعطافپذیری و درک کافی برای به حداکثر رساندن بازده در هر مرحله از فرایند باشد. در ادامه بیشتر به بررسی چرخه حیات علم داده میپردازیم.
اصطلاح علم داده برای اولین بار در سال 2001 و توسط ویلیام کلیولند مطرح شد. او در مقاله خود تحت عنوان «علم داده: برنامهای برای گسترش جنبههای فنی در رشته آمار» علم داده را به عنوان یک رشته مستقل معرفی کرد. او معتقد بود این علم با علوم کامپیوتر و دادهکاوی در ارتباط است. البته جدید بودن این علم به معنای عدم استفاده از آن در سالهای دور نیست.
به عنوان مثال ناپلئون بناپارت برای تصمیمگیری در جنگ از مدلهای ریاضی استفاده میکرده است. مدلسازی در آن زمان برعهده ریاضیدانان بوده است.
کلیولند بر این باور بود که مهندسهای کامپیوتر شناخت اندکی از روشهای کار با داده دارند. از طرفی متخصصان آمار هم دانش محاسباتی بسیار خوبی ندارند؛ بنابراین تلفیق و ترکیب این دو گروه میتواند نوآوریهای زیادی را به وجود آورد. به گفته او دپارتمانهای علم داده باید متخصصانی داشته باشند که بتوانند دانش دادهها را با دانش محاسباتی ترکیب کنند. به همین ترتیب علمی پدید آمد که آن را علم داده نامیدند.
دانشکده مدیریت دانشگاه تهران اولین پژوهش را در زمینه متخصصین علم داده در ایران انجام داد. اما اولین دانشگاهی که به آموزش دیتا ساینس در مقطع کارشناسی ارشد پرداخت، دانشگاه شهید بهشتی بود. امروزه مرکز پژوهشی علوم و مدیریت داده دانشگاه تهران هم بهصورت تخصصی علم داده را دنبال میکند.
از جمله رشتههای دانشگاهی مرتبط با این علم بهروز در ایران عبارتاند از: علوم اطلاعات و دانششناسی، علوم کامپیوتر، رشته آمار، ریاضی کاربردی، آمار پزشکی، علوم تصمیم و مهندسی دانش، انفورماتیک، بیوانفورماتیک، ژئوانفورماتیک، تحلیل یادگیری، انفورماتیک پزشکی، علوم اعصاب محاسباتی، شیمیانفورماتیک و فیزیک محاسباتی.
علم داده یک فرآیند یک مرحلهای نیست که در مدت کوتاهی آن را یاد گرفت و خود را دانشمند داده نامید. یادگیری دیتا ساینس بهصورت حرفهای شمال مراحل و فرایندهای بسیاری است که در ادامه این مراحل بیانشده است.
بیان مشکل
هیچ کاری بدون انگیزه شروع نمیشود و دیتا ساینس هم از این قاعده مستثنی نیست. اصلیترین انگیزهای که ما را وادار به تحلیل داده میکند مشکلات هستند. بسیاری از دانشمندان دیتا ساینس این گام را اصلیترین گام در علم داده مینامند و به نوعی ستون این علم بهحساب میآید.
پس از تعریف و بیان مشکل، گام بعدی جستجوی دادههایی است که ممکن است برای مدل خود نیاز باشد. دانشمند داده یا هرکسی که روی داده کار میکند باید قبل از انجام هر کاری تحقیق خوبی انجام دهد و آنچه که نیاز دارد را پیدا کند. دادهها میتوانند به هر شکلی باشند، یعنی بدون ساختار یا ساختارمند. همچنین دادهها در دنیای دیتا ساینس ممکن است به اشکال مختلف مانند ویدئوها، صفحات وب، فرمهای کدگذاری شده و غیره باشند که این بسته به پروژه و هدف متفاوت خواهد بود.
مرحله بعدی از فرموله کردن مشکل و جمع آوردی دادهها در دنیای دیتا ساینس، پاکسازی و استخراج دادههای بهینه است که به پیش پردازش داده نیز معروف است. این مرحله نیز از اهمیت بسیار بالایی برخوردار بوده و به نوعی این مرحله موردعلاقهترین کار دانشمندان دیتا ساینس است. پاکسازی دادهها شامل حذف دادههای گمشده، اضافی، غیر ضروری و تکراری از مجموعه دادهای خواهد بود که قبلاً جمعآوری شده است. ابزارهای مختلفی برای انجام این کار با کمک برنامهنویسی در R یا Python وجود دارد. انتخاب یکی از آنها کاملاً به سلیقه، تخصص و علاقه شخصی برمیگردد.
برای مثال وقتی نوبت به بخش آماری میرسد، R به پایتون ترجیح داده میشود، زیرا دارای کتابخانههای آماری بسیار زیاد و استانداردی است و از طرفی برای مثال جهت پردازش تصویر و افزایش سرعت برنامه از زبان برنامهنویسی پایتون استفاده میشود.
این مرحله نیز یکی از کارهای اصلی در دیتا ساینس است که باید انجام شود. این مرحله در مورد تجزیهوتحلیل ساختار دادهها، یافتن الگوهای پنهان در آنها، مطالعه رفتارها، یافتن تأثیرات یک متغیر بر متغیرهای دیگر بهصورت کمی و سپس نتیجهگیری است. دانشمندان دادهها را با کمک نمودارهای مختلفی که با کمک کتابخانهها با استفاده از هر زبان برنامهنویسی تشکیل شدهاند، کاوش میکنند. برای مثال در زبان برنامهنویسی R، کتابخانه GGplot یکی از معروفترین آنها است و در پایتون کتابخانه Matplotlib این وظیفه را برعهده دارد.
زمانی که تجزیهوتحلیل دادهها در دیتا ساینس به پایان رسید، نوبت به مدلسازی میرسد که یک مرحله بسیار مهم بهحساب میآید، که از این مدل برای پیشبینی در آینده، نتیجهگیری و... استفاده میشود. در اینجا، دانشمند علم داده باید الگوریتم خوبی را انتخاب کند که بهترین تناسب را با مدل داشته باشد. الگوریتمهای مختلفی از رگرسیون تا طبقهبندی، SVM (ماشینهای بردار پشتیبانی)، خوشهبندی و غیره برای این منظور وجود دارد. مدل حتی میتواند از یک الگوریتم یادگیری ماشینی باشد. مدل با دادههای آموزشی (Train Data) آموزش داده میشود و سپس با دادههای آزمایشی (Test Data)، مدل مورد آزمایش قرار میگیرد.
برای این کار روشهای مختلفی در دنیای دیتا ساینس وجود دارد. یکی از آنها روش K-fold است که در آن کل دادهها به دو قسمت تقسیم میشوند، یکی Train و دیگری دادههای Test که بر این اساس شما مدلها آموزش داده میشوند.
تا به این جا نتایج مراحل بالا ساخت یک مدل بوده است. اما چگونه میتوان اطمینان حاصل کرد که مدل چقدر خور عمل میکند؟ این همان مرحله استقرا و بهینهسازی مدل است که از آن بهعنوان ارزیابی نیز یاد میشود. در این مرحله دادههای آزمایش میشوند و با بررسی صحت آنها دانشمند دیتا ساینس متوجه خواهد شد مدلی که ساخته است چقدر خوب عمل میکند. به طور خلاصه، در این مرحله کارایی مدل داده بررسی میشود و بنابراین سعی خواهد شد که مدل برای پیشبینی دقیق بهتر بهینه شود.
در زیر برخی از برنامههای کاربردی که از Data Science برای خدمات آن استفاده میکنند آورده شده است:
کاربرد دیتا ساینس فقط به موارد فوق محدود نمیشود و امروزه تقریباً در هر حوزهای که با داده و آمار سروکار دارد، میتوان علم داده را به کار برد.
تعاریف زیادی در عموم برای دانشمندان داده وجود دارد. به عبارت ساده، دانشمند داده کسی است که فن علم داده را میداند و به آن عمل میکند. اصطلاح دانشمند داده توسط DJ Patil و Jeff Hammerbacher ابداع شد. دانشمندان داده آن دسته از دانشمندانی هستند که با تخصص قوی خود در برخی رشتههای علمی، مشکلات پیچیده داده را حل میکنند. آنها با بسیاری از عناصر مرتبط با ریاضیات، آمار، احتمال، پیشبینی کمی و کیفی، علوم کامپیوتر و غیره کار میکنند، این در حالی است که احتمال دارد این افراد در همه این زمینهها متخصص نباشند. میتوان گفت که دانشمندان داده، تحلیلگران کسب و کار و تحلیلگران داده هستند. بهصورت کلی کسی که در دیتا ساینس مشغول به تحقیق است باید مهارتهای زیر تسلط داشته باشد.
دانشمندان داده نیاز دارند تا حجم زیادی از دادههای ساختاریافته و بدون ساختار را پردازش کنند تا تصمیمات تجاری مهمی اتخاذ کنند. در دنیای پویا و وسیع امروزی، چالش اصلی که دانشمندان داده امروزی با آن مواجه هستند، یافتن راهحلهایی برای مشکلات تجاری موجود و بالاتر از آن، شناسایی مشکلاتی است که بیشترین ارتباط و اهمیت را دارند.
یک دانشمند داده حجم عظیمی از اطلاعات را از زمینههای علمی و برنامههای کاربردی جمعآوری میکند، خواه این اطلاعات آماری، ریاضی و یا علوم کامپیوتری باشد. آنها از جدیدترین فناوریها و ابزارها برای یافتن راهحلها و رسیدن به نتایجی که برای رشد و توسعه یک سازمان مهم است استفاده میکنند. دانشمندان دادهها را به شکلی بسیار مفیدتر در مقایسه با دادههای خامی که از اشکال ساختاریافته و بدون ساختار در دسترس هستند، ارائه میکنند.
دیتا ساینس تصمیمگیریها را تسهیل بخشیده و بهرهوری و توانمندی یک مجموعه را افزایش میدهد. سازمانهایی که از این علم بهره میبرند، میتوانند در شرایط مختلف بهترین تصمیمات را براساس دادههای موجود اتخاذ کنند. بدین ترتیب این سازمانها شاهد رونق اقتصادی خود خواهند بود.
در دیتا ساینس میتوان با توجه به دادهها یک الگوی خاص را شناسایی کرد و بر اساس آن، یک قاعده خاص برای روند کسبوکار برگزید. در چنین حالتی سازمان با نتایج مثبت بیشتری روبهرو خواهد شد. برای مثال میتوانیم به یک سازمان که با ارباب رجوع در ارتباط است، اشاره کنیم. قطعا علم داده در این سازمان به جذب مخاطبان کمک کرده و حتی میتواند در استخدام نیروی موثر و مفید بسیار کارآمد باشد.
به طور کلی مزایای علم داده را میتوان در موارد زیر خلاصه کرد:
از مهمترین مزیتهای علم داده میتوان به افزایش قدرت تصمیمگیری در رابطه با مسائل مهم و اساسی مربوط به یک شرکت اشاره کرد. سازمانها یا شرکتهایی که روی علم داده سرمایهگذاری میکنند، در آیندهای بسیار نزدیک بهرهوری بالایی را مشاهده خواهند کرد. همچنین آنها میتوانند در بسیاری از موارد مثل کاهش هزینهها، پیشرفت و جذب نیروی خوب پیشرفت زیادی داشته باشند. درواقع برای موفقیت در یک کسبوکار استفاده از دیتا ساینس اهمیت زیادی دارد و در دنیای امروز نمیتوان آن را نادیده گرفت.
امروزه علم داده در بخشهای وسیعی از کسبوکارها استفاده میشود. گستردگی این علم بهقدری است که حتی دانشگاههای معتبر دنیا هرکدام به نحوی به آموزش علم داده میپردازند. زمینههای درسی متفاوتی برای این علم به کار گرفته میشود و در رابطه با محتوای دورهها یا سرفصلهای مرتبط با آن، هیچ اتفاق نظری وجود ندارد. درواقع هر موسسه و دانشگاه به سبک دلخواه خود، دوره دیتا ساینس را ارائه کرده و سعی میکند مفیدترین اطلاعات را به جویندگان این علم انتقال دهد.
از همین رو میتوان فهمید که از علم داده میتوان در زمینههای بسیاری استفاده کرد. کاربردهای دیتاساینس آنقدر وسیع است که گاهی صاحبان کسبوکارها هم از اثرگذاری و سودآوری آن در کسبوکارشان باخبر نیستند. با این وجود، کاربرد علم داده در شاخههای زیر کاملا احساس میشود:
بسیاری از صاحبان و مالکان کسبوکار هیچ سررشتهای در علم داده ندارند. از این رو یکی از وظایف متخصص علم داده ارائه راهحلهای واضح و قانع کردن آنان برای استفاده از کابردهای دیتاساینس است. در شاخه فروش علم داده میتواند به تحلیل احساس مشتری، کنترل بهینه موجودی یا انبار، بهینهسازی قیمت و غیره کمک کند.
بسیاری از هزینههای کسبوکارها به علت انتخاب اشتباه مکان کسبوکار است. دیتاساینس با مطالعه دادههای مشتریان، اطلاعات سرشماری، ساعات حضور افراد، شغل آنها و غیره مشخص میکند که کدام منطقه میتواند سود بیشتری برای کسبوکار مورد نظر به ارمغان بیاورد.
از کاربردهای دیتا ساینس در بخش رسانه میتوان به نگهداری مشتری، تبلیغات هدفمند و مخاطبمحور، تحلیل محتوای مورد استفاده در رسانه، تحلیل در لحظه یا یادگیری جریانی و غیره اشاره کرد.
از علم داده حتی میتوان در مسائل نظامی هم استفاده کرد. بهینه کردن محل برخورد موشک و تشخیص حملات سایبری مهمترین کاربرد علم داده در شاخه نظامی است.
علم داده نه تنها در موارد بالا بلکه در تولید محتوا، بررسی وقایع اجتماعی، راهاندازی کمپین انتخاباتی و تبلیغاتی، قانونگذاری خرد و کلان و همچنین پیشبینی تاثیر قوانین وضعشده در حوزههای مالی، اجتماعی و غیره کاربرد دارد. با شرکت در دوره آموزشی علم داده میتوانید در هرکدام از شاخههای مورد علاقه خود فعالیت کنید.
یکی از زبانهای برنامه نویسی مناسب برای مدیریت دادهها در علم داده زبان پایتون است. با استفاده از برنامهنویسی پایتون میتوان به راحتی و بدون صرف زمان زی،اد کدهای دستوری مفید را اجرا و اهداف دلخواه را دنبال کرد.
اگر قصد یادگیری دیتا ساینس با نرمافزار پایتون را دارید، باید بدانید که بسیاری از کشورهای پیشرفته مثل کانادا، استرالیا، آمریکا و برخی از کشورهای اروپایی، افراد توانمند در این زمینه را جذب میکنند. در صورتی که مهارتهای لازم را داشته باشید، میتوانید مهاجرتی آسان و هدفمند را تجربه کنید.
متخصصین داده یا دانشمندان داده در چنین کشورهای پیشرفتهای، ارزش شغلی بالایی داشته و افراد توانمند قطعا آینده موفقی خواهند شد. حتی در کشور خودمان هم آینده شغلی متخصصین علم داده بسیار پر رونق است. با کمک دوره علم داده میتوانید مهارتهای خود را ارتقا دهید.
دادهها در همه جا و بهصورت گسترده موجودند. اصطلاحات متنوعی در ارتباط با استخراج، تمیز کردن، تجزیهوتحلیل و تفسیر دادهها وجود دارد که اغلب به جای هم استفاده میشوند. اما هرکدام از آنها مجموعهای مهارتهای مختلف را شامل میشوند. استخدام متخصص علم داده در یکی از سه حالت زیر انجام میشود:
دیتا ساینتیستها بررسی میکنند که چه سوالاتی نیاز به پاسخ دارند و از کجا میتوان دادههای مربوط به آنها را پیدا کرد. آنها هوش تجاری دارند و از مهارتهای تجزیهوتحلیل مانند توانایی استخراج، پاکسازی و ارائه اطلاعات برخوردارند. کسبوکارها از دانشمندان داده برای تهیه، مدیریت و تجزیهوتحلیل حجم زیادی از دادههای ساختارنیافته استفاده میکنند. سپس نتایج را جهت انجام تصمیمگیریهای استراتژیک در سازمان به ذینفعان ارسال میکنند.
مهارتهای مورد نیاز در این حوزه عبارتاند از: مهارتهای برنامهنویسی شامل پایتون، R و SAS، مهارتهای آماری و ریاضی، داستانسرایی و تجسم دادهها، Hadoop، SQL و یادگیری ماشین.
تحلیلگران داده شکاف بین دانشمندان داده و تحلیلگران کسبوکار را پر میکنند. به تحلیلگران داده سوالاتی داده میشود که باید جواب آنها را از سوی یک سازمان پیدا کرده و تجزیهوتحلیل کنند. سپس نتایج را بیابند که با استراتژیها سطح بالای کسبوکار همسو باشد. تحلیلگران داده مسئولیت ترجمه تجزیهوتحلیل فنی به موارد اقدام کیفی و انتقال موثر یافتههای خود به ذینفعان را برعهده دارند.
مهارتهای مورد نیاز برای تحلیلگران داده عبارتاند از: مهارتهای برنامهنویسی شامل پایتون، R و SAS، مهارتهای آماری و ریاضی و تجسم دادهها.
مهندسهای داده مقادیر نمایی دادههایی که به سرعت در حال تغییر هستند را مدیریت میکنند. آنها بر توسعه، استقرار، مدیریت و بهینهسازی پایپلاینها و زیرساختهای داده به منظور تبدیل و انتقال دادهها به دانشمندان داده برای پرسوجو تمرکز دارند.
مهارتهای مورد نیاز برای مهندسهای داده عبارتاند از: زبانهای برنامهنویسی جاوا و Scala، پایگاههای داده (NoSQL MonogoDB CassandraDB)، فریمورکها (Apache Hadoop).
با فراگیری آموزش data science میتوانید مهارتهای فنی خود را در هر یک از سه حوزه بالا ارتقا دهید. متخصصان علوم داده که از مهارت بالایی برخوردار باشند در شرکتهای بزرگ و کوچک در سراسر جهان مخصوصا کشورهای پیشرفته میتوانند فرصتهای شغلی مناسب با حقوق رقابتی از آن خود کنند.
Glassdoor سه سال متوالی (2016، 2017، 2018) دانشمند داده را به عنوان برترین شغل در آمریکا (the #1 Best Job in America) اعلام کرد. نیاز شرکتهای بزرگ و کوچک به دانشمندان داده همینطور در حال افزایش است و روند صعودی دارد. به عنوان مثال در سال 2020 نیاز به این شغل 28 درصد افزایش داشته است.
میانگین حقوق پایه برای هر موقعیت در زیر آورده شده است:
دیتا ساینس و شغلهای مرتبط با آن به شدت در حال رشد است و روزبهروز بر نیاز شرکتها و سازمانها برای علم داده افزوده میشود. از این رو یکی از آیندهدارترین شغلهای جهان را میتوان متخصص علم داده دانست. اگر به این زمینه علاقهمندید، دوره جامع آموزش دیتا ساینس مکتب خونه را از دست ندهید. این دوره شامل سرفصلهای جامع و کاملی از علم داده است و یکی از بهترین دورههای آموزشی در زبان فارسی برای این علم بهحساب میآید.