امروزه دنیای اینترنت موجب به وجود آمدن حجم بسیار بالایی از دادهها شده است که ما آن را بهعنوان کلان داده (big data) میشناسیم. این کلان دادهها نقش به سزایی در پیشروی صنایع مختلف دارند. ... ادامه
رحیم داستار
+ 1 مدرس دیگر
امروزه دنیای اینترنت موجب به وجود آمدن حجم بسیار بالایی از دادهها شده است که ما آن را بهعنوان کلان داده (big data) میشناسیم. این کلان دادهها نقش به سزایی در پیشروی صنایع مختلف دارند. دوره آموزش big data مکتب خونه با هدف آشنایی کاربران با این فنّاوری ارائه شده است و از اهمیت بسیار بالایی برخوردار است.
در این دوره آموزش big data دانشجویان قرار است نحوه کار با دادههای حجیم را بیاموزند و با تکنیکها و آموزشهای لازم وارد بازار کار شوند.
دوره آموزش big data مکتب خونه به هدف آموزش فنّاوری کلان داده و آشنایی کاربران با ابزارهای مهم آن توسط محمدصادق دهقان تهیه و تدوین شده است. در این دوره آموزشی که در پنج ساعت محتوای ویدیویی ارائه خواهد شد، دانشجویان با جزئیات مهمی از big data و نحوه استفاده از آنها با ابزارهایی مانند آپاچی هادوپ و آپاچی اسپارک آشنا خواهند شد.
هدف این دوره آموزش مبانی Big Data و آشنایی مقدماتی با ابزارهای این حوزه هست. این ویدیوها بخشی از ارائههای دوره کارآموزی نیمبو هست که توسط شرکت سحاب پرداز برگزار شده و سرفصلهای دوره شامل مباحث زیر است:
دوره آموزش کلان داده مکتب خونه برای تمامی افرادی که به حوزه هوش مصنوعی، یادگیری ماشین و کلان داده علاقهمند هستند توصیه میشود. با یادگیری مباحث کلان داده دانش کاربران از حوزههای مذکور بسیار بالا میرود و فرصت ورود به بازار برای آنها فراهم میشود. اگر به فکر یادگیری مفاهیم کلان داده هستید این دوره آنلاین دادههای حجیم را از دست ندهید.
این یک دوره آموزشی از صفرتا صد بیگ دیتا نیست و شما در این دوره big data کار با ابزارهای مختلفی را یاد خواهید گرفت. از همین رو این دوره یک سری پیشنیاز دارد که بهتر است کاربر از قبل با آنها آشنا باشد.
برای یادگیری مفاهیم بالا میتوانید از دورههای آموزش زبان برنامهنویسی پایتون مکتب خونه و دورههای مربوطه به sql server بهره ببرید.
کلان داده (big data) به مجموعه دادههای عظیم و پیچیده (اعم از ساختاریافته، نیمه ساختاریافته یا بدون ساختار) در علم داده اشاره دارد که بهسرعت از منابع مختلف تولید و منتقل میشوند.
کلان دادهها را میتوان در قالب چالشهای مدیریت داده توصیف کرد که به دلیل افزایش حجم، سرعت و تنوع دادهها با پایگاههای داده سنتی قابلحل نیستند. در حالی که تعاریف زیادی برای کلان داده وجود دارد، اما کلان داده با سه مفهوم زیر از دادههای دیگر خودش را متمایز میکند.
اگرچه کار روی دادههای بزرگ میتواند طاقتفرسا باشد اما این مقدار داده انبوهی از اطلاعات را در اختیار متخصصان قرار میدهد تا از آنها به نفع خود استفاده کنند. مجموعههای کلان داده را میتوان برای استنباط الگوهایی در مورد منابع اصلی آنها استخراج کرد و بینشی برای بهبود کارایی کسبوکار یا پیشبینی نتایج آینده کسبوکار ایجاد کرد.
برخی از زمینههای قابلتوجهی که دادههای بزرگ مزایایی را ارائه میدهند عبارتاند از:
در دوره آموزش big data ما با مزایای این نوع دادهها در عمل آشنا خواهیم شد و خواهیم توانست از آنها به نفع خود استفاده کنیم.
تجزیهوتحلیل دادههای بزرگ به جمعآوری، پردازش، تمیز کردن و تجزیهوتحلیل مجموعه دادههای بزرگ برای کمک به سازمانها برای عملیاتی کردن کلان دادههای خود اشاره دارد. در دوره آموزش big data نحوه کار کلان دادهها بهصورت عملی توضیح داده میشود اما در اینجا بهصورت مختصر این فرایند را توضیح میدهیم.
جمعآوری دادهها برای هر سازمانی متفاوت به نظر میرسد. با فناوری امروزی، سازمانها میتوانند دادههای ساختاریافته و بدون ساختار را از منابع مختلف جمعآوری کنند. از ذخیرهسازی ابری گرفته تا برنامههای کاربردی تلفن همراه گرفته تا حسگرهای اینترنت اشیا در فروشگاه و سایر موارد دیگری که با دیتا سروکار دارند.
هنگامیکه دادهها جمعآوری و ذخیره میشوند، باید بهدرستی سازماندهی شوند تا نتایج دقیقی در پرسوجوهای تحلیلی به دست آید، بهخصوص زمانی که داده بزرگ و بدون ساختار باشد. از آنجاکه دادههای موجود بهطور تصاعدی در حال رشد است و پردازش دادهها را به چالشی برای سازمانها تبدیل میکند نوع پردازش فرق خواهد کرد. یکی از گزینههای پردازش، پردازش دستهای است که در طول زمان به بلوکهای بزرگ داده نگاه میکند و معمولاً توسط سیستمهای توزیع شده انجام میشود.
پردازش دستهای زمانی مفید است که بین جمعآوری و تجزیهوتحلیل دادهها زمان بیشتری وجود داشته باشد. پردازش دیگر در کلان داده، از نوع جریانی است. پردازش جریانی به یکباره به دستههای کوچکی از دادهها نگاه کرده و زمان تاخیر بین جمعآوری و تجزیهوتحلیل را برای تصمیمگیری سریعتر کوتاه میکند. پردازش جریانی پیچیدهتر و اغلب گرانتر است.
دادههای بزرگ یا کوچک برای بهبود کیفیت دادهها و گرفتن نتایج قویتر نیاز به تمیز کردن دارند. همه دادهها باید بهدرستی قالببندی شوند و هر گونه داده تکراری یا نامربوط باید حذف یا حساب شود. دادههای پرت میتوانند مبهم و گمراه کننده باشند و بینشهای ناقصی ایجاد کنند.
تبدیل کلان داده به حالت قابلاستفاده زمانبر است. پس از آماده شدن، فرآیندهای تجزیهوتحلیل پیشرفته میتوانند دادههای بزرگ را به بینشهای بزرگ تبدیل کنند. برخی از این روشهای تجزیهوتحلیل کلان داده عبارتاند از:
تنوع دادههای بزرگ آن را ذاتاً پیچیده میکند و در نتیجه نیاز به دستگاههایی است که قادر به پردازش تفاوتهای ساختاری و معنایی مختلف آن هستند. دادههای بزرگ به پایگاه دادههای تخصصی NoSQL نیاز دارند که میتوانند دادهها را بهگونهای ذخیره کنند که نیازی به پیروی دقیق از یک مدل خاص نداشته باشد. این انعطافپذیری لازم را برای تجزیهوتحلیل منسجم منابع اطلاعاتی بهظاهر متفاوت فراهم میکند تا دیدی جامع از آنچه اتفاق میافتد، نحوه عمل و زمان عمل به دست آورید.
هنگام جمعآوری، پردازش و تجزیهوتحلیل کلان دادهها، اغلب بهعنوان دادههای عملیاتی یا تحلیلی طبقهبندی میشوند و بر این اساس ذخیره میشوند. سیستمهای عملیاتی دستههای بزرگی از دادهها را در چندین سرور ارائه میکنند و شامل ورودیهایی مانند موجودی، دادههای مشتری و خرید میشوند.
سیستمهای تحلیلی پیچیدهتر از همتایان عملیاتی خود هستند و میتوانند تجزیهوتحلیل دادههای پیچیده را مدیریت کرده و بینش تصمیمگیری را برای کسبوکارها فراهم کنند. این سیستمها اغلب در فرآیندها و زیرساختهای موجود برای به حداکثر رساندن جمعآوری و استفاده از دادهها ادغام میشوند.
صرفنظر از اینکه داده چگونه طبقهبندی میشود، دادهها همهجا هستند. تلفنها، کارتهای اعتباری، برنامههای کاربردی نرمافزاری، وسایل نقلیه، سوابق، وبسایتها و غیره در دنیای ما قادر به انتقال حجم وسیعی از دادهها هستند و این اطلاعات فوقالعاده ارزشمند است.
تجزیهوتحلیل دادههای بزرگ تقریباً در هر صنعتی برای شناسایی الگوها و روندها، پاسخ به سؤالات، به دست آوردن بینش در مورد مشتریان و مقابله با مشکلات پیچیده استفاده میشود. شرکتها و سازمانها از اطلاعات به دلایل متعددی مانند رشد کسبوکار خود، درک تصمیمات مشتری، افزایش تحقیقات، انجام پیشبینیها و هدف قرار دادن مخاطبان کلیدی برای تبلیغات استفاده میکنند. در دوره آموزش big data نحوه استفاده از این فنآوری در قالب مثالهای متعدد موردبررسی قرار خواهد گرفت.
در اینجا چند نمونه از صنایعی که انقلاب کلان داده در حال حاضر در حال انجام است آورده شده است:
صنایع مالی و بیمه از دادههای بزرگ و تجزیهوتحلیل پیشبینیکننده برای کشف تقلب، ارزیابی ریسک، رتبهبندی اعتبار، خدمات کارگزاری و غیره استفاده میکنند. مؤسسات مالی همچنین از دادههای بزرگ برای تقویت تلاشهای امنیت سایبری خود و شخصیسازی تصمیمات مالی برای مشتریان استفاده میکنند.
بیمارستانها، محققان و شرکتهای داروسازی راهحلهای کلان داده را برای بهبود و پیشرفت مراقبتهای بهداشتی اتخاذ میکنند. با دسترسی به حجم وسیعی از دادههای بیماران و جمعیت، مراقبتهای بهداشتی درمانها را بهبود میبخشد، تحقیقات مؤثرتری در مورد بیماریهایی مانند سرطان و آلزایمر انجام میدهد، داروهای جدید تولید میکند و بینشهای مهمی در مورد الگوهای سلامت جمعیت به دست میآورد.
اگر تا به حال از Netflix ،Hulu یا هر سرویس پخش ویدیوی دیگری استفاده کردهاید که توصیههایی را ارائه میدهد، شما با کاربرد کلان داده سر سرگرمی روبهرو بودهاید.
شرکتهای رسانهای، عادتهای خواندن، تماشا و گوش دادن کاربران را تجزیهوتحلیل میکنند تا تجربیات فردی ایجاد کنند. نتفلیکس حتی از مجموعه دادههای گرافیکی، عناوین و رنگها برای تصمیمگیری در مورد ترجیحات مشتری استفاده میکند.
از بذرهای مهندسی گرفته تا پیشبینی عملکرد محصول با دقت شگفتانگیز، دادههای بزرگ و اتوماسیون بهسرعت صنعت کشاورزی را بهبود میبخشد. با هجوم دادهها در دو دهه اخیر، اطلاعات در بسیاری از کشورها بیشتر از مواد غذایی است و محققان و دانشمندان را به استفاده از دادههای بزرگ برای مقابله با گرسنگی و سوءتغذیه سوق داده است.
همراه با حوزههای بالا، تجزیهوتحلیل دادههای بزرگ تقریباً در هر صنعتی بهصورت گسترده استفاده میشود تا نحوه عملکرد کسبوکارها در مقیاس مدرن را تغییر دهد. همچنین میتوانید کاربرد دادههای بزرگ را در زمینههای تبلیغات و بازاریابی، تجارت، تجارت الکترونیک و خردهفروشی، آموزش، فناوری اینترنت اشیا، سیستمهای کنترلی، ورزش و سایر موارد پیدا کنید.
درک کلان داده به معنای انجام برخی تحلیلهای سنگین بوده و اینجا جایی است که ابزارهای کلان داده وارد میشوند. ابزارهای کلان داده میتوانند بر مجموعههای کلان داده نظارت کنند و الگوها را در مقیاس توزیعشده و در زمان واقعی شناسایی کرده و در زمان، پول و صرفهجویی زیادی صرفهجویی کنند. در دوره آموزش big data مکتب خونه ما با مهمترین این ابزارهای big data آشنا خواهیم شد و نحوه کار با آنها را خواهیم آموخت.
در اینجا تعداد انگشتشماری از ابزارهای کلان داده محبوب آورده شده است که امروزه در صنایع مورداستفاده قرار میگیرند.
کتابخانه نرمافزار Apache Hadoop، یک چارچوب پرکاربرد منبع باز دادههای بزرگ، امکان پردازش توزیعشده مجموعههای داده بزرگ را در عملیاتهای تحقیقاتی و تولیدی فراهم میکند و از شیوه توابع map reduce بهره میبرد. Apache Hadoop برای استفاده در هزاران سرور محاسباتی مقیاسپذیر است و از معماریهای Advanced RISC Machine (ARM) و زمان اجرا جاوا 11 پشتیبانی میکند. در دوره آموزش big data کار با این ابزار و نحوه استفاده از آن پوشش دادهشده است.
آپاچی Spark یک موتور تجزیهوتحلیل منبع باز است که برای پردازش مجموعه دادههای مقیاس بزرگ در ماشینها یا خوشههای تک گره استفاده میشود. این نرمافزار پردازش مقیاسپذیر و یکپارچه را ارائه میدهد که قادر به اجرای مهندسی داده، علم داده و عملیات یادگیری ماشین در جاوا، پایتون، R، اسکالا یا sql server است. در دوره آموزش big data نحوه کار با آپاچی اسپارک بهعنوان یک ابزار مهم کلان داده آموزش داده خواهد شد.
سیستم محاسباتی منبع باز Apache Storm که قادر به پردازش بیش از یک میلیون تاپل در ثانیه در هر گره است، در پردازش دادههای توزیع شده و بدون ساختار در زمان واقعی تخصص دارد. Apache Storm قادر به ادغام با فنآوریهای از پیش موجود صفبندی و پایگاه داده است و همچنین میتواند با هر زبان برنامهنویسی استفاده شود.
مجموعه MongoDB Atlas با طرحی انعطافپذیر و مقیاسپذیر، بانکهای اطلاعاتی چند ابری را فراهم میکند که میتواند مقادیر زیادی از دادههای توزیعشده را ذخیره، پرسوجو و تجزیهوتحلیل کند. این نرمافزار توزیع دادهها را در AWS، Azure و Google Cloud و همچنین رمزگذاری دادهها با مدیریت کامل، تجزیهوتحلیل پیشرفته و دریاچههای داده را ارائه میدهد.
آپاچی کاساندرا یک پایگاه داده منبع باز است که برای مدیریت دادههای توزیع شده در چندین مرکز داده و محیطهای ابری ترکیبی طراحیشده است. Apache Cassandra مقاوم در برابر خطا و مقیاسپذیر، قابلیتهای پارتیشنبندی، تکرار و تنظیم سازگاری را برای مجموعه دادههای ساختاریافته یا بدون ساختار در مقیاس بزرگ فراهم میکند.
اگر به فکر یادگیری مفاهیم کلان داده یا بیگ دیتا هستید و دوست دارید در این صنعت بهروز باشید و بهروز بمانید، هماکنون با ثبتنام در دوره آموزش بیگ دیتا اولین و مهمترین قدم خود را در این زمینه بردارید.
اطلاعات بیشتر
مدرس: جمعی از اساتید
دانشگاه صنعتی شیراز
مدرس: رسول اسماعیلیفرد
مدرس: جادی میرمیرانی
مدرس: جادی میرمیرانی
اطلاعات بیشتر
اطلاعات بیشتر