برنامه نویسی و ITعلم داده

معرفی کامل داده کاوی

بررسی آنچه که درمورد داده کاوی وجود دارد

در طول 20 سال گذشته قابلیت های فنی انسان ها در تولید و گردآوری داده ها پیشرفت قابل توجهی داشته است. عوامل مختلفی از جمله ظهور گسترده ی دستگاه های بارکد در تجارت، رایج شدن استفاده از کامپیوتر و داده کاوی در حوزه های مختلفی از زندگی و توجه به اهمیت داده و پیشرفت در روش های جمع آوری آن، نقش به سزایی در این تحولات داشته است.

ورود کامپیوترها به دنیای مشاغل مختلف یا زندگی عادی افراد و همچنین کاربرد فراوان جهان وب در زندگی روزمره، سبب شد که حجم زیادی از داده ها تولید گردد.

پروسه-ی-داده-کاوی

وجود حجم گسترده ای از چنین داده هایی باعث شده که بشر نیازمند ابزار و تکنولوژی گردد تا بتواند به صورت هوشمند این داده ها را سامان بخشد و آنها را به نوعی به اطلاعات و دانش تبدیل کند. “Data Mining” یکی از ابزارهای در دسترس به منظور برطرف کردن این چالش است. داده کاوی فرآیندی خودکار است که برای یافتن الگو هایی که دانشی را بازنمایی می کنند، به کار گرفته می شود.

دانش “Data Mining”

دانش “Data Mining” به صورت ضمنی در Data Base های بزرگ، انبار داده ها و سایر منبع های بزرگ داده ای ذخیره گردیده است. بوسیله ی Query های ساده در زبان هایی مانند SQL یا ابزارهای گوناگون گزارش گیری، می توان اطلاعاتی جهت نتیجه گیری در مورد داده ها و روابط منطقی بین آنها کسب نمود.

اما اگر حجم این داده ها بسیار زیاد باشد، کاربران داده هرچقدر هم که با تجربه و با دانش باشند، قادر نخواهند بود که الگوهای مفیدی را در میان حجم انبوهی از داده های موجود تشخیص دهند و یا حتی اگر توانایی این کار را نیز داشته باشند، هزینه ی عملیاتی آن بسیار زیاد خواهد بود.

ویدیو پییشنهادی : آموزش پایتون جادی
آموزش پایتون جادی

از یک سوی دیگر انسان ها عموما فرضیه ای را در دست دارند و آنگاه بر اساس گزارشات به دست آمده به اثبات و یا رد فرضیه ی مورد نظر می پردازند. اما دنیای امروز نیازمند شیوه هایی است که اصطلاحا به کشف دانش منجر شود.

به این معنی که با کمترین میزان دخالت انسان به صورت کاملا خودکار الگوها و روابط منطقی بین داده ها تعیین گردد. داده کاوی از جمله ی مهم ترین این شیوه ها می باشد که با کمترین میزان دخالت کاربر الگوهایی را از میان داده ها برداشت می کند و به آنالیزگران ارائه می کند تا از آنها در پروسه ی تصمیم گیری های مهم در سازمان ها یا کسب و کارهای مختلف استفاده شود.

اهمیت علم داده کاوی

اهمیت علم داده کاوی زمانی بیشتر مطرح می شود که با حجم زیادی از داده ها (در حد MB یا TB) مواجه شویم و این موضوع در همه ی منابع مربوط به این علم مورد تاکید قرار گرفته است.

به هر میزان حجم داده ها بیشتر باشد و رابطه ی موجود میان آنها پیچیده تر، دسترسی به اطلاعات و روابط پنهان میان داده ها دشوار تر می گردد.

در این بین نقش علم ” Data Mining ” به عنوان یکی از روش های تولید دانش از داده ی خام گویا تر می گردد. داده کاوی به صورت همزمان و تلفیقی از دانش هایی که شامل تکنولوژی پایگاه داده، یادگیری ماشین، هوش مصنوعی، شبکه های عصبی، آمار، الگو، سیستم های مبتنی بر دانش، بازیابی اطلاعات، حصول دانش، بازنمایی بصری داده و محاسبات سرعت بالا است، بهره می برد.

مقاله پییشنهادی : آموزش ماشین لرنینگ با پایتون
آموزش ماشین لرنینگ با پایتون

تعریف داده کاوی

پروسه ی داده کاوی را نباید با روش های مرسوم تجزیه و تحلیل داده و اطلاعات و سیستم های تصمیم گیری معمولی برابر دانست.

اصطلاح داده کاوی که ترجمه ی عبارت “Data Mining” می باشد، به معنی استخراج اطلاعات نهفته و یا الگوها و روابط مشخص در میان حجم انبوهی از داده ها می باشد. در تعریف داده کاوی، مقصود از داده های استخراج شده داده هایی می باشد که بتوان بر مبنای آنها به دانش یا اطلاعاتی دست پیدا کرد که از طریق روش های معمولی قابل لمس نیستند.

همانطور که پیش تر نیز ذکر شد در تعریف “Data Mining” تاکید خاصی بر روی بزرگ بودن بانک های اطلاعاتی و حجم انبوه داده های مورد پردازش وجود دارد.

پروسه ی کشف دانش از پایگاه داده

علت این امر این است که از منظر تئوری اطلاعات و آمار، آنالیز داده ها یا کاوش و جست و جو در حجم کم داده های یک بانک اطلاعاتی به نتایج قابل قبولی منجر نمی گردد. بوسیله ی ابزارهای “Data Mining” می توان مقدار متغیرها را پیش بینی و توصیف نمود.

چنین ابزارهایی در فرآیند های تصمیم گیری مبتنی بر دانش و اطلاعات کاربرد فراوانی دارند و فرآیند های تجاری در دنیای امروز شدیدا به آنها متکی می باشد. پروسه ی داده کاوی را نباید با روش های مرسوم تجزیه و تحلیل داده و اطلاعات و سیستم های تصمیم گیری معمولی برابر دانست.

علم “Data Mining” زمینه ای را فراهم می کند تا بتوان به پرسش هایی که پاسخ به آنها به صورت سنتی امکان پذیر نیست، جواب داد. در مراجع علمی و آکادمیک تعاریف مختلفی برای داده کاوی آورده شده است.

مقاله پییشنهادی : آموزش علم داده (Data Science) با پایتون
آموزش علم داده (Data Science) با پایتون

تعاریف دبگر علم “Data Mining

برخی از این تعاریف آن را ابزاری معرفی کرده است که انسان را قادر به ارتباط مستقیم با حجم بزرگی از داده ها می کند و در برخی از تعاریف دقیق تر نیز از داده کاوی به عنوان شیوه ای برای کاوش در داده ها یاد می شود. در زیر به چند نمونه از تعاریف علمی ارائه شده برای این علم می پردازیم:

  •  “Data Mining” عبارت است از پروسه ی استخراج داده های دارای اعتبار، از قبل شناخته نشده، قابل فهم و قابل اعتماد از Data Base های بزرگ به منظور استفاده از آنها در پروسه ی تصمیم گیری فعالیت های تجاری دارای اهمیت.
  • اصطلاح “Data Mining” به پروسه ی نیمه خودکار تجزیه و تحلیل داده های بزرگ برای دستیابی به الگوهای مفید گفته می شود.
  • اصطلاح “Data Mining” به معنی جست و جو در پایگاه داده به منظور پیدا کردن یک سری الگوها در میان داده ها می باشد.
  • “Data Mining” به معنی فرآیند یافتن دانش در میان حجم عظیمی از داده های ذخیره شده در پایگاه داده، انبارهای داده و یا سایر منابع ذخیره سازی داده می باشد.
  •  “Data Mining” به معنی استخراج دانش کلان، مستند و جدید از پایگاه داده های بزرگ می باشد.
  • “Data Mining” به معنی تجزیه و تحلیل مجموعه ای از داده های قابل رویت جهت یافتن روابط مطمئن میان داده ها است.

علم "Data Mining"

همانطور که از تعاریف بالا درک می شود، تقریبا در تمامی آنها به مفاهیمی مانند استخراج دانش، تحلیل داده ها و یافتن الگو یا دانشی میان آنها اشاره شده است. اصطلاحات ” داده کاوی” و “کشف دانش در پایگاه داده” معمولا در معنای مشترکی به کار می روند.

کشف دانش در پایگاه داده

منظور از “کشف دانش در پایگاه داده” فرآیند شناسایی صحیح، ساده و مفید در پایگاه داده است که به الگوها و مدل های قابل فهمی منجر می شود.

در این راستا داده کاوی نیز مرحله ای از پروسهی کشف دانش می باشد که شامل یک سری الگوریتم های خاص داده کاوی است که تحت محدودیت های موثر محاسباتی ، به کشف الگوها یا مدل هایی در میان داده ها، منجر می شود.

داده ها معمولا انبوه اما فاقد ارزش می باشند. خود داده به تنهایی قابل استفاده نیست و در واقع دانش نهفتهی موجود در داده ها است که قابل استفاده می باشد. از این رو این علم، “تحلیل دادهای ثانویه” نیز اطلاق می شود.

تاریخچه داده کاوی

در داده کاوی هدف جست و جو و کشف الگوهایی در پایگاه داده ها است تا بتوان از آنها در تصمیم گیری های مهم و حیاتی استفاده نمود.

در سال های اخیر داده کاوی یکی از موضوعات مهم مقالات علمی و رساله های دانشگاهی بوده است. این در حالی است که اصطلاح “Data Mining” تا اوایل دهه ی 90 کاربردی نداشت و به کار گرفته نمی شد.

تاریخچه داده کاوی

در دهه ی 60 و پیش از آن زمینه هایی برای شکل گیری سیستم های جمع آوری و مدیریت داده صورت گرفت و تحقیقاتی در این حوزه انجام شد که موجب معرفی و ایجاد سیستم های مدیریت پایگاه داده ها گردید.

ایجاد و توسعه ی مدل های داده ای برای پایگاه داده های سلسله مراتبی، شبکه ای، به ویژه پایگاه داده ی رابطه ای موجب معرفی مفاهیمی همچون شاخص گذاری، سازمان دهی داده ها و در نهایت زبان پرسش SQL برای ایجاد گزارش ها و فرم های اطلاعاتی مورد نظر کاربر در اوایل دهه ی 80 گردید.

توسعه ی پایگاه داده های پیشرفته

توسعه ی پایگاه داده های پیشرفته در همین زمان و شکل گیری پایگاه داده های شی گرا، کاربرد گرا و فعال باعث گسترش همه جانبه ی این سیستم های پردازشی گردید.

از این رو DBMS هایی نظیر SyBase، DB2، Oracle و … ایجاد شدند و حجم زیادی از اطلاعات توسط این سیستم ها مورد پردازش قرار گرفتند. شاید بتوان ادعا کرد که مهم ترین جنبه در مبحث داده کاوی موضوع کشف دانش از پایگاه داده (KDD) باشد به گونه ای که در بسیاری از موارد می توان KDD و DM را به صورت مترادف به کار برد.

همانطور که در اوایل مطلب نیز ذکر شد در داده کاوی هدف جست و جو و کشف الگوهایی در پایگاه داده ها است تا بتوان از آنها در تصمیم گیری های مهم و حیاتی استفاده نمود.

پس می توان گفت که DM بخشی از KDD است که نهایتا منجر به ایجاد سیستم های DSS می شود. شکل زیر فرآیند کشف دانش از پایگاه داده را نشان می دهد.

توسعه ی پایگاه داده های پیشرفته

پروسه ی کشف دانش از پایگاه داده

مفهوم داده کاوی برای نخستین بار در مرکز IJCAI در حوزه ی KDD مطرح گردید. پس از آن در سال های 1991 تا 1994 کارگاه های KDD مباحث جدیدی را در این علم ارائه نمودند، به گونه ای که بسیاری از علوم و مبانی به آن مربوط شدند.
چه چیزی موجب پیدایش علم داده کاوی شد؟

به طور کلی داده کاوی را می توان نتیجه ی سیر تکاملی طبیعی فناوری اطلاعات دانست که این سیر نشات گرفته از تکامل صنعت پایگاه داده است.

اصلی ترین علت بوجود آمدن علم داده کاوی در دسترس بودن حجم وسیعی از داده ها و نیاز شدید به استخراج دانش و اطلاعات مفید از این داده ها بود. این دانش و اطلاعات کاربرد وسیعی در مدیریت کسب و کار و کنترل تولید، تحقیقات علمی، تحلیل بازار و طراحی های مهندسی دارد.

به طور کلی داده کاوی را می توان نتیجه ی سیر تکاملی طبیعی فناوری اطلاعات دانست که این سیر نشات گرفته از تکامل صنعت پایگاه داده است.

این سیر شامل فرآیندهای جمع آوری داده ها، ایجاد پایگاه داده، مدیریت داده و تحلیل و درک داده ها می باشد. تکامل فناوری پایگاه داده و کاربرد فراوان آن در حوزه های مختلف موجب جمع آوری حجم انبوهی از داده ها شده است.

پروسه ی کشف دانش از پایگاه داده

این حجم از داده ها نیازمند ابزارهای قدرتمندی برای تحلیل آنها می باشد، زیرا در دنیای کنونی از نظر داشتن داده غنی هستیم اما کمبود اطلاعات داریم.

ابزارهای “Data Mining”

ابزارهای “Data Mining” داده ها را مورد تجزیه و تحلیل قرار می دهند و الگوهایی را کشف می کنند که می توان از آنها در زمینه های: تعیین استراتژی های تجاری، پایگاه دانش، تحقیقات پزشکی و … استفاده نمود. در واقع شکاف میان داده و اطلاعات موجب بوجود آمدن نیاز به ابزارهای داده کاوی برای تبدیل داده ی بی ارزش به دانش دارای ارزش شده است.

ویدیو پییشنهادی : آموزش برنامه نویسی پایتون
آموزش برنامه نویسی پایتون

در واقع داده کاوی نوعی استخراج یا معدن کاری دانش از میان حجم انبوهی از داده ها است. البته این نام گذاری خالی از ایراد و اشکال نیست زیرا به عنوان مثال در پروسه ی استخراج طلا از میان حجم انبوهی از ماسه و سنگ را طلا کاوی می نامیم نه ماسه کاوی یا سنگ کاوی.

استخراج دانش از داده

بنابراین شاید نسبت دادن عناوین دیگری به این اصطلاح مانند “استخراج دانش از داده” معنای دقیق تری را ارائه می نمود که البته این عبارت نیز طولانی است و ایرادهایی دارد. عبارت های دیگری مانند “دانش کاوی” نیز نمی تواند بیانگر تاکید و اهمیت استخراج دانش از میان داده ها باشند.

استخراج دانش از داده

واژه هایی مانند معدن کاری خیلی سریع انسان را به یاد پروسه ی یافتن مجموعه ی کوچکی از اشیای ارزشمند خام در حجم زیاد می اندازد. به هر حال با وجود نواقصی که در نام گذاری این اصطلاح وجود دارد با این حال ترجمه ی ” داده کاوی ” بسیار عمومیت یافته است.

در کنار این نام گذاری، از نام های دیگری مانند:

  1. استخراج دانش از پایگاه داده
  2. آنالیز داده
  3. استخراج دانش
  4. آنالیز الگو
  5. باستان شناسی داده و لایروبی داده نیز گاهی استفاده می شود.

مولفه های سیستم داده کاوی

داده کاوی عبارت است از فرآیندی شامل یافتن دانش از حجم زیادی از داده های ذخیره شده در پایگاه یا انبارهای داده.

با توجه به آنچه که تا الان بحث شد، داده کاوی عبارت است از فرآیندی شامل یافتن دانش از حجم زیادی از داده های ذخیره شده در پایگاه یا انبارهای داده. بر اساس این دیدگاه چنین سیستمی باید دارای اجزای زیر باشد:پ

مولفه های سیستم داده کاوی

پایگاه داده یا انبار داده و یا سایر مخازن اطلاعاتی

مجموعه ای پایگاه داده ها، صفحات گسترده و یا مخازن اطلاعاتی دیگر می باشد.

سرویس دهنده ی پایگاه داده یا انبار داده

این بخش مسئول ریکاوری داده های مربوطه بر مبنای نوع درخواست داده شده، می باشد.

پایگاه دانش

این قسمت از پایگاه دانش زمینه، ایجاد شده است تا به جست و جو یا ارزیابی الگوهای پیدا شده کمک کند.

ویدیو پییشنهادی : آموزش رایگان داده کاوی
آموزش رایگان داده کاوی

موتور داده کاوی

این بخش یکی از مهم ترین مولفه های سیستم داده کاوی می باشد و شامل مجموعه ای از ویژگی ها مانند توصیف، ارتباط، کلاس بندی، آنالیز خوشه ها و آنالیز تکامل و انحراف می باشد.

ماژول ارزیابی الگو

این مولفه از طریق معیارهای جذابیت با ماژول داده کاوی تعامل برقرار می کند. به این معنی که تمرکز اصلی آن بر روی جست و جو در میان الگو های جذاب می باشد و از میزانی از آستانه ی جذابیت استفاده می کند تا الگوهای یافت شده را ارزیابی نماید.

واسط کاربر گرافیکی

این ماژول در بین سیستم داده کاوی و کاربر قرار گرفته است و بین آنها ایجاد ارتباط می کند. واسط کاربری به کاربر این امکان را می دهد تا با سیستم از طریق پرس و جو ارتباط برقرار کند و پایگاه داده یا انبار اطلاعاتی را ارزیابی نموده و الگوهای پیدا شده را در فرم های بصری بازنمایی کند.

واسط کاربر گرافیکی

با انجام پروسه های داده کاوی، دانش یا اطلاعات سطح بالا از پایگاه داده استخراج می شود و از منظر دیدگاه های مختلف قابل بررسی خواهد بود. این دانش در سیستم های تصمیم یار، کنترل فرآیند و مدیریت اطلاعات قابل استفاده خواهند بود.

داده کاوی چه کاربردهایی در صنعت دارد؟

از جمله مثال هایی که می توان درمورد مبحث داده کاوی زد، قالب فروشگاه های زنجیره ای می باشد که در آنها تلاش بر این است که ارتباط محصولات مختلف هنگام خرید توسط مشتریان، تعیین شود. یکی از اطلاعاتی که فروشگاه های زنجیره ای مشتاقند که بدانند این است که چه محصولاتی با هم به فروش می رسند.

تحت یک عملیات داده کاوی گسترده ای که در آمریکای شمالی بر روی داده های مربوط به فروش صورت گرفته، مشخص شده مردانی که برای خرید قنداق بچه به مراکز مختلف رجوع می کنند، معمولا آب جو نیز می خرند یا مشتریانی که اقدام به خرید تلویزیون می نمایند معمولا گلدان کریستالی نیز تهییه می کنند.

در یک شرکت بزرگ تولید کننده ی پوشاک و لباس در اروپا، نتایج داده کاوی نشان می دهد که معمولا افرادی که کراوات های ابریشمی خریداری می کنند، گیره ی کراوات مشکی نیز خریداری می نمایند.

مثال دیگر مربوط به فروش

در یک کمپانی بزرگ دوبله و انتشار فیلم در آمریکای شمالی است که نتایج پروسه ی Data Mining ارتباط بین مشتریان و هنرپیشه ی فیلم ها و همچنین گروه های مختلف از مشتریان با ژانر فیلم مورد علاقه شان را مشخص کرده است.

از این رو این شرکت توانست به صورت کاملا هوشمند مشتریان هر سبک از فیلم های سینمایی را بر اساس بازیگران یا ژانر فیلم ها شناسایی نماید.

نتایج پروسه ی Data Mining

یکی دیگر از زمینه هایی که داده کاوی در آن نقش داشته است، در مراکز درمانی و کمپانی های داروسازی برای کشف الگوها و مدل های ناشناخته ی عوارض داروها بر بیماران با گروه های سنی مختلف و بیماری های متنوع بوده است.

داده کاوی در زمینه های مختلف دیگری همچون حوزه های مالی و بانکداری نیز کاربرد دارد و قادر است مشتریان پر ریسک و سودجو را براساس مولفه هایی نظیر سن، درآمد، وضعیت سکونت، شغل، تحصیلات و … شناسایی کند.

تفاوت داده کاوی و آنالیز آماری

پروسه ی داده کاوی چیزی متفاوت از آنالیزهای آماری می باشد در زیر به بخشی از این تفاوت ها اشاره شده است:

آنالیز آماری

  1. متخصصان آمار همواره با یک فرضیه شروع به فعالیت می کنند.
  2. آنها با داده های عددی سر و کار دارند.
  3. متخصصان آماری باید روابطی را ایجاد کنند که به فرضیه ی آنها مربوط است.
  4. آنها قادر هستند که داده های نا به جا و ناصحیح را در طول تجزیه و تحلیل مشخص کنند.
  5. آنها قادر هستند که نتایج کار خود را تفسیر و به مدیران گزارش دهند.

آنالیز آماری

داده کاوی

  1. داده کاوی بر خلاف آنالیز آماری، نیازی به طرح فرضیه ندارد.
  2. الگوریتم های علم داده کاوی به صورت اتوماتیک روابطی را ایجاد می کنند.
  3. پروسه ی داده کاوی نیازمند داده های صحیح و درست می باشد.
  4. نتایج حاصل شده از پروسه ی داده کاوی نسبتا پیچیده هستند و باید توسط متخصصین تفسیر شوند.

در اینجا برای روشن تر شدن تفاوت های این دو مبحث، به ذکر یک مثال در مورد شناخت کلاه برداری شرکت بیمه می پردازیم:

روش آنالیز آماری

تفسیر کننده ی سیستم ممکن است متوجه مدلی شود که باعث کلاه برداری بیمه می شود. طبق این فرضیه مفسر به طرح چندین پرسش می پردازد تا موضوع را مورد بررسی قرار دهد. اگر نتایج به دست آمده قابل قبول نبود، مفسر فرضیه را اصلاح می کند و یا یک فرضیه ی جدید مطرح می کند.

این روش علاوه بر اینکه وقت گیر است تا حدود زیادی به قدرت تجزیه و تحلیل تفسیر کنند ی سیستم مورد نظر بستگی دارد. همچنین این روش هیچگاه مدل های کلاه برداری دیگری که تفسیر کننده به آنها شک ندارد و در فرضیه اش آنها را لحاظ نکرده، پیدا نمی کند.

روش آنالیز آماری

در روش داده کاوی تفسیر کننده سیستم های مربوط به داده کاوی را ایجاد نموده و پس از گرد آوری داده ها و یکپارچه نمودن آنها عملیات داده کاوی را آغاز می کند. پروسه ی داده کاوی همه ی الگوهای غیر نرمالی که از حالت عادی خارج شده اند و ممکن است باعث کلاه برداری شوند را می یابد.

نتایج حاصل شده از داده کاوی همه ی حالت های گوناگونی که یک تفسیرگر باید در گام های بعدی درموردشان تحقیق کند را نشان می دهد. نهایتا مدل های کسب شده می توانند مشتریانی را که ممکن است اقدام به کلاه برداری نمایند، را پیش بینی کند.

سعید هابطی

چند سالی میشه که در زمینه سئو و دیجیتال مارکتینگ در حال فعالیت هستم. به موسیقی و فلسفه علاقه ی خاصی دارم و بیشتر زمان رو صرف مطالعه و نوازندگی می کنم.

نوشته های مشابه

یک دیدگاه

  1. خیلی ممنون بابت توضیحات کاملتون
    چون می خواهم مطالب را در پایان نامه استفاده کنم ممنون میشم رفرنس مطالبی را که گذاشتید رو بهمون بگید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا