اکسل

تابع outlier و تشخیص داده‌های پرت در اکسل

تابع outlier و تشخیص داده‌های پرت در اکسل

هنگام کار با داده‌ها در اکسل، اغلب مشکلات مربوط به مدیریت اطلاعات پرت در مجموعه داده‌های خود را خواهید داشت. داشتن مقادیر پرت در انواع داده‌ها کاملاً رایج بوده و مهم است که این موارد پرت را شناسایی و از بین ببرید. به این ترتیب می‌توانید مطمئن شوید که تحلیل شما درست و معنادار است.

در این آموزش از مجله علمی آموزشی مکتب خونه، می‌خواهیم نحوه تشخیص داد های پرت در اکسل را همراه با برخی از تکنیک‌هایی که برای رسیدگی به این موارد پرت کاربرد دارند را به شما نشان دهیم. پس تا انتها همراه ما باشید.

ویدئو پیشنهادی :  آفیس
آفیس

 

تابع Outliers در اکسل چیست و چرا یافتن نقاط پرت مهم است؟

نقطه پرت یک نقطه داده است که بسیار فراتر از سایر نقاط داده در مجموعه است. هنگامی که شما یک داده پرت دارید، آن می‌تواند داده‌های شما را منحرف کند و موجب استنتاج‌های نادرست شود. بگذارید یک مثال ساده برای شما بزنیم.

فرض کنید 30 نفر با اتوبوس از مقصد A به مقصد B سفر می‌کنند. همه افراد در یک گروه وزنی و گروه درآمدی مشابه هستند. برای هدف این آموزش، متوسط وزن را 220 پوند و متوسط درآمد سالانه را 70000 دلار در نظر می‌گیریم.

حالا اگر جایی در وسط مسیر ما، اتوبوس بایستد و بیل گیتس وارد شود، فکر می‌کنید میانگین وزن و متوسط درآمد افراد داخل اتوبوس چه می‌شود؟

درست است، میانگین وزن احتمالاً تغییر زیادی نخواهد کرد اما متوسط درآمد افراد در اتوبوس به شدت افزایش خواهد یافت. این به این دلیل است که درآمد بیل گیتس در گروه ما پرت است و این به ما تفسیر اشتباهی از داده‌ها می‌دهد. درآمد متوسط برای هر نفر در اتوبوس چند میلیارد دلار خواهد بود که بسیار فراتر از ارزش واقعی است.

هنگام کار با مجموعه داده‌های واقعی در اکسل، می‌توانید مقادیر پرت را در هر جهتی داشته باشید (به عنوان مثال، نقطه پرت مثبت یا منفی). برای اطمینان از اینکه تحلیل شما درست است، باید به نحوی این موارد پرت را شناسایی کرده و سپس تصمیم بگیرید که چگونه به بهترین شکل با آن‌ها رفتار کنید. حالا بیایید چند راه برای پیدا کردن نقاط پرت در اکسل را با هم یاد بگیریم.

ویدئو پیشنهادی : آموزش اکسل
آموزش اکسل

 

 با مرتب سازی داده‌ها، موارد پرت را پیدا کنید!

با مجموعه داده‌های کوچک، یک راه سریع برای شناسایی موارد پرت این است که به سادگی داده‌ها را مرتب کنید و به صورت دستی برخی از مقادیر نامرتبط در این داده‌های مرتب شده را مرور کنید. از آنجایی که ممکن است در هر دو جهت مثبت و منفی، نقاط پرت وجود داشته باشد، مطمئن شوید که ابتدا داده‌ها را به ترتیب صعودی و سپس به ترتیب نزولی مرتب کرده‌اید و سپس عملیات یافتن نقاط پرت را انجام دهید.

بگذارید این کار را با یک مثال به شما نشان دهیم. در زیر مجموعه داده‌ای داریم که در آن مدت زمان تماس (بر حسب ثانیه) برای 15 تماس خدمات مشتری وجود دارد.

با مرتب سازی داده‌ها، موارد پرت را پیدا کنید

در زیر مراحل مرتب‌سازی این داده‌ها وجود دارد تا بتوانیم مقادیر پرت را در مجموعه داده شناسایی کنیم:

  • از سربرگ ستونی را که می‌خواهید مرتب کنید انتخاب کنید.
  • روی تب Home کلیک کنید.

2. روی تب Home کلیک کنید.

  • در گروه Editing بر روی آیکون Sort & Filter کلیک کنید.

3. در گروه Editing بر روی آیکون Sort & Filter کلیک کنید.

  • سپس بر روی Custom Sort کلیک کنید.

سپس بر روی Custom Sort کلیک کنید.

  • در کادر محاوره‌ای مرتب‌سازی، «مدت» را در فهرست کشویی مرتب‌سازی بر اساس  «بزرگ‌ترین به کوچک‌ترین» را در فهرست کشویی ترتیب انتخاب کنید.

 

  • در آخر بر روی دکمه Ok را کلیک کنید

مراحل بالا ستون مدت تماس را با بالاترین مقادیر در بالا مرتب می‌کند. اکنون می‌توانید داده‌ها را به صورت دستی اسکن کنید و ببینید که آیا موارد پرت وجود دارند یا خیر.

در این مثال ما، می‌توانم ببینم که دو مقدار اول بسیار بالاتر از بقیه مقادیر هستند (و دو مقدار پایین نیز بسیار پایین‌تر هستند).

توجه: این روش با مجموعه داده‌های کوچکی کار می‌کند که می‌توانید داده‌ها را به صورت دستی اسکن کنید. بنابراین این یک روش خوب برای مجموعه‌های بزرگ با داده‌های کلان نیست.

یافتن نقاط پرت با استفاده از توابع ربع

اکنون بیایید در مورد راه حل علمی‌تری صحبت کنیم که می‌تواند به شما کمک کند تا تشخیص دهید که آیا موارد پرت وجود دارند یا خیر. در آمار، یک چارک یک چهارم مجموعه داده است. به عنوان مثال، اگر 12 نقطه داده دارید، چارک اول سه نقطه داده پایینی، چارک دوم سه نقطه داده بعدی و غیره خواهد بود. در زیر، مجموعه داده‌ای است که می‌خواهیم مقادیر پرت آن را پیدا کنیم. برای انجام این کار، ما باید چارک 1 و 3 را محاسبه کنیم و سپس با استفاده از آن حد بالا و پایین را محاسبه نماییم.

یافتن نقاط پرت با استفاده از توابع ربع

در زیر فرمول محاسبه ربع اول در سلول E2 آمده است:

=QUARTILE.INC($B$2:$B$15,1)

مرتب سازی داده‌های پرت در اکسل

و در اینجا فرمولی برای محاسبه ربع سوم در سلول E3 است:

=QUARTILE.INC($B$2:$B$15,3)

مرتب سازی داده‌های پرت در اکسل

اکنون، می‌توانیم از دو محاسبه بالا برای بدست آوردن محدوده بین ربعی (که 50 درصد داده‌های ما در چارک اول و سوم است) استفاده کنیم.

=F3-F2

مرتب سازی داده‌های پرت در اکسل

اکنون از محدوده بین ربع برای یافتن حد پایین و بالایی که بیشتر داده‌های ما را شامل می‌شود، استفاده می‌کنیم. آنگاه هر چیزی که خارج از این حد پایین و بالایی باشد، پرت در نظر گرفته می‌شود. در زیر فرمول محاسبه حد پایین آمده است:

=Quartile1 – 1.5*(Inter Quartile Range)

که در مثال ما می‌شود:

=F2-1.5*F4

مرتب سازی داده‌های پرت در اکسل

و فرمول محاسبه حد بالا به صورت زیر است:

=Quartile3 + 1.5*(Inter Quartile Range)

که در مثال ما می‌شود:

=F3+1.5*F4

مرتب سازی داده‌های پرت در اکسل

اکنون که حد بالا و پایین را در مجموعه داده‌های خود داریم، می‌توانیم به داده‌های اصلی برگردیم و به سرعت مقادیری را که در این محدوده قرار ندارند شناسایی کنیم.

یک راه سریع برای انجام این کار این است که هر مقدار را بررسی کنید و یک TRUE یا FALSE را در یک ستون جدید برگردانید.

ما از فرمول OR زیر برای بدست آوردن TRUE در مقادیری که پرت هستند استفاده کرده‌ایم.

=OR(B2<$F$5,B2>$F$6)

مرتب سازی داده‌های پرت در اکسل

اکنون می‌توانید ستون Outlier را فیلتر کنید و فقط رکوردهایی را نشان دهید که مقدار آن TRUE است. همچنین، می‌توانید از قالب بندی شرطی برای برجسته کردن تمام سلول‌هایی که مقدار آن TRUE است استفاده کنید.

توجه: در حالی که این روش پذیرفته شده تری برای یافتن مقادیر پرت در آمار است، اما به نظر ما این روش را در سناریوهای واقعی کمی غیر قابل استفاده می دانیم. در مثال بالا، حد پایین محاسبه شده با فرمول 103- است، در حالی که مجموعه داده‌ای که داریم فقط می‌تواند مثبت باشد. بنابراین این روش می‌تواند به ما کمک کند که نقاط پرت را در یک جهت (مقادیر بالا) پیدا کنیم و در شناسایی نقاط پرت در جهت دیگر بی فایده است.

 

یافتن نقاط پرت با استفاده از توابع LARGE/SMALL

اگر با داده‌های زیادی کار می‌کنید (مقادیر در چندین ستون)، می‌توانید بزرگترین و کوچک‌ترین 5 یا 7 مقدار را استخراج کنید و ببینید که آیا مقادیر پرت در آن وجود دارد یا خیر. اگر موارد پرت وجود داشته باشد، می‌توانید بدون نیاز به مرور همه داده‌ها در هر دو جهت، آن‌ها را شناسایی کنید.

فرض کنید مجموعه داده زیر را داریم و می‌خواهیم بدانیم که آیا موارد پرت در آن وجود دارد یا خیر.

یافتن نقاط پرت با استفاده از توابع LARGE-SMALL

در زیر فرمولی است که بیشترین مقدار را در مجموعه داده به شما می‌دهد:

=بزرگ ($B$2:$B$16,1)

به طور مشابه، دومین مقدار بزرگ توسط داده می‌شود.

=بزرگ ($B$2:$B$16,1)

اگر از مایکروسافت 365 که دارای آرایه‌های پویا است استفاده نمی‌کنید، می‌توانید از فرمول زیر استفاده کنید و پنج مقدار بزرگ از مجموعه داده را با یک فرمول واحد به شما می‌دهد:

=بزرگ ($B$2:$B$16,ROW($1:5))

مرتب سازی داده‌های پرت در اکسل

به طور مشابه، اگر کوچکترین 5 مقدار را می‌خواهید، از فرمول زیر استفاده کنید:

=کوچک ($B$2:$B$16,ROW($1:5))

یا موارد زیر در صورتی که آرایه‌های پویا ندارید:

=کوچک ($B$2:$B$16,1)

هنگامی که این مقادیر را داشته باشید، پیدا کردن موارد پرت در مجموعه داده بسیار آسان است. در حالی که ما انتخاب کرده‌ایم که بزرگترین و کوچکترین 5 مقدار را استخراج کنم، شما می‌توانید بر اساس حجم مجموعه داده خود 7 یا 10 را انتخاب کنید.

چگونه به روش صحیح با موارد دور از دسترس برخورد کنیم ؟

تاکنون روش‌هایی را دیده‌ایم که به ما کمک می‌کنند مقادیر پرت را در مجموعه داده‌هایمان پیدا کنیم، اما وقتی متوجه شدید که موارد پرت وجود دارد، چه باید کرد. در اینجا چند روش وجود دارد که می‌توانید از آن‌ها برای رسیدگی به موارد پرت استفاده کنید تا تجزیه و تحلیل داده‌های شما صحیح باشد.

Outliers را حذف کنید.

ساده‌ترین راه، حذف اطلاعات پرت از مجموعه داده‌های شماست. به این ترتیب آن‌ها نمی‌توانند تحلیل شما را منحرف کنند. هنگامی که مجموعه داده‌های بزرگی دارید و حذف چند عدد پرت بر تجزیه و تحلیل کلی تأثیر نمی‌گذارد، حذف کردن راه حل مناسب‌تری است. البته، قبل از حذف داده‌ها، مطمئن شوید که یک کپی ایجاد کرده‌اید و در مورد آنچه که باعث ایجاد این موارد پرت می‌شود، تحقیق کنید.

عادی سازی نقاط پرت

اگر بخواهید، می‌توانید برای تمام مقادیر پرت، آن‌ها را به مقداری تغییر دهید که کمی بالاتر از حداکثر مقدار در مجموعه داده باشد. این باعث می‌شود که داده‌ها را حذف نکنیم، اما در عین حال اجازه هم نمی‌دهیم که داده‌هایمان را منحرف کنند.

برای ارائه یک مثال واقعی، اگر حاشیه سود خالص شرکت‌ها را تجزیه و تحلیل می‌کنید، جایی که اکثر شرکت‌ها بین 10- تا 30 درصد قرار دارند و چند مقدار وجود دارد که بالای 100 درصد هستند. به سادگی این مقادیر پرت را به 30٪ یا 35٪ تغییر می‌دهد. بنابراین اینها برخی از روش‌هایی هستند که می‌توانید در اکسل برای پیدا کردن موارد پرت استفاده کنید .

هنگامی که نقاط پرت را شناسایی کردید، می‌توانید به داده‌ها بپردازید و به دنبال علت این موارد بگردید، در عین حال یکی از تکنیک‌ها را برای رسیدگی به این موارد پرت انتخاب کنید (که می‌تواند حذف آن‌ها یا عادی سازی‌شان با تنظیم مقدار باشد.)

امیدواریم این آموزش اکسل برای شما مفید بوده باشد. اگر هم خواهان شرکت در دوره آموزش جامع اکسل مجله علمی آموزشی مکتب خونه هستید، همین امروز، ثبت نام کنید و همه نکات و موارد کاربردی اکسل را از صفر تا صد، زیر نظر برترین اساتید کشور، یاد بگیرید.

نوشته های مشابه

همچنین ببینید
بستن
دکمه بازگشت به بالا