Outliers

داده‌های پَرت یا Outliers

داده‌های پرت، مقادیری هستند که از میانگینِ کل داده‌های هم صنف خود فاصله‌ی زیادی دارند. این بدین معنی است که اگر تراکم داده‌های یک فیچر را به فرم توزیع گاوسی درنظر بگیریم، داده‌های پرت در دنباله‌های آن قرار خواهند گرفت.

‌

نکته:

به شرطی که تعداد اعداد بزرگتر و کوچکتر از میانگین با هم برابر باشند، توزیع گاوسی (معروف به توزیع نرمال) به شکل یک منحنی زنگوله-مانند خواهد بود.

‌

داده‌های پرت میتوانند گلوبال(Global) یا لوکال(Local) باشند.

الف) Global Outliers:
داده‌های پرتی که در این دسته قرار میگیرند، تفاوت بسیار زیادی در مقایسه با کل داده‌های حاضر در دیتاست دارند؛ بعنوان مثال فرض کنید که ما قصد بررسی دیتاست مربوط به ساکنین یک محله را داریم و در این بین به فردی برمیخوریم که 180 سال سن دارد! ما این مورد را در واقع به چشم یک داده‌ی پرت گلوبال میبینیم چون وجود یک فرد 180 ساله کلا غیرمنطقی بنظر میرسد و چنین فردی در هیچ زیرمجموعه‌ای از دیتاست موردنظر نمیتواند جا بگیرد . (مورد A در تصویر زیر)
‌
ب) Local Outliers:
داده‌های پرتی که در این دسته‌بندی قرار میگیرند، لزوما با کل دیتاست متفاوت نیستند و فقط با اعضای یک زیرمجموعه از این دیتاست تفاوت دارند؛ در مثالی که مطرح شد اگر دانش آموزان آن محله را بعنوان یک زیرمجموعه از کل محله درنظر بگیریم، و در این بین به دانش آموزی بربخوریم که 70 سال سن دارد! این مورد را باید به چشم یک داده‌ی پرت لوکال ببینیم. زیرا وجود یک دانش آموز 70 ساله چندان منطقی بنظر نمیرسد اما اینکه فردی در آن محله 70 سال سن داشته باشد کاملا منطقی است و اصلا چیز عجیبی به شمار نمی‌آید. (مورد B در تصویر زیر)

‌

یک رویکرد ساده برای تشخیص داده‌های پرت، بصری‌سازی داده‌ها با این هدف میباشد که آیا داده‌ها از توزیع گاوسی پیروی می‌کنند یا خیر؟! در صورتی که تفسیرات ما نشان از وجود داده‌های پرت داشته باشند، ابتدا انحراف معیار(Standard Deviation) و میانگین(Mean) داده‌ها را محاسبه کرده و سپس داده‌هایی را که 3 الی 6 برابر انحراف معیار از میانگین فاصله داشته باشند را بعنوان داده‌های پرت دسته بندی میکنیم. بعنوان مثال اگر میانگین داده‌های یک دیتاستِ عددی، برابر 100 و انحراف معیار آنها برابر 10 باشد؛ داده‌های بین 70 تا 130 را که به اندازه‌ی 3 برابر انحراف معیار، بالاتر و پایین‌تر از میانگین قرار دارند را بعنوان داده‌های پرت در نظر نمیگیریم ولی داده‌هایی را که زیر 70 یا بالای 130 باشند را بعنوان داده‌های پرت درنظر میگیریم.
با وجود همه‌ی موارد گفته شده، باز هم قاعده‌ای دقیق و کلّی برای یافتن داده‌های پرت وجود ندارد و تصمیم اینکه بررسی داده‌های عددی باید با چه نسبتی از انحراف معیار صورت گیرد، از مسئله‌ای به مسئله دیگر متفاوت است.
از طرفی دیگر تشخیص داده‌های پرت به هنگام برخورد با فیچرهای متنی، پیچیده‌تر می‌شود؛ زیرا در برخورد با داده‌های متنی دیگر هیچ انحراف معیاری هم وجود ندارد که بشود از روی آن نتیجه‌گیری کرد. در این مواقع، شمارش تعداد دفعاتی که دسته‌ی مشخصی از داده‌ها مرتبا ظاهر میشوند یا نه میتواند در تصمیم‌گیری ما برای چشم‌پوشی از آن دسته از داده‌ها کمک کند. به عنوان مثال؛ اگر در خصوص سایزبندی لباس‌های یک دیتاست، سایز XXS داشته باشیم که کمتر از فقط 5% از کل سایز‌های موجود را شامل میشود، در چنین موقعی شاید ضرورتی به نمایش این دسته مشخص از داده‌ها هم نداشته باشیم.

بعد از شناسایی داده‌های پرت، نوبت به رسیدگی به آنها بر اساس سه رویکرد رایج زیر میرسد:

حذف کردن داده‌های پرت:
در صورتی که با داده‌های پرت درست/واقعی یا به اصطلاح: " True Outliers " سروکار داشته باشیم، مثل سلبریتی معروفی که میانگین درآمد او 1 میلیون دلار در سال است و در بین دسته‌ای از افراد قرار گرفته است که میانگین درآمد سالانه ای در حدود 50 هزار دلار در سال دارند؛ بهتر است که چنین داده‌های پرتی را به طور کامل حذف کنیم تا از بروز هر گونه کج‌فهمی در روند تحلیل داده جلوگیری شود. در صورتی هم که با داده‌های پرت اشتباه سروکار داشته باشیم، باز هم حذف کردن چنین داده‌ی پرتی ایده‌ی خوبی است.
‌
تعریف یک کران بالا یا Topping:
تعیین یک کران بالا نیز میتواند برای مواقعی مفید باشد که در دیتاست خود یکسری مقادیر بسیار بزرگ داشته باشید و متوجه شوید که وقتی همه‌ی آنها از حد معینی عبور میکنند، رفتار یکسانی را از خود نشان میدهند؛ در چنین مواقعی میتوانید این مقادیر را با یک کران بالا تقریب بزنید.
‌
اختصاص یک مقدار جدید:
اگر اشتباه بودن داده‌ی پرت کاملا واضح است، می توانید با استفاده از یکی از تکنیک‌هایی که در بخش قبل مطرح شدند (میانگین یا رگرسیون انتساب) ، یک مقدار جدید به آن اختصاص دهید.

تصمیم اینکه از کدام یک از رویکردهای بالا باید استفاده کرد به نوع و تعداد داده‌های پرت بستگی دارد. با این وجود، در بیشتر مواقعی که داده‌های پرت بخش کوچکی از کل دیتاست را تشکیل داده باشند، بهترین کار حذف آنهاست.

‌

نکته:

داده‌های نویزدار در زمره‌ی مقادیری قرار میگیرند که یا غلط هستند یا غیر ممکن بنظر می‌آیند. این داده‌ها شامل مقادیری عددی(مثلا وقتیکه مسئول ثبت سن دانش آموزان مدرسه هستیم و به اشتباه سن یک دانش آموز را 100 ذخیره کرده‌ایم) و اسمی (به عنوان مثال، جنسیت یک دانش‌آموز را در اثر یک اشتباه املایی بصورت: "fimale" ذخیره کرده ایم) میشوند. مشابه رویکردهایی که در خصوص داده‌های پرت مطرح شد، داده های نویز‌دار را نیز می‌توان با حذف کامل مقادیر یا با اختصاص یک مقدار جدید به آنها، تصحیح کرد.