مثال ۱.۰۴:

در این مثال سعی بر این خواهد بود تا به کمک دیتاست tips که قبلا هم با آن برخورد داشتیم، مباحث نرمالیزاسیون و استانداردسازی داده‌ها را پوشش دهیم؛ پس از همان دفترچه یادداشت Jupyter که برای مثال قبلی ایجاد کردیم استفاده میکنیم.

مراحل این مثال به شرح زیر میباشند:

1- با استفاده از متغیر tips که شامل کل دیتاست میباشد، داده‌ها را به کمک فرمول نرمالیزاسیون، نرمال کنید و در متغیر جدیدی به نام:" tips_normalized " ذخیره کنید. سپس 10 ردیف اول دیتاست نرمالایز شده را چاپ کنید:

Jupyter Notebook


tips_normalized = (tips - tips.min())/(tips.max()-tips.min())
tips_normalized.head(10)

خروجی بصورت زیر خواهد بود:

B15781_01_16

همانطوریکه در تصویر فوق مشاهده میکنید، همه‌ی مقادیر به معادل‌های متناظر با خودشان در محدوده‌ی 0 تا 1 تبدیل شده‌اند. با نرمالیزاسیون همه‌ی فیچرها، این امکان برای مدل فراهم میشود که براساس فیچرهایی با مقیاس یکسان آموزش داده بشود.

2- مجدداً با استفاده از متغیر tips، داده‌ها را با استفاده از فرمول استانداردسازی، استاندارد کرده و در متغیری به نام:" tips_standardized "ذخیره کنید. سپس 10 ردیف اول دیتاست استاندارد شده را چاپ کنید:

Jupyter Notebook


tips_standardized = (tips - tips.mean())/tips.std()
tips_standardized.head(10)

خروجی به صورت زیر خواهد بود:

B15781_01_17

در مقایسه با نرمالیزاسیون، در روش استانداردسازی، مقادیر از یک توزیع گاوسی حول نقطه‌ی صفر پیروی میکنند.
در این نقطه از کار میتوان گفت که ما با موفقیت، روش‌های مقیاس بندی مجدد(Rescaling) را روی دیتاست خود پیاده کردیم.

جمع بندی:

با تکمیل این مثال، ما آخرین مرحله(Data Rescaling) از روند پیش‌پردازش داده‌ها را هم پوشش دادیم. این کار با هدف همگن‌سازی داده‌ها در راستای تسهیل درک داده‌ها توسط مدل و بر روی دیتاستی که مقیاس‌های متفاوتی داشت، انجام شد. ناکامی در تکمیل این مرحله منجر به کند شدن سرعت روند آموزش و پدیدار شدن تاثیراتی منفی در عملکرد مدل خواهد شد.

دو روش بمنظور مقیاس بندی مجدد داده‌ها در این مبحث توضیح داده شد: نرمالیزاسیون و استانداردسازی؛ و دیدیم که روش نرمالیزاسیون، داده‌های اولیه را به داده‌هایی بین 0 و 1 تبدیل میکند ولی روش استانداردسازی، داده‌ها را به فرم یک توزیع گاوسی با میانگین صفر و انحراف معیار 1 تبدیل میکند.

با عنایت بر اینکه هیچ قانونی برای انتخاب بهترین روش وجود ندارد، از این رو توصیه میشود که داده‌ها را با استفاده از دو یا سه روش، مجددا مقیاس‌بندی کنیم و سپس با آزمودن مدل روی دیتاست مقیاس‌بندی شده‌ی حاصل از هر روش، مناسب‌ترین روش را انتخاب کنیم.