تمرین ۱.۰۲: پیش‌پردازشِ کل یک دیتاست

در این تمرین شما قرار است که از تمام تکنیک‌هایی که تا به الان در خصوص پیش‌پردازش داده‌ها یادگرفته‌اید استفاده کرده و دیتاست موردنظر را آماده کنید. مراحل زیر در تکمیل این تمرین شما را راهنمایی خواهند‌کرد:

1- ابتدا کتابخانه‌ی seaborn و کلاس LabelEncoder را فراخوانی کنید. سپس دیتاستِ Titanicرا بارگذاری کرده و ماتریس فیچرها که شامل: "embark_town" ، "class"، "fare"، "age"، "sex" و "alone" میباشد را ایجاد کنید.


نکته:

در این تمرین، ماتریس فیچرها را فقط با استفاده از 6 فیچر تشکیل دادیم؛ چون مابقی فیچرها با توجه به اهداف این تمرین زائد و بلااستفاده میباشند. بعنوان مثال، هیچ نیازی نیست که هم فیچرِ sex و هم فیچرِ gender را داشته باشیم.


2- در بین تمامی فیچرهای ماتریس X ، دنبال مقادیر ناموجود(missing value) و مقادیر پرت(outlier) بگردید و به کمک یک متد مناسب، آنها را هَندل کنید.

3- همه‌ی فیچرهای متنی را به معادل عددی خودشان تبدیل کنید.

4- داده‌های خود را یا به شیوه‌ی نرمالیزاسیون یا به شیوه‌ی استانداردسازی، مجدد مقیاس‌بندی کنید.

خروجی مورد انتظار: بسته به انتخاب‌های شما، نتایج ممکن است متفاوت باشد. اما با این حال، نهایتا باید یک دیتاست داشته باشید که هیچ مقدار ناموجود، پرت یا فیچرهای متنی نداشته باشد و داده‌های آن هم مجددا مقیاس بندی شده باشند.