تمرین ۱.۰۲: پیشپردازشِ کل یک دیتاست
در این تمرین شما قرار است که از تمام تکنیکهایی که تا به الان در خصوص پیشپردازش دادهها یادگرفتهاید استفاده کرده و دیتاست موردنظر را آماده کنید. مراحل زیر در تکمیل این تمرین شما را راهنمایی خواهندکرد:
1- ابتدا کتابخانهی seaborn و کلاس LabelEncoder را فراخوانی کنید. سپس دیتاستِ Titanicرا بارگذاری کرده و ماتریس فیچرها که شامل: "embark_town" ، "class"، "fare"، "age"، "sex" و "alone" میباشد را ایجاد کنید.
نکته:
در این تمرین، ماتریس فیچرها را فقط با استفاده از 6 فیچر تشکیل دادیم؛ چون مابقی فیچرها با توجه به اهداف این تمرین زائد و بلااستفاده میباشند. بعنوان مثال، هیچ نیازی نیست که هم فیچرِ sex و هم فیچرِ gender را داشته باشیم.
2- در بین تمامی فیچرهای ماتریس X ، دنبال مقادیر ناموجود(missing value) و مقادیر پرت(outlier) بگردید و به کمک یک متد مناسب، آنها را هَندل کنید.
3- همهی فیچرهای متنی را به معادل عددی خودشان تبدیل کنید.
4- دادههای خود را یا به شیوهی نرمالیزاسیون یا به شیوهی استانداردسازی، مجدد مقیاسبندی کنید.
خروجی مورد انتظار: بسته به انتخابهای شما، نتایج ممکن است متفاوت باشد. اما با این حال، نهایتا باید یک دیتاست داشته باشید که هیچ مقدار ناموجود، پرت یا فیچرهای متنی نداشته باشد و دادههای آن هم مجددا مقیاس بندی شده باشند.