خلاصه

یادگیری ماشین عبارتست از ساخت مدل‌هایی که قادر هستند تا داده‌ها را به دانشی تبدیل کنند که بتوان بر اساس آن تصمیم‌گیری کرد. برخی از این مدل‌ها بر پایه‌ی یکسری مفاهیم پیچیده‌ی ریاضی ساخته میشوند تا بتوانند داده‌ها را بدرستی درک کنند. Scikit-learn یک کتابخانه‌ی پایتونی اُپن سورس میباشد که به منظور تسهیل فرآیند به کارگیری این تیپ مدل‌ها در خصوص مسائل داده‌محور بوجود آمده است، و استفاده از آن نیازمند داشتن دانش ریاضی عمیقی نمیباشد.

در این فصل به تشریح مراحل کلیدی پیش‌پردازش داده‌های ورودی پرداخته و مواردی همچون جداسازی فیچرها از هدف، نحوه‌ی برخورد با داده‌های بهم‌ریخته و تغییر مقیاس داده‌ها را بررسی کردیم. تمامیِ این مراحل باید قبل از ورود به فاز آموزشی یک مدل اِجرا شوند تا هم زمان آموزش و هم عملکرد مدل را بهبود بخشند.

در قدم بعدی، به تشریح اجزای مختلف scikit-learn API پرداختیم که شامل: estimator و predictor و transformer بود. در انتهای فصل هم به بیان تفاوت‌های موجود مابین یادگیری تحت‌نظارت و بدون‌نظارت پرداخته و محبوب‌ترین الگوریتم‌های هر نوع را معرفی کردیم.

با در نظر گرفتن همه‌ی این موارد، ما در فصل بعدی بر روی جزئیات روند پیاده‌سازیِ یک الگوریتم بدون‌نظارت بر روی یک دیتاست واقعی تمرکز خواهیم کرد.