خلاصه
یادگیری ماشین عبارتست از ساخت مدلهایی که قادر هستند تا دادهها را به دانشی تبدیل کنند که بتوان بر اساس آن تصمیمگیری کرد. برخی از این مدلها بر پایهی یکسری مفاهیم پیچیدهی ریاضی ساخته میشوند تا بتوانند دادهها را بدرستی درک کنند. Scikit-learn یک کتابخانهی پایتونی اُپن سورس میباشد که به منظور تسهیل فرآیند به کارگیری این تیپ مدلها در خصوص مسائل دادهمحور بوجود آمده است، و استفاده از آن نیازمند داشتن دانش ریاضی عمیقی نمیباشد.
در این فصل به تشریح مراحل کلیدی پیشپردازش دادههای ورودی پرداخته و مواردی همچون جداسازی فیچرها از هدف، نحوهی برخورد با دادههای بهمریخته و تغییر مقیاس دادهها را بررسی کردیم. تمامیِ این مراحل باید قبل از ورود به فاز آموزشی یک مدل اِجرا شوند تا هم زمان آموزش و هم عملکرد مدل را بهبود بخشند.
در قدم بعدی، به تشریح اجزای مختلف scikit-learn API پرداختیم که شامل: estimator و predictor و transformer بود. در انتهای فصل هم به بیان تفاوتهای موجود مابین یادگیری تحتنظارت و بدوننظارت پرداخته و محبوبترین الگوریتمهای هر نوع را معرفی کردیم.
با در نظر گرفتن همهی این موارد، ما در فصل بعدی بر روی جزئیات روند پیادهسازیِ یک الگوریتم بدوننظارت بر روی یک دیتاست واقعی تمرکز خواهیم کرد.