Transformer

مبدّل (Transformer) :

همانطوریکه قبلاً هم دیدیم، داده‌ها معمولاً قبل از اینکه به‌خوردِ یک مدل داده‌شوند، ابتدا دسخوش یکسری تبدیلات قرار‌میگیرند. این قضیه در Scikit-learn API ، در قالب یک متد به نام: " ()transformer " متجلی میشود که به ما این امکان را می‌دهد تا برخی از تکنیک‌های پیش‌پردازشی (preprocessing) را روی داده‌ها انجام دهیم.

این مِتد می‌تواند هم به عنوان نقطه‌ی شروعی برای تبدیل داده‌های ورودی مدل (این داده‌ها را قبلا با متغیرِ X_train معلوم کردیم) در نظرگرفته شود؛ و هم میتواند در طول روند تغذیه‌ی مدل، بمنظور ویرایش داده‌هایی که در خصوص أمر پیش‌بینی به مدل داده می‌شوند، مورد استفاده قرارگیرد. کاربرد دوم نقش خطیری در به‌دست‌آوردن نتایج دقیق بازی میکند؛ زیرا تضمین می‌کند که داده‌های جدید از همان رویه‌ی توزیع یکسانی که در خصوص داده‌هایِ آموزش استفاده شده است، پیروی می کنند.

در قطعه کد زیر، نمونه‌ای از یک مبدّل را مشاهده میکنید که مقادیر داده‌هایِ آموزش را استاندارد‌سازی میکند:

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)

‌

در خط اول از کد بالا، کلاس StandardScaler فراخوانی شده که نقش آن استانداردسازی داده‌هایی میباشد که به عنوان آرگومان دریافت می‌کند. در واقع، کلاس مذکور در حکم مبدّل ما میباشد که در خط دوم به آن عینیّت بخشیده‌ایم. در خط سوم نیز، داده‌هایِ آموزش را به کمک متد ()fit به مبدّل موردنظر اعمال کرده یا به اصطلاح فیت میکنیم(به عبارتی مبدّل را با داده‌های آموزش، تجهیز میکنیم). نهایتا هم در خط آخر به کمک متد ()transform ، عملیات تبدیل را به اتمام میرسانیم.

مزیت مبدّل در این است که فقط با یکبار اعمال کردن آن روی دیتاستِ آموزش، مقادیر مورداستفاده در روند تبدیل را ذخیره میکند؛ و میتواند با استفاده از آن مقادیر، پروسه‌ی تبدیل دیتاستِ آموزش را نیز با همان توزیع یکسان، به انجام برساند:

X_test = scaler.transform(X_test)

‌

جمع‌بندی

ما در این قسمت و قسمت‌های قبلی، یکی از اصلی‌ترین بخش‌های scikit-learn را که API آن میباشد را مورد بحث قرار دادیم. این API از ساختار ثابتی پیروی می‌کند که استفاده از الگوریتم‌های یادگیری ماشین را برای افراد غیر متخصص آسان نیز می‌کند.
ما همچنین یادگرفتیم که اولین قدم در مدل‌سازی یک الگوریتم در scikit-learn، عینیت بخشیدن به مدل آن و سپس تجهیز این مدل توسط داده‌هایِ آموزش به کمک متد ()fit میباشد که در واقع در حکم estimator ماست. به دنبال آن و با به اتمام رسیدن آموزشِ مدل، ممکن است احساس نیازی به پیش‌بینی مقادیر جدید وجود داشته باشد که این أمر نیز به کمک متد ()predictor میسر میباشد.
علاوه بر اینها، scikit-learn دارای یک رابط مبدّلی نیز میباشد که به ما این امکان را میدهد تا در صورت نیاز، داده‌ها را دستخوش یکسری تبدیلات قرار داده و تکنیک‌های پیش‌پردازشی مفیدی را روی داده‌های آموزش، پیاده کنیم. این قضیه به‌نوبه‌ی خود این امکان را به ما میدهد که عملیات تبدیل داده‌های تست را هم با توزیع یکسانی نسبت به داده‌های آموزش انجام دهیم.