Data Preprocessing

پیش‌پردازش داده‌ها یک گام بسیار مهم در توسعه‌ی راه حل‌های یادگیری ماشین است، زیرا بدین طریق مطمئن میشویم که مدل خودمان را بر اساس داده‌های بایاس‌شده یا به اصطلاح: " biased data " انجام نداده‌ایم(داده‌های بایاس شده را با نام داده‌های جانبدارانه یا داده‌های اریب یا داده‌های پیشقدر‌دار نیز میشناسند). پیش‌پردازش داده‌ها این قابلیت را دارد که عملکرد یک مدل را بهبود ببخشد، همچنین علت اینکه چرا یک الگوریتم یکسان در خصوص یک مشکل داده‌محور برای یک برنامه‌نویس در مقایسه با برنامه‌نویس های دیگر بهتر کار میکند به آنجائیکه برمیگردد که آن برنامه‌نویس شاخص، کار پیش‌پردازش دیتاست را به‌نحو احسنت انجام داده است!

برای اینکه رایانه‌ای بتواند داده‌ها را به خوبی درک کند نه تنها باید داده‌های ورودی را به شیوه‌ی استانداردی دریافت کند، بلکه باید مطمئن شود که این داده‌ها حاوی داده‌های پَرت (outlier data) یا داده‌های نویزدار (noisy data) یا حتی ورودی‌های مفقودالاثر (missing entries) نباشد. عدم انجام این کار ممکن است منجر به ایجاد مفروضاتی در الگوریتم شود که با داده‌ها در تناقض باشند، و همین قضیه نیز به‌نوبه‌ی خود باعث می‌شود که مدل موردنظر استدلال مغالطه‌آمیزی در ارتباط با داده‌ها داشته باشد و با سرعت کمتری آموزش دیده و دقت کمتری هم داشته باشد.

موضوع به همینجا ختم نمیشود؛ زیرا همه‌ی مدل‌ها به طور یکسانی کار نمی‌کنند و هر کدام در خصوص حل مسئله‌ی موردنظر، مفروضات متفاوتی را پیش میگیرند. این بدین معناست که ما باید پیش‌پردازش داده‌ها را با عنایت به اینکه کدام مدل قرار است از آنها استفاده کند، انجام دهیم. به‌عنوان مثال؛ برخی از مدل ها فقط داده‌های عددی را می پذیرند، در حالیکه برخی دیگر با داده‌های نامی/اسمی و داده‌های عددی کار می‌کنند.

یک راهکار پیشنهادی بمنظور دستیابی به نتایج بهتر در فاز پیش‌پردازش داده‌ها این است که داده‌ها را به قالب‌های مختلفی تبدیل کرده و روی مدلهای گوناگونی امتحان کنیم. بدین طریق قادر خواهیم بود تا قالب مناسبی را برای مدلی کارآمد انتخاب کنیم.


توجه:

اساسا پیش‌پردازش داده‌ها در خصوص حل هر مسئله‌ی داده‌محوری و پیاده‌سازی هر الگوریتم یادگیری ماشینی به ما کمک میکند اما بیایید فراموش نکنیم که در همین راستا به نوبه‌ی خود یکی از فاکتور های موثر در سرعت آموزش مدل نیز میباشد؛ ولی شایان ذکر است که دستیابی به یک سرعت بهتر در آموزش مدل نهایتا در گروی استانداردسازی دیتاست میباشد.