Data Preprocessing
پیشپردازش دادهها یک گام بسیار مهم در توسعهی راه حلهای یادگیری ماشین است، زیرا بدین طریق مطمئن میشویم که مدل خودمان را بر اساس دادههای بایاسشده یا به اصطلاح: " biased data " انجام ندادهایم(دادههای بایاس شده را با نام دادههای جانبدارانه یا دادههای اریب یا دادههای پیشقدردار نیز میشناسند). پیشپردازش دادهها این قابلیت را دارد که عملکرد یک مدل را بهبود ببخشد، همچنین علت اینکه چرا یک الگوریتم یکسان در خصوص یک مشکل دادهمحور برای یک برنامهنویس در مقایسه با برنامهنویس های دیگر بهتر کار میکند به آنجائیکه برمیگردد که آن برنامهنویس شاخص، کار پیشپردازش دیتاست را بهنحو احسنت انجام داده است!
برای اینکه رایانهای بتواند دادهها را به خوبی درک کند نه تنها باید دادههای ورودی را به شیوهی استانداردی دریافت کند، بلکه باید مطمئن شود که این دادهها حاوی دادههای پَرت (outlier data) یا دادههای نویزدار (noisy data) یا حتی ورودیهای مفقودالاثر (missing entries) نباشد. عدم انجام این کار ممکن است منجر به ایجاد مفروضاتی در الگوریتم شود که با دادهها در تناقض باشند، و همین قضیه نیز بهنوبهی خود باعث میشود که مدل موردنظر استدلال مغالطهآمیزی در ارتباط با دادهها داشته باشد و با سرعت کمتری آموزش دیده و دقت کمتری هم داشته باشد.
موضوع به همینجا ختم نمیشود؛ زیرا همهی مدلها به طور یکسانی کار نمیکنند و هر کدام در خصوص حل مسئلهی موردنظر، مفروضات متفاوتی را پیش میگیرند. این بدین معناست که ما باید پیشپردازش دادهها را با عنایت به اینکه کدام مدل قرار است از آنها استفاده کند، انجام دهیم. بهعنوان مثال؛ برخی از مدل ها فقط دادههای عددی را می پذیرند، در حالیکه برخی دیگر با دادههای نامی/اسمی و دادههای عددی کار میکنند.
یک راهکار پیشنهادی بمنظور دستیابی به نتایج بهتر در فاز پیشپردازش دادهها این است که دادهها را به قالبهای مختلفی تبدیل کرده و روی مدلهای گوناگونی امتحان کنیم. بدین طریق قادر خواهیم بود تا قالب مناسبی را برای مدلی کارآمد انتخاب کنیم.
توجه:
اساسا پیشپردازش دادهها در خصوص حل هر مسئلهی دادهمحوری و پیادهسازی هر الگوریتم یادگیری ماشینی به ما کمک میکند اما بیایید فراموش نکنیم که در همین راستا به نوبهی خود یکی از فاکتور های موثر در سرعت آموزش مدل نیز میباشد؛ ولی شایان ذکر است که دستیابی به یک سرعت بهتر در آموزش مدل نهایتا در گروی استانداردسازی دیتاست میباشد.