داده‌های بهم‌ریخته

داده‌هایی که فاقد اطلاعات بوده یا حاوی اطلاعات پَرت(outliers) یا نویزدار(noisy) هستند، با نام داده‌های بهم‌ریخته یا به اصطلاح: " Messy Data " شناخته می‌شوند. عدم انجام هرگونه پیش‌پردازشی روی داده‌ها می‌تواند به عنوان نقطه‌ی شروعی در از دست‌دادن اطلاعات و بایاس‌شدن داده‌ها به‌شمار آید که نهایتا منجر به دستیابی به مدلهای ضعیف میشود. برخی از موارد دردسر ساز در ارتباط با داده‌ها که باید از آنها اجتناب شود، در قسمت بعدی توضیح داده شده‌اند.