ماتریسِ فیچِرها(مشخصه ها) و ماتریسِ هدف :
معمولا در بسیاری از مسائل دادهمحور، یکی از فیچرهای دیتاست به عنوان برچسب یا به اصطلاح:" label " مورد استفاده قرار میگیرد. این بدین معناست که از بین تمام فیچرها یک فیچر را به عنوان هدفی تعیین میکنیم که قرار است مدل ما دادهها را به آن تعمیم دهد. به عنوان مثال در جدول مربوط به گل زنبق میتوانستیم گونهی زنبق را به عنوان فیچر موردهدف انتخاب کنیم تا مدل ما از روی سایر فیچرها، الگوهایی را یافته و مشخص کند که آیا یک گل به گونه setosa تعلق دارد یا خیر؟!
بنابراین، یادگیری اینکه چگونه باید ماتریسِ هدف را از ماتریسِ فیچرها جدا کرد، حائز اهمیت است.
ماتریسِ هدف:
بطور کلی وقتیکه یک فیچر به عنوان هدف تعیین میشود، به دنبال آن تمام مقادیر تعریف شده در جدول داده به اِزای این فیچر موردهدف را با عنوان ماتریس هدف میشناسند. برای مثال در جدول دادههای گل زنبق، اگر گونه(species) را بهعنوان فیچر موردهدف تعیین کنیم، تمام مقادیری که برای این فیچر در جدول ثبت شدهاند را میتوانیم در قالب یک ماتریس یک بعدی با طول: " n_i " جمع کنیم و آنرا ماتریسِ هدف بنامیم.( n_i نشان از تعداد نمونهها یا سطرها دارد.)
البته مواردی هم هستند که چندین هدف خواهیم داشت و به تبع آن، ابعاد ماتریس ما به: " [n_i, n_t] " تغییر خواهد کرد که در اینجا n_t نشان دهندهی تعداد فیچرهایِ موردهدف ما میباشد.
معمولا، ماتریس هدف در قالب یک NumPy array (آرایهای برگرفته از کتابخانه NumPy) یا یک Pandas series (یک سری برگرفته از کتابخانه Pandas) تعریف میشود که مقادیر آن میتوانند گسسته یا پیوسته باشند.
بطور کلی، ماتریسِ هدف داخل متغیری به نام: " Y " ذخیره میشود.
توجه:
کتابخانه Pandas یک کتابخانهی اُپن سورس پایتونی میباشد که بمنظور رسیدگی به امورات مرتبط با دستکاری و تجزیه و تحلیل دادهها ایجاد شده است. متشابهاً، NumPy نیز یک کتابخانهی اُپن سورس پایتونی میباشد که برای دستکاری آرایه های چند بعدی بزرگ مورد استفاده قرار میگیرد و همراه خود مجموعهی بزرگی از توابع ریاضی دارد که برای کار بر روی چنین آرایه هایی مناسب هستند.
ماتریکس فیچِرها(ماتریکس مشخصهها):
دادههای ثبت شده برای هر فیچر دیگری به غیر از فیچرِ موردهدف را میتوان در قالب یک ماتریس جداگانه به نام ماتریسِ فیچِرها جمع آوری کرد. ابعاد این ماتریس: " [n_i, n_f] " خواهد بود که در اینجا n_i نشان از تعداد نمونهها و n_f نشان از تعداد فیچرها دارد. ماتریس هدف در قالب یک NumPy array (آرایهای برگرفته از کتابخانه NumPy) یا یک Pandas DataFrame (چهارچوب دادهای برگرفته از کتابخانه Pandas) تعریف میشود.
به طور کلی، ماتریس فیچرها در متغیری به نام: " X " ذخیره می شود.