جداول داده

اکثر جداولی که مسائل یادگیری ماشین از آنها تغذیه میکنند، دو بعدی بوده و شامل سطرها و ستون‌هایی میباشند. در کل؛ هر ردیف نشان دهنده‌ی یک نمونه‌ی ثبت شده، و هر ستون نمایانگر مشخصه‌ای از نمونه‌ی موردنظر میباشد.

جدول زیر، بخشی از یک دیتاسِت ساده میباشد که با هدف تفکیک سه گونه‌ از گل زنبق، بر اساس مشخصه‌هایشان تشکیل شده است. از این رو؛ در جدول زیر هر ردیف نشان‌ دهنده‌ی داده های ضبط شده برای یک گل، و هر ستون نمایانگر مقدار مشخصه‌ی مرتبط با هر گل میباشد: (این بخش از جدول فقط منحصر به گونه‌ی setosa میباشد.)

B15781_01_02

با توجه به توضیحات فوق و با مرور ردیف اول جدول، می توان چنین استنتاج کرد:
یک نمونه گل زنبق از گونه‌ی setosa مشاهده شده، و داده های مربوط به آن از قبیل طول کاسبرگ(5.1)، عرض کاسبرگ(3.5)، طول گلبرگ(1.4) و عرض گلبرگ(0.2) ثبت شده‌اند.


توجّه:

اگر یک مدل از روی تصاویر تغذیه کند یا به عبارتی داده‌های دریافتی آن در قالب تصاویر باشند، جداول سه بعدی خواهند شد؛ در این مواقع، ردیف‌ها و ستون‌ها نمایانگر ابعاد تصویر در واحد پیکسل بوده، و عمق یا طبقه‌ی جدول نمایانگر طیف رنگی خواهد بود.


به داده‌های جدول‌بندی شده، داده‌های ساختاریافته یا به اصطلاح: "structured data" نیز میگویند. از طرفی، داده‌های بدون‌ساختار نیز به هر چیزی اشاره دارند که نمی تواند در یک دیتابیس جدول‌مانند (یعنی در قالب ردیف‌ها و ستون‌ها) ذخیره شود. این تیپ داده‌ها شامل تصویر، صدا، ویدئو و متن (مانند ایمیل ها) می شوند. برای اینکه بتوان داده‌های بدون‌ساختار را به خورد یک الگوریتم یادگیری ماشین داد، در اولین قدم باید آنها را به فرمتی تبدیل کرد که الگوریتم موردنظر بتواند آنرا درک کند (مانند جدول داده‌ها). به عنوان مثال؛ تصاویر به ماتریس‌هایی از پیکسل‌ها، و متون به مقادیر عددی کدگذاری شده تبدیل می شوند.