در انتهای این فصل میتوانید بعضی از الگوریتم های معروف machine learning را برای حل مسائل مختلف به کار بگیرید.
بعضی از روش ها و الگوریتم های linear regression ، logistic regression ، decision trees ، random forests ، Naive Bayes و AdaBoost را در این فصل به صورت مختصر و مفید بررسی کرده ایم. با hyperparameter ها نیز آشنا خواهیم شد و در مورد confusion matrix و cross-validation نیز صحبت می کنیم. هدف از این فصل آشنایی اولیه ی شما با دنیا machine learning است.
معرفی فصل
بعضی از الگوریتم های نرم افزاری به کامپیوترها امکان یادگرفتن از دیتا را میدهند. در گذشته های نه چندان دور بسیار از الگوریتم ها استفاده ی تئوریک داشتند اما با پیدایش کامپیوترها و زبان های برنامه نویسی امکان استفاده ی واقعی از بسیاری از الگوریتم های آماری پیشرفته ی داده محور فراهم شد. با پیدایش پایتون نیز استفاده از این الگوریتم ها سادگی پیدا کرد و رسما علم machine learning به صورت عمومی از آمار و احتمال فاصله ی بیشتری گرفت. machine learning دانش کار با الگوریتم هایی است که با دیتا یاد میگیرند.
الگوریتم های مذکور، هرچقدر بیشتر دیتا دریافت کنند میتوانند بهتر عمل کنند و الگوهای داخلی دیتاها را پیدا کنند. در فصل قبلی آنالیزها و بصری سازی های ساده ای را دیدیم. این فصل در ادامه ی فصل قبل روی آنالیزهای پیچیده تری مانور میدهد.
به یک کودک فکر کنید که در حال یادگرفتن تشخیص گربه است! با معرفی و مشخص کردن گربه ها برای بچه، اصلاح کردن تغییرات اشتباه و تکرار زیاد بلاخره بچه میتواند گربه و غیر گربه را تشخیص دهد.
در واقع machine learning هم همینطور است. مثلا یکی از الگوریتم های سطح بالای machine learning که در دسته ی deep learning (فصل بعدی) طبقه بندی می شود، شبکه ی عصبی کانوولوشنال یا convolutional neural network یا CNN است که برای تشخیص و دسته بندی تصاویر بسیار مناسب است. با دریافت تصاویر مشخص ( labeled ) از گربه و غیر گربه الگوریتم های مبتنی بر CNN میتوانند الگوهای درونی پیکسل های تصاویر را با تنظیم کردن پارامترهای داخلی یک معادله پیدا کنند تا به معادله ای دست پیدا کنند که کمترین میزان خطا را دارد.
بعد از اینکه الگوریتم به بهترین معادله ی ممکن رسید(با توجه به کیفیت دیتای ورودی)، حالا از معادله برای پیش بینی و تشخیص دیتای آینده استفاده می شود. زمانی که تصویر جدیدی را به معادله میدهیم، تصویر جدید به عنوان ورودی به الگوریتم داده می شود تا مشخص شود که در تصویر گربه وجود دارد یا نه.
در این فصل بر روی دو مسئله ی classification و regression تمرکز میکنیم. مسائل بیشتری نیز در این حوزه وجود دارند که بهترین جا برای یادگرفتن آنها دوره ی یادگیری ماشین است!