در انتهای این فصل میتوانید از کتابخانه ی pandas برای مشاهده، ایجاد، تحلیل و دستکاری DataFrame ها استفاده کنید. با استفاده از کتابخانه ی NumPy میتوانید عملیات آماری را انجام دهید، به سرعت بالاتری عملیات ماتریسی را انجام دهید و داده ها را مدیریت کرده و تغییر دهید. در این فصل با دستورات read، transpose، loc، iloc و concatenate آشنا می شوید و مقادیر غیر عددی( NaN یا Not a Number) را خواهید دید. در این فصل با دانش آموخته در فصل 4 به رسم نمودار های مختلف نیز می پردازیم و نهایتا مدل های ریاضی و آماری را به کار میگیریم تا مسائل مختلفی را حل کنیم.
این فصل کلید ورود شما به دنیای هوش مصنوعی و علم داده است.
معرفی فصل
وقت تغییر فرا رسیده. تا الآن پایتون را در حد بسیار خوبی آموخته اید و حالا میخواهیم به سراغ یکی از کاربردهای پایتون برویم؛ علم داده یا Data science یک حوزه ی نسبتا جدید و در حال رشد در دنیای برنامه نویسی است. درآمد بالای این حوزه ، تنوع شغلی و سادگی نسبی آن باعث شده که پرطرفدارترین حوزه ی کاری در زمینه ی برنامه نویسی باشد. اکثر شرکت های متوسط تا بزرگ در دنیا data scientist ها را استخدام میکنند تا داده های مورد نیاز خود را تحلیل و تشریح کنند.
این حوزه به 4 دسته تقسیم می شود که در این دوره تنها در دسته ی اول صجبت میکنیم:
- تحلیل داده ( Data analytics )
- واکاوی داده( Data wrangling)
- مهندسی داده (Data engineering)
- علم داده(Data science)
تحلیل داده بر روی استفاده از روش های Data science برای تحلیل big data تمرکز دارد. از آنجایی که حجم داده ها در big data بسیار بالاست طبیعتا یک یا چند آدم نمیتوانند با بررسی به تحلیل آنها بپردازند و روش های سنگین پردازشی آماری یا هوش مصنوعی نیز بسیار پر هزینه و زمانبر هستند. برای انجام این کار توسط پایتون دو کتابخانه ی pandas و NumPy توسط Wes McKinney وTravis Oliphant خلق شدند.
این دو کتابخانه ی pandas و NumPy در کنار یکدیگر ابزار قدرتمندی برای مدیریت big data هستند و برای سرعت، کارایی، قابل اعتماد بودن و سادگی استفاده خلق شده اند.
کتابخانه ی pandas به ما امکان میدهد تا داده ها را از دیتاست ها و دیتابیس ها مشاهده کنیم و تغییر دهیم. pandas تمام وظایف data-related که باید انجام شوند را انجام میدهد؛ مثل ساخت DataFrames ، بارگزاری داده ها، scrape کردن داده ها از وب!!!! مرج کردن داده ها، pivoting و ترکیب کردن( concatenating ) و ... .
کتابخانه ی NumPy نیز خلاصه شده ی Numerical Python است. این کتابخانه بر روی محاسبات تمرکز دارد و میتواند با سطر ها و ستون های DataFrames در pandas به راحتی کار کند و آنها را به ماتریس ( NumPy arrays )تبدیل کند. به خاطر ساختار منحصر بفرد این کتابخانه، این کتابخانه از تمام زبان های برنامه نویسی دنیا در محاسبات عمومی آماری( mean، median، mode و quartiles ) بسیار سریع تر است!
ابزار کلیدی دیگر در Data analytics نیز Matplotlib است! بصری سازی داده ها در زمینه های هوش مصنوعی و Data science بسیار مهم و ضروری است.