تجزیه و تحلیل داده ها
توسط Ali Raghimi
تجزیه و تحلیل داده ها فرآیندی است که به طور سیستماتیک از تکنیک های آماری و/یا منطقی برای توصیف و تشریح، فشرده سازی و جمع بندی و ارزیابی داده ها استفاده می شود.
استفان فیو هشت نوع پیام کمی را تشریح کرد که کاربران ممکن است سعی کنند از مجموعهای از دادهها و نمودارهای مرتبط مورد استفاده برای کمک به برقراری ارتباط، آنها را بفهمند یا با آنها ارتباط برقرار کنند. مشتریانی که الزامات را مشخص میکنند و تحلیلگرانی که تجزیه و تحلیل دادهها را انجام میدهند ممکن است این پیامها را در طول فرآیند در نظر بگیرند.
سری زمانی:
یک متغیر منفرد در یک دوره زمانی مشخص می شود، مانند نرخ بیکاری در یک دوره ۱۰ ساله. یک نمودار خطی ممکن است برای نشان دادن روند استفاده شود.
رتبهبندی:
زیرمجموعههای طبقهبندی به ترتیب صعودی یا نزولی رتبهبندی میشوند، مانند رتبهبندی عملکرد فروش (معیار) توسط فروشندگان (رده، با هر فروشنده یک زیرمجموعه طبقهای) در یک دوره واحد. نمودار میله ای ممکن است برای نشان دادن مقایسه بین فروشندگان استفاده شود.
جزء به کل:
تقسیمبندیهای طبقهبندی به صورت نسبت به کل (یعنی درصدی از ۱۰۰٪) اندازهگیری میشوند. نمودار دایره ای یا نمودار میله ای می تواند مقایسه نسبت ها را نشان دهد، مانند سهم بازار که توسط رقبا در یک بازار ارائه می شود.
انحراف:
زیرشاخههای طبقهبندی شده با یک مرجع مقایسه میشوند، مانند مقایسه هزینههای واقعی در مقابل بودجه برای چندین بخش از یک کسبوکار برای یک دوره زمانی معین. نمودار میله ای می تواند مقایسه مقدار واقعی در مقابل مقدار مرجع را نشان دهد.
توزیع فراوانی:
تعداد مشاهدات یک متغیر خاص را برای یک بازه معین نشان می دهد، مانند تعداد سال هایی که بازده بازار سهام بین بازه هایی مانند ۰-۱۰٪، ۱۱-۲۰٪ و غیره است. یک هیستوگرام، یک نوع نمودار میله ای، ممکن است برای این تحلیل استفاده شود.
همبستگی:
مقایسه بین مشاهدات نشان داده شده توسط دو متغیر (X,Y) برای تعیین اینکه آیا آنها تمایل به حرکت در جهت یکسان یا مخالف دارند. به عنوان مثال، نمودار بیکاری (X) و تورم (Y) برای نمونه ای از ماه. نمودار پراکندگی معمولاً برای این پیام استفاده می شود.
مقایسه اسمی:
مقایسه زیرمجموعه های طبقه بندی شده بدون ترتیب خاصی، مانند حجم فروش بر اساس کد محصول. یک نمودار میله ای ممکن است برای این مقایسه استفاده شود.
جغرافیایی یا مکانی:
مقایسه یک متغیر در یک نقشه یا طرح، مانند نرخ بیکاری بر اساس ایالت یا تعداد افراد در طبقات مختلف یک ساختمان. کارتوگرام یک گرافیک معمولی است که استفاده میشود.
نرم افزار رایگان برای داده کاوی
DevInfo - یک سیستم پایگاه داده تایید شده توسط گروه توسعه ملل متحد برای نظارت و تجزیه و تحلیل توسعه انسانی.
ELKI - چارچوب داده کاوی در جاوا با توابع تجسم گرا داده کاوی.
KNIME – Konstanz Information Miner، یک چارچوب تجزیه و تحلیل داده کاربرپسند و جامع.
نارنجی - یک ابزار برنامه نویسی بصری که شامل تجسم داده های تعاملی و روش هایی برای تجزیه و تحلیل داده های آماری، داده کاوی و یادگیری ماشین است.
پانداها – کتابخانه پایتون برای تجزیه و تحلیل داده ها.
چارچوب تجزیه و تحلیل داده های PAW – FORTRAN/C که در سرن توسعه یافته است.
R – زبان برنامه نویسی و محیط نرم افزاری برای محاسبات آماری و گرافیک.
ROOT - چارچوب تجزیه و تحلیل داده C++ که در CERN ایجاد شده است.
SciPy – کتابخانه پایتون برای تجزیه و تحلیل داده ها.
جولیا - یک زبان برنامه نویسی مناسب برای تجزیه و تحلیل عددی و علوم محاسباتی.
تکنیک های تجزیه و تحلیل داده های کمی
نویسنده جاناتان کومی مجموعه ای از بهترین شیوه ها را برای درک داده های کمی توصیه کرده است. این شامل:
قبل از انجام داده کاوی خام را برای ناهنجاری ها بررسی کنید.
محاسبات مهم را مجدداً انجام دهید، مانند تأیید ستونهای دادهای که فرمول محور هستند.
تأیید کنید که مجموع اصلی مجموع جمعهای فرعی است.
بررسی روابط بین اعدادی که باید به روشی قابل پیش بینی مرتبط باشند، مانند نسبت ها در طول زمان.
اعداد را عادی کنید تا مقایسه ها آسان تر شود، مانند تجزیه و تحلیل مقادیر به ازای هر فرد یا نسبت به تولید ناخالص داخلی یا به عنوان یک مقدار شاخص نسبت به سال پایه.
با تجزیه و تحلیل عواملی که منجر به نتایج می شود، مشکلات را به اجزای سازنده تقسیم کنید، مانند تجزیه و تحلیل DuPont از بازده حقوق صاحبان سهام.
برای متغیرهای مورد بررسی، تحلیلگران معمولاً آمار توصیفی مانند میانگین (متوسط)، میانه و انحراف معیار را برای آنها به دست می آورند. همچنین ممکن است توزیع متغیرهای کلیدی را تجزیه و تحلیل کنند تا ببینند چگونه مقادیر فردی حول میانگین جمع می شوند.