کلان داده
توسط Ali Raghimi
کلان داده به داده هایی اطلاق می شود که به قدری بزرگ، سریع یا پیچیده هستند که پردازش آنها با استفاده از روش های سنتی دشوار یا غیرممکن است. عمل دسترسی و ذخیره مقادیر زیادی از اطلاعات برای تجزیه و تحلیل برای مدت طولانی وجود داشته است.
کلان داده در درجه اول به مجموعه داده هایی اطلاق می شود که بیش از حد بزرگ یا پیچیده هستند که نمی توان با نرم افزارهای کاربردی پردازش داده سنتی به آنها پرداخت. دادههای با ورودیهای زیاد (ردیفها) قدرت آماری بیشتری را ارائه میدهند، در حالی که دادههایی با پیچیدگی بالاتر (ویژگیها یا ستونهای بیشتر) ممکن است به نرخ کشف نادرست بالاتری منجر شود. اگرچه گاهی اوقات به دلیل فقدان تعریف رسمی تا حدودی استفاده می شود، بهترین تفسیر این است که حجم وسیعی از اطلاعات است که فقط در مقادیر کم قابل درک نیست.
چالش های تجزیه و تحلیل کلان داده ها شامل جمع آوری داده ها، ذخیره سازی داده ها، تجزیه و تحلیل داده ها، جستجو، اشتراک گذاری، انتقال، تجسم، پرس و جو، به روز رسانی، حریم خصوصی اطلاعات و منبع داده است. کلان داده در ابتدا با سه مفهوم کلیدی مرتبط بود: حجم، تنوع و سرعت. تجزیه و تحلیل کلان داده ها چالش هایی را در نمونه گیری ایجاد می کند و بنابراین قبلاً فقط مشاهدات و نمونه گیری را مجاز می دانست. بنابراین مفهوم چهارم، درستی، به کیفیت یا بینش داده ها اشاره دارد. بدون سرمایهگذاری کافی در تخصص برای صحت کلان دادهها، حجم و تنوع دادهها میتواند هزینهها و ریسکهایی را ایجاد کند که بیش از ظرفیت سازمان برای ایجاد و گرفتن ارزش از دادههای بزرگ است.
استفاده کنونی از واژه کلان داده به استفاده از تجزیه و تحلیل پیش بینی کننده، تجزیه و تحلیل رفتار کاربر یا برخی دیگر از روش های پیشرفته تجزیه و تحلیل داده اشاره دارد که ارزش را از داده های بزرگ استخراج می کند و به ندرت به اندازه خاصی از مجموعه داده ها می پردازد. «تردید کمی وجود دارد که مقادیر دادههای موجود در حال حاضر واقعاً زیاد است، اما این مهمترین ویژگی این اکوسیستم داده جدید نیست.» تجزیه و تحلیل مجموعه دادهها میتواند همبستگیهای جدیدی را برای «پیدا کردن روندهای تجاری، پیشگیری از بیماریها، مبارزه با جرایم و غیره». دانشمندان، مدیران تجاری، پزشکان، تبلیغات و دولتها به طور منظم با مجموعه دادههای بزرگ در زمینههایی از جمله جستجوهای اینترنتی، فینتک، تجزیه و تحلیل مراقبتهای بهداشتی، سیستمهای اطلاعات جغرافیایی، انفورماتیک شهری و انفورماتیک تجاری با مشکلاتی مواجه میشوند. دانشمندان در کار E-Science با محدودیت هایی از جمله هواشناسی، ژنومیک، کانکتومیک، شبیه سازی پیچیده فیزیک، زیست شناسی و تحقیقات محیطی مواجه می شوند.
تعریف
اصطلاح کلان داده از دهه ۱۹۹۰ مورد استفاده قرار گرفته است، و برخی به جان مشی برای محبوبیت این اصطلاح اعتبار می دهند. دادههای بزرگ معمولاً شامل مجموعههای دادهای با اندازههایی فراتر از توانایی ابزارهای نرمافزاری رایج برای جمعآوری، مدیریت، مدیریت و پردازش دادهها در یک زمان سپری شده قابل تحمل است. فلسفه داده های بزرگ شامل داده های بدون ساختار، نیمه ساختاریافته و ساختاریافته است. با این حال، تمرکز اصلی بر روی داده های بدون ساختار است. "اندازه" داده های بزرگ یک هدف دائما در حال حرکت است. از سال ۲۰۱۲، از چند ده ترابایت تا بسیاری زتابایت داده. دادههای بزرگ به مجموعهای از تکنیکها و فنآوریها با اشکال جدید ادغام نیاز دارند تا بینشهایی را از مجموعههای دادهای که متنوع، پیچیده و در مقیاس وسیع هستند آشکار کنند.
«تنوع»، «صحت»، و «مقابلههای مختلف» دیگر توسط برخی سازمانها برای توصیف آن اضافه شدهاند، تجدیدنظری که توسط برخی مقامات صنعت به چالش کشیده شده است. Vs داده های بزرگ اغلب به عنوان "سه مقابل"، "چهار در مقابل" و "پنج در مقابل" نامیده می شد. آنها کیفیت داده های بزرگ را در حجم، تنوع، سرعت، صحت و ارزش نشان می دادند. تغییرپذیری اغلب به عنوان کیفیت اضافی کلان داده گنجانده می شود.
یک تعریف در سال ۲۰۱۸ بیان میکند که «دادههای بزرگ جایی است که ابزارهای محاسباتی موازی برای مدیریت دادهها مورد نیاز است» و خاطرنشان میکند: «این نشاندهنده یک تغییر مشخص و واضح در علم کامپیوتر مورد استفاده است، از طریق تئوریهای برنامهنویسی موازی، و از دست دادن برخی از تضمینها و قابلیت های ساخته شده توسط مدل رابطه ای کاد."
در یک مطالعه مقایسه ای از مجموعه داده های بزرگ، کیچین و مک آردل دریافتند که هیچ یک از ویژگی های رایج داده های بزرگ در همه موارد تجزیه و تحلیل شده به طور ثابت ظاهر نمی شود. به همین دلیل، مطالعات دیگر تعریف مجدد دینامیک قدرت در کشف دانش را به عنوان ویژگی تعیین کننده شناسایی کردند. این دیدگاه جایگزین، به جای تمرکز بر ویژگیهای ذاتی دادههای بزرگ، درک رابطهای از شی را پیش میبرد و ادعا میکند که آنچه مهم است نحوه جمعآوری، ذخیره، در دسترس قرار گرفتن و تجزیه و تحلیل دادهها است.
کلان داده در مقابل هوش تجاری
رشد فزاینده این مفهوم تفاوت بین "داده های بزرگ" و "هوش تجاری" را به وضوح مشخص می کند:
هوش تجاری از ابزارهای ریاضی کاربردی و آمار توصیفی با داده هایی با تراکم اطلاعات بالا برای اندازه گیری اشیا، تشخیص روندها و غیره استفاده می کند.
کلان داده از تحلیل ریاضی، بهینهسازی، آمار استقرایی و مفاهیم مربوط به شناسایی سیستم غیرخطی برای استنتاج قوانین (رگرسیون، روابط غیرخطی و اثرات علی) از مجموعههای بزرگ دادهها با چگالی اطلاعات پایین برای آشکار کردن روابط و وابستگیها استفاده میکند. یا برای انجام پیش بینی نتایج و رفتارها.
پست های توصیه شده
تحول دیجیتال
14 مهر, 1402
تجزیه و تحلیل داده ها
14 مهر, 1402
آموزش مجازی
14 مهر, 1402