کلان داده

birhosting-article-big data
توسط

کلان داده به داده هایی اطلاق می شود که به قدری بزرگ، سریع یا پیچیده هستند که پردازش آنها با استفاده از روش های سنتی دشوار یا غیرممکن است. عمل دسترسی و ذخیره مقادیر زیادی از اطلاعات برای تجزیه و تحلیل برای مدت طولانی وجود داشته است.

birhosting-article-big data

کلان داده در درجه اول به مجموعه داده هایی اطلاق می شود که بیش از حد بزرگ یا پیچیده هستند که نمی توان با نرم افزارهای کاربردی پردازش داده سنتی به آنها پرداخت. داده‌های با ورودی‌های زیاد (ردیف‌ها) قدرت آماری بیشتری را ارائه می‌دهند، در حالی که داده‌هایی با پیچیدگی بالاتر (ویژگی‌ها یا ستون‌های بیشتر) ممکن است به نرخ کشف نادرست بالاتری منجر شود. اگرچه گاهی اوقات به دلیل فقدان تعریف رسمی تا حدودی استفاده می شود، بهترین تفسیر این است که حجم وسیعی از اطلاعات است که فقط در مقادیر کم قابل درک نیست.

چالش های تجزیه و تحلیل کلان داده ها شامل جمع آوری داده ها، ذخیره سازی داده ها، تجزیه و تحلیل داده ها، جستجو، اشتراک گذاری، انتقال، تجسم، پرس و جو، به روز رسانی، حریم خصوصی اطلاعات و منبع داده است. کلان داده در ابتدا با سه مفهوم کلیدی مرتبط بود: حجم، تنوع و سرعت. تجزیه و تحلیل کلان داده ها چالش هایی را در نمونه گیری ایجاد می کند و بنابراین قبلاً فقط مشاهدات و نمونه گیری را مجاز می دانست. بنابراین مفهوم چهارم، درستی، به کیفیت یا بینش داده ها اشاره دارد. بدون سرمایه‌گذاری کافی در تخصص برای صحت کلان داده‌ها، حجم و تنوع داده‌ها می‌تواند هزینه‌ها و ریسک‌هایی را ایجاد کند که بیش از ظرفیت سازمان برای ایجاد و گرفتن ارزش از داده‌های بزرگ است.

استفاده کنونی از واژه کلان داده به استفاده از تجزیه و تحلیل پیش بینی کننده، تجزیه و تحلیل رفتار کاربر یا برخی دیگر از روش های پیشرفته تجزیه و تحلیل داده اشاره دارد که ارزش را از داده های بزرگ استخراج می کند و به ندرت به اندازه خاصی از مجموعه داده ها می پردازد. «تردید کمی وجود دارد که مقادیر داده‌های موجود در حال حاضر واقعاً زیاد است، اما این مهم‌ترین ویژگی این اکوسیستم داده جدید نیست.» تجزیه و تحلیل مجموعه داده‌ها می‌تواند همبستگی‌های جدیدی را برای «پیدا کردن روندهای تجاری، پیشگیری از بیماری‌ها، مبارزه با جرایم و غیره». دانشمندان، مدیران تجاری، پزشکان، تبلیغات و دولت‌ها به طور منظم با مجموعه داده‌های بزرگ در زمینه‌هایی از جمله جستجوهای اینترنتی، فین‌تک، تجزیه و تحلیل مراقبت‌های بهداشتی، سیستم‌های اطلاعات جغرافیایی، انفورماتیک شهری و انفورماتیک تجاری با مشکلاتی مواجه می‌شوند. دانشمندان در کار E-Science با محدودیت هایی از جمله هواشناسی، ژنومیک، کانکتومیک، شبیه سازی پیچیده فیزیک، زیست شناسی و تحقیقات محیطی مواجه می شوند.

birhosting-article-big data

تعریف

اصطلاح کلان داده از دهه ۱۹۹۰ مورد استفاده قرار گرفته است، و برخی به جان مشی برای محبوبیت این اصطلاح اعتبار می دهند. داده‌های بزرگ معمولاً شامل مجموعه‌های داده‌ای با اندازه‌هایی فراتر از توانایی ابزارهای نرم‌افزاری رایج برای جمع‌آوری، مدیریت، مدیریت و پردازش داده‌ها در یک زمان سپری شده قابل تحمل است. فلسفه داده های بزرگ شامل داده های بدون ساختار، نیمه ساختاریافته و ساختاریافته است. با این حال، تمرکز اصلی بر روی داده های بدون ساختار است. "اندازه" داده های بزرگ یک هدف دائما در حال حرکت است. از سال ۲۰۱۲، از چند ده ترابایت تا بسیاری زتابایت داده. داده‌های بزرگ به مجموعه‌ای از تکنیک‌ها و فن‌آوری‌ها با اشکال جدید ادغام نیاز دارند تا بینش‌هایی را از مجموعه‌های داده‌ای که متنوع، پیچیده و در مقیاس وسیع هستند آشکار کنند.

«تنوع»، «صحت»، و «مقابله‌های مختلف» دیگر توسط برخی سازمان‌ها برای توصیف آن اضافه شده‌اند، تجدیدنظری که توسط برخی مقامات صنعت به چالش کشیده شده است. Vs داده های بزرگ اغلب به عنوان "سه مقابل"، "چهار در مقابل" و "پنج در مقابل" نامیده می شد. آنها کیفیت داده های بزرگ را در حجم، تنوع، سرعت، صحت و ارزش نشان می دادند. تغییرپذیری اغلب به عنوان کیفیت اضافی کلان داده گنجانده می شود.

یک تعریف در سال ۲۰۱۸ بیان می‌کند که «داده‌های بزرگ جایی است که ابزارهای محاسباتی موازی برای مدیریت داده‌ها مورد نیاز است» و خاطرنشان می‌کند: «این نشان‌دهنده یک تغییر مشخص و واضح در علم کامپیوتر مورد استفاده است، از طریق تئوری‌های برنامه‌نویسی موازی، و از دست دادن برخی از تضمین‌ها و قابلیت های ساخته شده توسط مدل رابطه ای کاد."

در یک مطالعه مقایسه ای از مجموعه داده های بزرگ، کیچین و مک آردل دریافتند که هیچ یک از ویژگی های رایج داده های بزرگ در همه موارد تجزیه و تحلیل شده به طور ثابت ظاهر نمی شود. به همین دلیل، مطالعات دیگر تعریف مجدد دینامیک قدرت در کشف دانش را به عنوان ویژگی تعیین کننده شناسایی کردند. این دیدگاه جایگزین، به جای تمرکز بر ویژگی‌های ذاتی داده‌های بزرگ، درک رابطه‌ای از شی را پیش می‌برد و ادعا می‌کند که آنچه مهم است نحوه جمع‌آوری، ذخیره، در دسترس قرار گرفتن و تجزیه و تحلیل داده‌ها است.

birhosting-article-big data

کلان داده در مقابل هوش تجاری

رشد فزاینده این مفهوم تفاوت بین "داده های بزرگ" و "هوش تجاری" را به وضوح مشخص می کند:

هوش تجاری از ابزارهای ریاضی کاربردی و آمار توصیفی با داده هایی با تراکم اطلاعات بالا برای اندازه گیری اشیا، تشخیص روندها و غیره استفاده می کند.
کلان داده از تحلیل ریاضی، بهینه‌سازی، آمار استقرایی و مفاهیم مربوط به شناسایی سیستم غیرخطی برای استنتاج قوانین (رگرسیون، روابط غیرخطی و اثرات علی) از مجموعه‌های بزرگ داده‌ها با چگالی اطلاعات پایین برای آشکار کردن روابط و وابستگی‌ها استفاده می‌کند. یا برای انجام پیش بینی نتایج و رفتارها.


پست های توصیه شده