Big Data چیست؟

Birhosting Big Data index
توسط

Big Data ترکیبی از داده‌های ساختاریافته، نیمه ساختاریافته و بدون ساختار است که توسط سازمان‌ها جمع‌آوری می‌شوند و می‌توانند برای اطلاعات استخراج شوند و در پروژه‌های یادگیری ماشین، مدل‌سازی پیش‌بینی‌کننده و دیگر برنامه‌های تحلیلی پیشرفته مورد استفاده قرار گیرند.

سیستم‌هایی که داده‌های بزرگ را پردازش و ذخیره می‌کنند، به جزء مشترک معماری‌های مدیریت داده در سازمان‌ها تبدیل شده‌اند، همراه با ابزارهایی که از کاربردهای تجزیه و تحلیل داده‌های بزرگ پشتیبانی می‌کنند. داده های بزرگ اغلب با سه V مشخص می شوند:

حجم زیاد داده در بسیاری از محیط ها؛
طیف گسترده ای از انواع داده ها که اغلب در سیستم های داده های بزرگ ذخیره می شوند. و
سرعتی که در آن بسیاری از داده ها تولید، جمع آوری و پردازش می شوند.
این ویژگی ها اولین بار در سال ۲۰۰۱ توسط داگ لین، تحلیلگر شرکت مشاوره Meta Group Inc. گارتنر پس از تصاحب Meta Group در سال ۲۰۰۵، آنها را بیشتر محبوب کرد. اخیراً چندین V دیگر به توصیف های مختلف داده های بزرگ از جمله صحت، ارزش و تنوع اضافه شده است.

اگرچه داده‌های بزرگ با حجم خاصی از داده برابری نمی‌کند، استقرار داده‌های بزرگ اغلب شامل ترابایت، پتابایت و حتی اگزابایت داده ایجاد و جمع‌آوری شده در طول زمان است.

چرا Big Data مهم است؟

شرکت ها از داده های بزرگ در سیستم های خود برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپین های بازاریابی شخصی و سایر اقداماتی که در نهایت می تواند درآمد و سود را افزایش دهد، استفاده می کنند. کسب‌وکارهایی که از آن استفاده می‌کنند به طور مؤثر دارای مزیت رقابتی بالقوه‌ای نسبت به کسانی هستند که این کار را نمی‌کنند، زیرا می‌توانند سریع‌تر و آگاهانه‌تر تصمیم‌گیری کنند.

به عنوان مثال، داده های بزرگ بینش های ارزشمندی را در مورد مشتریان ارائه می دهد که شرکت ها می توانند از آنها برای اصلاح بازاریابی، تبلیغات و تبلیغات خود به منظور افزایش تعامل مشتری و نرخ تبدیل استفاده کنند. داده های تاریخی و بلادرنگ را می توان برای ارزیابی ترجیحات در حال تحول مصرف کنندگان یا خریداران شرکتی تجزیه و تحلیل کرد و به کسب و کارها این امکان را می دهد تا به خواسته ها و نیازهای مشتری پاسخ دهند.

داده های بزرگ همچنین توسط محققان پزشکی برای شناسایی علائم بیماری و عوامل خطر و توسط پزشکان برای کمک به تشخیص بیماری ها و شرایط پزشکی در بیماران استفاده می شود. علاوه بر این، ترکیبی از داده‌های سوابق الکترونیکی سلامت، سایت‌های رسانه‌های اجتماعی، وب و سایر منابع به سازمان‌های مراقبت‌های بهداشتی و سازمان‌های دولتی اطلاعات به‌روز درباره تهدیدات یا شیوع بیماری‌های عفونی می‌دهد.

در اینجا چند نمونه دیگر از نحوه استفاده از داده های بزرگ توسط سازمان ها آورده شده است:

در صنعت انرژی، Big Data به شرکت‌های نفت و گاز کمک می‌کند تا مکان‌های حفاری احتمالی را شناسایی کرده و عملیات خط لوله را نظارت کنند. به همین ترتیب، شرکت های برق از آن برای ردیابی شبکه های برق استفاده می کنند.
شرکت های خدمات مالی از سیستم های کلان داده برای مدیریت ریسک و تجزیه و تحلیل بلادرنگ داده های بازار استفاده می کنند.
تولیدکنندگان و شرکت های حمل و نقل برای مدیریت زنجیره تامین خود و بهینه سازی مسیرهای تحویل به داده های بزرگ متکی هستند.
سایر کاربردهای دولت شامل واکنش اضطراری، پیشگیری از جرم و ابتکارات شهر هوشمند است.

نمونه هایی از داده های بزرگ چیست؟

داده‌های بزرگ از منابع بی‌شماری به دست می‌آیند - برخی از نمونه‌ها عبارتند از: سیستم‌های پردازش تراکنش، پایگاه‌های داده مشتریان، اسناد، ایمیل‌ها، سوابق پزشکی، گزارش‌های جریان کلیک اینترنتی، برنامه‌های تلفن همراه و شبکه‌های اجتماعی. همچنین شامل داده‌های تولید شده توسط ماشین، مانند فایل‌های گزارش شبکه و سرور و داده‌های حسگرهای ماشین‌های تولیدی، تجهیزات صنعتی و دستگاه‌های اینترنت اشیا است.

علاوه بر داده‌های سیستم‌های داخلی، محیط‌های کلان داده اغلب داده‌های خارجی در مورد مصرف‌کنندگان، بازارهای مالی، شرایط آب و هوایی و ترافیک، اطلاعات جغرافیایی، تحقیقات علمی و موارد دیگر را در خود جای می‌دهند. تصاویر، ویدئوها و فایل‌های صوتی نیز فرم‌هایی از داده‌های بزرگ هستند و بسیاری از برنامه‌های کاربردی داده‌های بزرگ شامل جریان داده‌هایی هستند که به‌طور مستمر پردازش و جمع‌آوری می‌شوند.

شکستن V از داده های بزرگ
حجم رایج ترین مشخصه داده های بزرگ است. لازم نیست یک محیط کلان داده حاوی مقدار زیادی داده باشد، اما بیشتر آنها به دلیل ماهیت داده هایی که در آنها جمع آوری و ذخیره می شود، این کار را انجام می دهند. کلیک‌استریم‌ها، گزارش‌های سیستم و سیستم‌های پردازش جریانی از جمله منابعی هستند که معمولاً حجم عظیمی از داده‌ها را به صورت مداوم تولید می‌کنند.

Big Data همچنین طیف گسترده ای از انواع داده ها را شامل می شود، از جمله موارد زیر:

داده های ساخت یافته، مانند معاملات و سوابق مالی؛
داده های بدون ساختار، مانند متن، اسناد و فایل های چند رسانه ای. و
داده های نیمه ساختاری، مانند گزارش های وب سرور و جریان داده ها از حسگرها.
ممکن است لازم باشد انواع داده های مختلف با هم در سیستم های کلان داده ذخیره و مدیریت شوند. علاوه بر این، برنامه های کاربردی داده های بزرگ اغلب شامل مجموعه های داده متعددی هستند که ممکن است از قبل یکپارچه نشوند. برای مثال، یک پروژه تجزیه و تحلیل کلان داده ممکن است سعی کند فروش یک محصول را با همبستگی داده‌های مربوط به فروش گذشته، بازده، بررسی آنلاین و تماس‌های خدمات مشتری پیش‌بینی کند.

سرعت به سرعتی اشاره دارد که داده ها با آن تولید می شوند و باید پردازش و تجزیه و تحلیل شوند. در بسیاری از موارد، مجموعه‌ای از داده‌های بزرگ به‌جای به‌روزرسانی‌های روزانه، هفتگی یا ماهانه که در بسیاری از انبارهای داده سنتی انجام می‌شود، به‌صورت واقعی یا تقریباً واقعی به‌روزرسانی می‌شوند. مدیریت سرعت داده نیز مهم است زیرا تجزیه و تحلیل داده های بزرگ به یادگیری ماشین و هوش مصنوعی (AI) گسترش می یابد، جایی که فرآیندهای تحلیلی به طور خودکار الگوهایی را در داده ها پیدا می کنند و از آنها برای ایجاد بینش استفاده می کنند.

داده های بزرگ چگونه ذخیره و پردازش می شوند؟

داده های بزرگ اغلب در یک دریاچه داده ذخیره می شوند. در حالی که انبارهای داده معمولاً بر روی پایگاه‌های داده رابطه‌ای ساخته می‌شوند و فقط حاوی داده‌های ساختاریافته هستند، دریاچه‌های داده می‌توانند انواع مختلف داده را پشتیبانی کنند و معمولاً مبتنی بر خوشه‌های Hadoop، سرویس‌های ذخیره‌سازی اشیاء ابری، پایگاه‌های داده NoSQL یا دیگر پلت‌فرم‌های Big Data هستند.

بسیاری از محیط های کلان داده چندین سیستم را در یک معماری توزیع شده ترکیب می کنند. به عنوان مثال، یک دریاچه داده مرکزی ممکن است با پلتفرم های دیگر، از جمله پایگاه داده های رابطه ای یا یک انبار داده، ادغام شود. داده‌ها در سیستم‌های کلان داده ممکن است به صورت خام باقی بمانند و سپس در صورت نیاز برای استفاده‌های تحلیلی خاص فیلتر و سازماندهی شوند. در موارد دیگر، با استفاده از ابزارهای داده کاوی و نرم افزار آماده سازی داده، پیش پردازش شده است، بنابراین برای برنامه هایی که به طور منظم اجرا می شوند، آماده است.

پردازش کلان داده، نیازهای سنگینی را بر روی زیرساخت محاسباتی اساسی ایجاد می کند. قدرت محاسباتی مورد نیاز اغلب توسط سیستم‌های خوشه‌ای ارائه می‌شود که با استفاده از فناوری‌هایی مانند Hadoop و موتور پردازش Spark، بارهای کاری پردازشی را در بین صدها یا هزاران سرور کالا توزیع می‌کنند.

بدست آوردن چنین ظرفیت پردازشی به روشی مقرون به صرفه یک چالش است. در نتیجه، ابر مکان محبوبی برای سیستم های داده بزرگ است. سازمان‌ها می‌توانند سیستم‌های مبتنی بر ابر خود را مستقر کنند یا از پیشنهادات مدیریت شده داده‌های بزرگ به‌عنوان یک سرویس از ارائه‌دهندگان ابری استفاده کنند. کاربران ابری می توانند تعداد سرورهای مورد نیاز را به اندازه کافی برای تکمیل پروژه های تجزیه و تحلیل داده های بزرگ افزایش دهند. کسب‌وکار فقط هزینه ذخیره‌سازی و زمان محاسبه‌ای را که استفاده می‌کند پرداخت می‌کند، و نمونه‌های ابری می‌توانند تا زمانی که دوباره مورد نیاز نباشند خاموش شوند.


پست های توصیه شده