Big Data چیست؟
توسط Fateme Zahra
Big Data ترکیبی از دادههای ساختاریافته، نیمه ساختاریافته و بدون ساختار است که توسط سازمانها جمعآوری میشوند و میتوانند برای اطلاعات استخراج شوند و در پروژههای یادگیری ماشین، مدلسازی پیشبینیکننده و دیگر برنامههای تحلیلی پیشرفته مورد استفاده قرار گیرند.
سیستمهایی که دادههای بزرگ را پردازش و ذخیره میکنند، به جزء مشترک معماریهای مدیریت داده در سازمانها تبدیل شدهاند، همراه با ابزارهایی که از کاربردهای تجزیه و تحلیل دادههای بزرگ پشتیبانی میکنند. داده های بزرگ اغلب با سه V مشخص می شوند:
حجم زیاد داده در بسیاری از محیط ها؛
طیف گسترده ای از انواع داده ها که اغلب در سیستم های داده های بزرگ ذخیره می شوند. و
سرعتی که در آن بسیاری از داده ها تولید، جمع آوری و پردازش می شوند.
این ویژگی ها اولین بار در سال ۲۰۰۱ توسط داگ لین، تحلیلگر شرکت مشاوره Meta Group Inc. گارتنر پس از تصاحب Meta Group در سال ۲۰۰۵، آنها را بیشتر محبوب کرد. اخیراً چندین V دیگر به توصیف های مختلف داده های بزرگ از جمله صحت، ارزش و تنوع اضافه شده است.
اگرچه دادههای بزرگ با حجم خاصی از داده برابری نمیکند، استقرار دادههای بزرگ اغلب شامل ترابایت، پتابایت و حتی اگزابایت داده ایجاد و جمعآوری شده در طول زمان است.
چرا Big Data مهم است؟
شرکت ها از داده های بزرگ در سیستم های خود برای بهبود عملیات، ارائه خدمات بهتر به مشتریان، ایجاد کمپین های بازاریابی شخصی و سایر اقداماتی که در نهایت می تواند درآمد و سود را افزایش دهد، استفاده می کنند. کسبوکارهایی که از آن استفاده میکنند به طور مؤثر دارای مزیت رقابتی بالقوهای نسبت به کسانی هستند که این کار را نمیکنند، زیرا میتوانند سریعتر و آگاهانهتر تصمیمگیری کنند.
به عنوان مثال، داده های بزرگ بینش های ارزشمندی را در مورد مشتریان ارائه می دهد که شرکت ها می توانند از آنها برای اصلاح بازاریابی، تبلیغات و تبلیغات خود به منظور افزایش تعامل مشتری و نرخ تبدیل استفاده کنند. داده های تاریخی و بلادرنگ را می توان برای ارزیابی ترجیحات در حال تحول مصرف کنندگان یا خریداران شرکتی تجزیه و تحلیل کرد و به کسب و کارها این امکان را می دهد تا به خواسته ها و نیازهای مشتری پاسخ دهند.
داده های بزرگ همچنین توسط محققان پزشکی برای شناسایی علائم بیماری و عوامل خطر و توسط پزشکان برای کمک به تشخیص بیماری ها و شرایط پزشکی در بیماران استفاده می شود. علاوه بر این، ترکیبی از دادههای سوابق الکترونیکی سلامت، سایتهای رسانههای اجتماعی، وب و سایر منابع به سازمانهای مراقبتهای بهداشتی و سازمانهای دولتی اطلاعات بهروز درباره تهدیدات یا شیوع بیماریهای عفونی میدهد.
در اینجا چند نمونه دیگر از نحوه استفاده از داده های بزرگ توسط سازمان ها آورده شده است:
در صنعت انرژی، Big Data به شرکتهای نفت و گاز کمک میکند تا مکانهای حفاری احتمالی را شناسایی کرده و عملیات خط لوله را نظارت کنند. به همین ترتیب، شرکت های برق از آن برای ردیابی شبکه های برق استفاده می کنند.
شرکت های خدمات مالی از سیستم های کلان داده برای مدیریت ریسک و تجزیه و تحلیل بلادرنگ داده های بازار استفاده می کنند.
تولیدکنندگان و شرکت های حمل و نقل برای مدیریت زنجیره تامین خود و بهینه سازی مسیرهای تحویل به داده های بزرگ متکی هستند.
سایر کاربردهای دولت شامل واکنش اضطراری، پیشگیری از جرم و ابتکارات شهر هوشمند است.
نمونه هایی از داده های بزرگ چیست؟
دادههای بزرگ از منابع بیشماری به دست میآیند - برخی از نمونهها عبارتند از: سیستمهای پردازش تراکنش، پایگاههای داده مشتریان، اسناد، ایمیلها، سوابق پزشکی، گزارشهای جریان کلیک اینترنتی، برنامههای تلفن همراه و شبکههای اجتماعی. همچنین شامل دادههای تولید شده توسط ماشین، مانند فایلهای گزارش شبکه و سرور و دادههای حسگرهای ماشینهای تولیدی، تجهیزات صنعتی و دستگاههای اینترنت اشیا است.
علاوه بر دادههای سیستمهای داخلی، محیطهای کلان داده اغلب دادههای خارجی در مورد مصرفکنندگان، بازارهای مالی، شرایط آب و هوایی و ترافیک، اطلاعات جغرافیایی، تحقیقات علمی و موارد دیگر را در خود جای میدهند. تصاویر، ویدئوها و فایلهای صوتی نیز فرمهایی از دادههای بزرگ هستند و بسیاری از برنامههای کاربردی دادههای بزرگ شامل جریان دادههایی هستند که بهطور مستمر پردازش و جمعآوری میشوند.
شکستن V از داده های بزرگ
حجم رایج ترین مشخصه داده های بزرگ است. لازم نیست یک محیط کلان داده حاوی مقدار زیادی داده باشد، اما بیشتر آنها به دلیل ماهیت داده هایی که در آنها جمع آوری و ذخیره می شود، این کار را انجام می دهند. کلیکاستریمها، گزارشهای سیستم و سیستمهای پردازش جریانی از جمله منابعی هستند که معمولاً حجم عظیمی از دادهها را به صورت مداوم تولید میکنند.
Big Data همچنین طیف گسترده ای از انواع داده ها را شامل می شود، از جمله موارد زیر:
داده های ساخت یافته، مانند معاملات و سوابق مالی؛
داده های بدون ساختار، مانند متن، اسناد و فایل های چند رسانه ای. و
داده های نیمه ساختاری، مانند گزارش های وب سرور و جریان داده ها از حسگرها.
ممکن است لازم باشد انواع داده های مختلف با هم در سیستم های کلان داده ذخیره و مدیریت شوند. علاوه بر این، برنامه های کاربردی داده های بزرگ اغلب شامل مجموعه های داده متعددی هستند که ممکن است از قبل یکپارچه نشوند. برای مثال، یک پروژه تجزیه و تحلیل کلان داده ممکن است سعی کند فروش یک محصول را با همبستگی دادههای مربوط به فروش گذشته، بازده، بررسی آنلاین و تماسهای خدمات مشتری پیشبینی کند.
سرعت به سرعتی اشاره دارد که داده ها با آن تولید می شوند و باید پردازش و تجزیه و تحلیل شوند. در بسیاری از موارد، مجموعهای از دادههای بزرگ بهجای بهروزرسانیهای روزانه، هفتگی یا ماهانه که در بسیاری از انبارهای داده سنتی انجام میشود، بهصورت واقعی یا تقریباً واقعی بهروزرسانی میشوند. مدیریت سرعت داده نیز مهم است زیرا تجزیه و تحلیل داده های بزرگ به یادگیری ماشین و هوش مصنوعی (AI) گسترش می یابد، جایی که فرآیندهای تحلیلی به طور خودکار الگوهایی را در داده ها پیدا می کنند و از آنها برای ایجاد بینش استفاده می کنند.
داده های بزرگ چگونه ذخیره و پردازش می شوند؟
داده های بزرگ اغلب در یک دریاچه داده ذخیره می شوند. در حالی که انبارهای داده معمولاً بر روی پایگاههای داده رابطهای ساخته میشوند و فقط حاوی دادههای ساختاریافته هستند، دریاچههای داده میتوانند انواع مختلف داده را پشتیبانی کنند و معمولاً مبتنی بر خوشههای Hadoop، سرویسهای ذخیرهسازی اشیاء ابری، پایگاههای داده NoSQL یا دیگر پلتفرمهای Big Data هستند.
بسیاری از محیط های کلان داده چندین سیستم را در یک معماری توزیع شده ترکیب می کنند. به عنوان مثال، یک دریاچه داده مرکزی ممکن است با پلتفرم های دیگر، از جمله پایگاه داده های رابطه ای یا یک انبار داده، ادغام شود. دادهها در سیستمهای کلان داده ممکن است به صورت خام باقی بمانند و سپس در صورت نیاز برای استفادههای تحلیلی خاص فیلتر و سازماندهی شوند. در موارد دیگر، با استفاده از ابزارهای داده کاوی و نرم افزار آماده سازی داده، پیش پردازش شده است، بنابراین برای برنامه هایی که به طور منظم اجرا می شوند، آماده است.
پردازش کلان داده، نیازهای سنگینی را بر روی زیرساخت محاسباتی اساسی ایجاد می کند. قدرت محاسباتی مورد نیاز اغلب توسط سیستمهای خوشهای ارائه میشود که با استفاده از فناوریهایی مانند Hadoop و موتور پردازش Spark، بارهای کاری پردازشی را در بین صدها یا هزاران سرور کالا توزیع میکنند.
بدست آوردن چنین ظرفیت پردازشی به روشی مقرون به صرفه یک چالش است. در نتیجه، ابر مکان محبوبی برای سیستم های داده بزرگ است. سازمانها میتوانند سیستمهای مبتنی بر ابر خود را مستقر کنند یا از پیشنهادات مدیریت شده دادههای بزرگ بهعنوان یک سرویس از ارائهدهندگان ابری استفاده کنند. کاربران ابری می توانند تعداد سرورهای مورد نیاز را به اندازه کافی برای تکمیل پروژه های تجزیه و تحلیل داده های بزرگ افزایش دهند. کسبوکار فقط هزینه ذخیرهسازی و زمان محاسبهای را که استفاده میکند پرداخت میکند، و نمونههای ابری میتوانند تا زمانی که دوباره مورد نیاز نباشند خاموش شوند.
پست های توصیه شده
کلان داده
14 مهر, 1402
تحول دیجیتال
14 مهر, 1402
تجزیه و تحلیل داده ها
14 مهر, 1402