نحوه راه اندازی گوشی های هوشمند و رایانه های شخصی. پرتال اطلاعاتی
  • خانه
  • ویندوز 10
  • سیستم های کلان داده چیست؟ داده های بزرگ چیست: ویژگی ها، طبقه بندی، مثال ها

سیستم های کلان داده چیست؟ داده های بزرگ چیست: ویژگی ها، طبقه بندی، مثال ها

اطلاعات بزرگ- انگلیسی. "اطلاعات بزرگ". این اصطلاح به عنوان جایگزینی برای DBMS ظاهر شد و زمانی که اکثر غول های صنعت - IBM، Microsoft، HP، Oracle و دیگران شروع به استفاده از این مفهوم در استراتژی های خود کردند، به یکی از روندهای اصلی زیرساخت فناوری اطلاعات تبدیل شد. Big Data به عنوان یک آرایه عظیم (صدها ترابایتی) از داده ها که به روش های سنتی قابل پردازش نیستند، درک می شود. گاهی اوقات - ابزارها و روش های پردازش این داده ها.

نمونه‌هایی از منابع کلان داده: رویدادهای RFID، پیام‌ها در شبکه‌های اجتماعی، آمار هواشناسی، اطلاعات مربوط به موقعیت مکانی مشترکین شبکه‌های تلفن همراه، و داده‌های دستگاه‌های ضبط صدا/فیلم. بنابراین، "داده های بزرگ" به طور گسترده در تولید، مراقبت های بهداشتی، مدیریت دولتی، کسب و کار اینترنتی - به ویژه در تجزیه و تحلیل مخاطبان هدف استفاده می شود.

مشخصه

نشانه های کلان داده به صورت "سه در مقابل" تعریف می شوند: حجم - حجم (واقعاً بزرگ). تنوع - ناهمگونی، مجموعه؛ سرعت - سرعت (به پردازش بسیار سریع نیاز دارد).

کلان داده ها اغلب بدون ساختار هستند و برای پردازش آنها به الگوریتم های خاصی نیاز است. روش های تجزیه و تحلیل کلان داده ها عبارتند از:

  • ("داده کاوی") - مجموعه ای از رویکردها برای کشف دانش مفید پنهان که با روش های استاندارد نمی توان به دست آورد.
  • جمع سپاری (جمعیت - "جمعیت"، منبع یابی - استفاده به عنوان منبع) - حل وظایف مهم با تلاش مشترک داوطلبانی که در یک قرارداد کار و روابط الزام آور نیستند، فعالیت های هماهنگ با استفاده از ابزارهای فناوری اطلاعات.
  • ادغام و ادغام داده ها ("اختلاط و ادغام داده ها") - مجموعه ای از روش ها برای اتصال چندین منبع به عنوان بخشی از تجزیه و تحلیل عمیق.
  • یادگیری ماشین ("یادگیری ماشین") زیربخشی از تحقیقات هوش مصنوعی است که روش های استفاده از تجزیه و تحلیل آماری و به دست آوردن پیش بینی ها را بر اساس مدل های اساسی مطالعه می کند.
  • تشخیص الگو (به عنوان مثال، تشخیص چهره در منظره یاب دوربین یا دوربین فیلمبرداری)؛
  • تجزیه و تحلیل فضایی - استفاده از توپولوژی، هندسه و جغرافیا برای ساخت داده ها.
  • تجسم داده ها - خروجی اطلاعات تحلیلی در قالب تصاویر و نمودارها با استفاده از ابزارهای تعاملی و انیمیشن ها برای ردیابی نتایج و ایجاد پایه ای برای نظارت بیشتر.

ذخیره سازی و تجزیه و تحلیل اطلاعات بر روی تعداد زیادی سرور با کارایی بالا انجام می شود. فناوری کلیدی Hadoop است که منبع باز است.

از آنجایی که مقدار اطلاعات فقط در طول زمان افزایش می یابد، مشکل در بدست آوردن داده ها نیست، بلکه در نحوه پردازش آنها با حداکثر سود است. به طور کلی، فرآیند کار با داده های بزرگ شامل: جمع آوری اطلاعات، ساختاردهی آن، ایجاد بینش و زمینه ها، و توسعه توصیه هایی برای اقدام است. حتی قبل از مرحله اول، مهم است که هدف کار را به وضوح تعریف کنید: برای مثال، تعیین مخاطب هدف محصول دقیقاً برای چه داده هایی مورد نیاز است. در غیر این صورت، خطر به دست آوردن اطلاعات زیادی بدون درک دقیق نحوه استفاده از آنها وجود دارد.

ما مرتباً به کلمات و تعاریفی برخورد می کنیم که به نظر می رسد معنای آنها به طور شهودی برای ما روشن است، اما تصویر روشنی از چیستی این چیز و نحوه کار آن نداریم.

یکی از این مفاهیم Big Data است، در روسی گاهی اوقات می توانید یک ترجمه تحت اللفظی پیدا کنید - "داده های بزرگ"، اما اغلب مردم می گویند و می نویسند: داده های بزرگ. احتمالاً همه این عبارت را در اینترنت شنیده‌اند یا حداقل با آن برخورد کرده‌اند، و به نظر ساده می‌آید، اما منظور دقیقاً برای انسان‌شناسان اداری که از پیچیدگی‌های دنیای دیجیتال به دور هستند، همیشه روشن نیست.

یک تلاش عالی برای پر کردن این شکاف در مغز گسترده ترین کاربران مقاله یکی از نویسندگان مورد علاقه ما برنارد مار است که به نام «داده بزرگ چیست؟ توضیح فوق العاده ساده برای همه". بدون عبارات نامفهوم، صرفاً به منظور توضیح ایده های کلیدی این پدیده برای همه، صرف نظر از تحصیلات و زمینه فعالیت.

در واقع، در چند سال گذشته، ما قبلاً در دنیایی زندگی می‌کردیم که از طریق داده‌های بزرگ به آن نفوذ کرده بود، اما همچنان در درک این موضوع سردرگم می‌شویم. این تا حدودی به دلیل این واقعیت است که خود مفهوم Big Data دائماً در حال تغییر و بازاندیشی است، زیرا دنیای فناوری‌های پیشرفته و پردازش مقادیر زیادی از اطلاعات به سرعت در حال تغییر است، از جمله گزینه‌های بیشتر و بیشتر. و حجم این اطلاعات مدام در حال افزایش است.

بنابراین، Big Data - 2017 به چه معناست؟

همه چیز با رشد انفجاری در حجم داده هایی که از آغاز عصر دیجیتال ایجاد کرده ایم آغاز شد. این امر عمدتاً با رشد تعداد و قدرت رایانه‌ها، گسترش اینترنت و توسعه فناوری‌هایی که قادر به گرفتن اطلاعات از دنیای واقعی و فیزیکی که همه ما در آن زندگی می‌کنیم و تبدیل آن به داده‌های دیجیتال امکان‌پذیر شده است.

در سال 2017، زمانی که آنلاین می شویم، زمانی که از تلفن های هوشمند مجهز به GPS خود استفاده می کنیم، زمانی که با دوستان خود در رسانه های اجتماعی گپ می زنیم، زمانی که برنامه های تلفن همراه یا موسیقی دانلود می کنیم، هنگام خرید، داده تولید می کنیم.

می توان گفت هر کاری که انجام می دهیم، اگر اقدامات ما شامل هر گونه تراکنش دیجیتالی باشد، ردپای دیجیتالی زیادی از خود به جای می گذاریم. این تقریباً همیشه و همه جا است.

علاوه بر این، میزان داده های تولید شده توسط خود ماشین ها با سرعت فوق العاده ای در حال رشد است. داده ها زمانی ایجاد و منتقل می شوند که دستگاه های هوشمند ما با یکدیگر ارتباط برقرار کنند. کارخانه های تولیدی در سرتاسر جهان مجهز به تجهیزاتی هستند که شبانه روز داده ها را جمع آوری و ارسال می کند.

در آینده نزدیک، خیابان‌های ما مملو از ماشین‌های خودران خواهند شد که بر اساس نقشه‌های ۴ بعدی تولید شده در زمان واقعی، مسیریابی خود را انجام می‌دهند.

کلان داده چه کاری می تواند انجام دهد؟

جریان روزافزون اطلاعات حسی، عکس‌ها، پیام‌های متنی، داده‌های صوتی و تصویری در قلب Big Data قرار دارد که می‌توانیم از آن‌ها به روش‌هایی استفاده کنیم که حتی چند سال پیش غیرقابل تصور بود.

در حال حاضر، پروژه های مبتنی بر داده های بزرگ کمک می کنند:

- درمان بیماری ها و پیشگیری از سرطان. پزشکی مبتنی بر داده های بزرگ حجم عظیمی از سوابق و تصاویر پزشکی را تجزیه و تحلیل می کند، که تشخیص زودهنگام را ممکن می کند و به ایجاد درمان های جدید کمک می کند.

- با گرسنگی مبارزه کنید. کشاورزی در حال تجربه یک انقلاب واقعی داده‌های بزرگ است که امکان استفاده از منابع را به گونه‌ای فراهم می‌کند که با حداقل تداخل با اکوسیستم محصول را به حداکثر می‌رساند و استفاده از ماشین‌آلات و تجهیزات را بهینه می‌کند.

- سیارات دور را کشف کنید. به عنوان مثال، ناسا حجم عظیمی از داده ها را تجزیه و تحلیل می کند و با کمک آنها مدل هایی از ماموریت های آینده به جهان های دور را می سازد.

- پیش بینی شرایط اضطراریماهیت متفاوتی دارد و آسیب های احتمالی را به حداقل می رساند. داده‌های چند حسگر می‌توانند مکان و زمان وقوع زلزله بعدی یا واکنش مردم در مواقع اضطراری را پیش‌بینی کنند و شانس بقا را افزایش دهند.

- جلوگیری از جرم و جنایتاز طریق استفاده از فناوری هایی که امکان تخصیص کارآمدتر منابع را فراهم می کند و آنها را به جایی که بیشتر مورد نیاز است هدایت می کند.

و نزدیکترین چیز به بسیاری از ما: داده های بزرگ زندگی یک فرد معمولی را آسان تر و راحت تر می کند - این خرید آنلاین، برنامه ریزی سفر و پیمایش در یک کلان شهر است.

انتخاب بهترین زمان برای خرید بلیط هواپیما و تصمیم گیری برای تماشای کدام فیلم یا سریال به لطف کار Big Data بسیار آسان شده است.

چگونه کار می کند؟

کلان داده بر این اصل کار می کند که هر چه بیشتر در مورد چیزی بدانید، می توانید با دقت بیشتری پیش بینی کنید که در آینده چه اتفاقی خواهد افتاد. مقایسه داده های فردی و روابط بین آنها (ما در مورد حجم عظیمی از داده ها و تعداد فوق العاده زیادی از ارتباطات احتمالی بین آنها صحبت می کنیم) الگوهای پنهان قبلی را نشان می دهد. این باعث می‌شود که به درون مشکل نگاه کنیم و در نهایت بفهمیم که چگونه می‌توانیم این یا آن فرآیند را مدیریت کنیم.

اغلب، فرآیند پردازش مقادیر زیادی از اطلاعات شامل ساخت مدل‌های مبتنی بر داده‌های جمع‌آوری‌شده و شبیه‌سازی‌های در حال اجرا است که در طی آن تنظیمات کلیدی دائماً در حال تغییر هستند، در حالی که هر بار سیستم نظارت می‌کند که چگونه «تغییر تنظیمات» بر نتیجه احتمالی تأثیر می‌گذارد.

این فرآیند کاملاً خودکار است، زیرا ما در مورد تجزیه و تحلیل میلیون‌ها شبیه‌سازی صحبت می‌کنیم، همه گزینه‌های ممکن را مرتب می‌کنیم تا زمانی که الگو (طرح مورد نظر) پیدا شود یا تا زمانی که "روشنگری" رخ دهد، که به حل مشکلی که همه چیز برای آن شروع شده است کمک می کند.

برخلاف دنیای اشیاء و محاسبات آشنا برای ما، داده ها به شکلی بدون ساختار دریافت می شوند، یعنی انتقال آن به جداول با سلول ها و ستون های آشنا برای ما، مردم، دشوار است. حجم عظیمی از داده ها به صورت تصویر یا ویدیو منتقل می شود: از تصاویر ماهواره ای گرفته تا سلفی هایی که در اینستاگرام یا فیس بوک ارسال می کنید - درست مانند ورودی های ایمیل و پیام رسان یا تماس های تلفنی.

برای دادن معنای عملی به همه این جریان بی پایان و متنوع داده ها، Big Data اغلب از پیشرفته ترین فناوری های تجزیه و تحلیل استفاده می کند که شامل هوش مصنوعی و یادگیری ماشین می شود (این زمانی است که یک برنامه در رایانه برنامه های دیگر را آموزش می دهد).

رایانه‌ها خودشان یاد می‌گیرند که مشخص کنند این یا آن اطلاعات چه چیزی را نشان می‌دهند - به عنوان مثال، تشخیص تصاویر، زبان - و می‌توانند این کار را بسیار سریع‌تر از انسان‌ها انجام دهند.

برادر بزرگتر؟

به تناسب فرصت‌های بی‌سابقه‌ای که امروزه Big Data در اختیار ما قرار می‌دهد، تعداد نگرانی‌ها و سوالات مرتبط با استفاده از آن در حال افزایش است.

حریم خصوصی داده های شخصی. Big Data حجم عظیمی از اطلاعات را در مورد زندگی خصوصی ما جمع آوری می کند. اطلاعات زیادی وجود دارد که ما ترجیح می دهیم آنها را مخفی نگه داریم.

ایمنی. حتی اگر تصمیم بگیریم که انتقال تمام اطلاعات شخصی خود به یک دستگاه برای اهداف خاصی که برای ما مفید است اشکالی ندارد، آیا می‌توانیم مطمئن باشیم که داده‌های ما در مکانی امن ذخیره می‌شوند؟
چه کسی و چگونه می توانیم این را تضمین کنیم؟

تبعیض وقتی همه چیز مشخص است، آیا تبعیض علیه افراد بر اساس آنچه در مورد آنها به لطف داده های بزرگ شناخته شده است قابل قبول است؟ بانک ها از سابقه اعتباری شما استفاده می کنند و شرکت های بیمه بیمه خودرو را بر اساس اطلاعاتی که در مورد شما می دانند قیمت گذاری می کنند. این تا کجا می تواند پیش برود؟

می توان فرض کرد که برای به حداقل رساندن خطرات، شرکت ها، سازمان های دولتی و حتی افراد از آنچه می توانند در مورد ما یاد بگیرند استفاده می کنند و به دلایلی دسترسی ما به منابع و اطلاعات را محدود می کنند.

با همه مزایا، باید بدانیم که همه این نگرانی‌ها نیز بخشی جدایی‌ناپذیر از داده‌های بزرگ هستند. تا همین اواخر، دانشمندان در مورد پاسخ ها متحیر بودند، اما اکنون زمان آن فرا رسیده است که موج به کسب و کاری رسیده است که می خواهد از مزایای Big Data برای اهداف خود استفاده کند. و این می تواند مملو از عواقب فاجعه بار باشد.

Big Data (یا Big Data) مجموعه ای از روش ها برای کار با حجم عظیمی از اطلاعات ساختاریافته یا بدون ساختار است. متخصصان کلان داده درگیر پردازش و تجزیه و تحلیل آن برای به دست آوردن نتایج بصری و قابل درک برای انسان هستند. Look At Me با متخصصان صحبت کرد و متوجه شد که وضعیت پردازش کلان داده در روسیه چگونه است، برای کسانی که می خواهند در این زمینه کار کنند کجا و چه چیزی بهتر است مطالعه کنند.

الکسی ریوکین در مورد مسیرهای اصلی در زمینه داده های بزرگ، ارتباط با مشتریان و دنیای اعداد

من در موسسه فناوری الکترونیک مسکو تحصیل کردم. مهمترین چیزی که من توانستم از آنجا بیرون بیایم دانش اساسی فیزیک و ریاضیات بود. همزمان با تحصیل، در مرکز تحقیق و توسعه کار می‌کردم، جایی که مشغول توسعه و پیاده‌سازی الگوریتم‌های کدگذاری تصحیح خطا برای انتقال امن داده‌ها بودم. پس از فارغ التحصیلی از مقطع کارشناسی، وارد مقطع کارشناسی ارشد انفورماتیک بازرگانی در دانشکده عالی اقتصاد شدم. بعد از آن می خواستم در IBS کار کنم. خوش شانس بودم که در آن زمان به دلیل پروژه های زیاد، کارآموزی اضافه شد و پس از چندین مصاحبه، در IBS یکی از بزرگترین شرکت های روسی در این زمینه مشغول به کار شدم. در عرض سه سال، من از یک کارآموز به یک معمار راه حل های سازمانی تبدیل شدم. اکنون من در حال توسعه تخصص فن آوری های Big Data برای شرکت های مشتری از بخش های مالی و مخابرات هستم.

دو تخصص اصلی برای افرادی که می خواهند با داده های بزرگ کار کنند وجود دارد: تحلیلگران و مشاوران فناوری اطلاعات که فناوری هایی را برای کار با داده های بزرگ ایجاد می کنند. علاوه بر این، می توان در مورد حرفه تحلیلگر داده های بزرگ، یعنی افرادی که مستقیماً با داده ها کار می کنند، با پلتفرم IT مشتری صحبت کرد. قبلاً اینها تحلیلگران ریاضی معمولی بودند که آمار و ریاضیات را می دانستند و با کمک نرم افزارهای آماری مسائل تجزیه و تحلیل داده ها را حل می کردند. امروزه علاوه بر دانش آمار و ریاضیات، شناخت فناوری و چرخه حیات داده ها نیز مورد نیاز است. به نظر من این تفاوت بین Data Analyst مدرن و آن دسته از تحلیلگرانی است که قبلاً بودند.

تخصص من مشاوره فناوری اطلاعات است، یعنی راه هایی را برای حل مشکلات تجاری با استفاده از فناوری های IT به مشتریان ارائه می دهم. افراد با تجربه های مختلف به مشاوره مراجعه می کنند، اما مهمترین ویژگی های این حرفه توانایی درک نیازهای مشتری، تمایل به کمک به افراد و سازمان ها، ارتباط خوب و مهارت های تیمی است (از آنجایی که همیشه با مشتری کار می کند و در یک تیم)، مهارت های تحلیلی خوب. انگیزه داخلی بسیار مهم است: ما در یک محیط رقابتی کار می کنیم و مشتری منتظر راه حل های غیر معمول و علاقه به کار است.

بیشتر وقت من صرف برقراری ارتباط با مشتریان، رسمی کردن نیازهای تجاری آنها و کمک به توسعه مناسب ترین معماری فناوری می شود. معیارهای انتخاب در اینجا ویژگی خاص خود را دارند: علاوه بر عملکرد و TCO (هزینه کل مالکیت - هزینه کل مالکیت)، الزامات غیر کاربردی برای سیستم بسیار مهم است، اغلب این زمان پاسخگویی، زمان پردازش اطلاعات است. برای متقاعد کردن مشتری، ما اغلب از رویکرد اثبات مفهوم استفاده می‌کنیم - پیشنهاد می‌کنیم فناوری را به صورت رایگان در برخی کارها، روی یک مجموعه داده محدود، آزمایش کنیم تا مطمئن شویم که فناوری کار می‌کند. راه حل باید با به دست آوردن مزایای اضافی (مثلاً فروش x، فروش متقابل) یک مزیت رقابتی برای مشتری ایجاد کند یا نوعی مشکل تجاری را حل کند، مثلاً سطح بالای تقلب اعتباری را کاهش دهد.

اگر مشتریان با یک کار آماده بیایند بسیار ساده تر خواهد بود،اما تا زمانی که متوجه شوند که یک فناوری انقلابی وجود دارد که می تواند بازار را در چند سال تغییر دهد

با چه مشکلاتی روبرو هستید؟ بازار هنوز آماده استفاده از فناوری های کلان داده نیست. اگر مشتریان با یک کار آماده بیایند بسیار ساده تر خواهد بود، اما تا کنون آنها نمی دانند که یک فناوری انقلابی ظاهر شده است که می تواند بازار را در چند سال تغییر دهد. به همین دلیل است که ما در واقع در حالت راه اندازی کار می کنیم - ما فقط فن آوری ها را نمی فروشیم، بلکه هر بار مشتریان را متقاعد می کنیم که باید روی این راه حل ها سرمایه گذاری کنند. این چنین موقعیتی است که رویاپردازان است - ما به مشتریان نشان می دهیم که چگونه می توانند تجارت خود را با مشارکت داده ها و فناوری اطلاعات تغییر دهند. ما در حال ایجاد این بازار جدید هستیم - بازار مشاوره تجاری فناوری اطلاعات در زمینه داده های بزرگ.

اگر فردی بخواهد در زمینه Big Data به تجزیه و تحلیل داده ها یا مشاوره فناوری اطلاعات بپردازد، اولین چیزی که مهم است، تحصیلات ریاضی یا فنی با پیشینه ریاضی خوب است. همچنین تسلط بر فناوری های خاص، به عنوان مثال SAS، Hadoop، زبان R یا راه حل های IBM مفید است. علاوه بر این، شما باید فعالانه به برنامه های کاربردی برای Big Data علاقه مند باشید - برای مثال، چگونه می توان از آنها برای بهبود امتیازدهی اعتباری در بانک یا مدیریت چرخه عمر مشتری استفاده کرد. این و دانش دیگر را می توان از منابع موجود به دست آورد: به عنوان مثال، دانشگاه Coursera و Big Data. همچنین یک طرح تحلیل مشتری در دانشگاه وارتون پنسیلوانیا وجود دارد که در آن مطالب جالب زیادی منتشر شده است.

یک مشکل جدی برای کسانی که می خواهند در زمینه ما کار کنند، کمبود واضح اطلاعات در مورد Big Data است. شما نمی توانید به یک کتابفروشی یا وب سایتی بروید و برای مثال، مجموعه ای جامع از موارد مربوط به تمام کاربردهای فناوری های داده های بزرگ در بانک ها را دریافت کنید. چنین راهنماهایی وجود ندارد. برخی از اطلاعات در کتاب‌ها یافت می‌شود، بخشی دیگر در کنفرانس‌ها جمع‌آوری می‌شود و برخی دیگر را باید خودتان کشف کنید.

مشکل دیگر این است که تحلیلگران در دنیای اعداد راحت هستند، اما همیشه در تجارت راحت نیستند. این افراد اغلب درونگرا هستند، در برقراری ارتباط مشکل دارند، و بنابراین برایشان مشکل است که به طور متقاعدکننده ای نتایج تحقیقات را به مشتریان منتقل کنند. برای توسعه این مهارت‌ها، کتاب‌هایی مانند اصل هرم، زبان نمودارها صحبت کنید را توصیه می‌کنم. آنها به توسعه مهارت های ارائه کمک می کنند، به طور مختصر و واضح افکار خود را بیان می کنند.

شرکت در مسابقات قهرمانی مختلف در حین تحصیل در مدرسه عالی اقتصاد به من کمک زیادی کرد. مسابقات قهرمانی موردی مسابقات فکری برای دانش آموزان است که در آن شما باید مشکلات کسب و کار را مطالعه کنید و برای آنها راه حل ارائه دهید. آنها به دو شکل می آیند: مسابقات قهرمانی مورد شرکت مشاوره مانند McKinsey، BCG، Accenture، و مسابقات قهرمانی مستقل مانند Changellenge. هنگام شرکت در آنها، یاد گرفتم که مشکلات پیچیده را ببینم و حل کنم - از شناسایی یک مشکل و ساختار آن گرفته تا دفاع از توصیه هایی برای حل آن.

اولگ میخالسکی در مورد بازار روسیه و ویژگی های ایجاد یک محصول جدید در زمینه داده های بزرگ

قبل از پیوستن به Acronis، من قبلاً درگیر عرضه محصولات جدید به بازار در شرکت های دیگر بودم. همیشه جالب و در عین حال چالش برانگیز است، بنابراین من بلافاصله به فرصتی برای کار روی سرویس های ابری و راه حل های ذخیره سازی داده علاقه مند شدم. در این زمینه، تمام تجربیات قبلی من در صنعت IT مفید واقع شد، از جمله پروژه استارتاپ خودم I-accelerator. همچنین به داشتن تحصیلات بازرگانی (MBA) علاوه بر مهندسی پایه کمک کرد.

در روسیه، شرکت های بزرگ - بانک ها، اپراتورهای تلفن همراه و غیره - به تجزیه و تحلیل داده های بزرگ نیاز دارند، بنابراین در کشور ما چشم اندازهایی برای کسانی که می خواهند در این زمینه کار کنند وجود دارد. درست است، بسیاری از پروژه ها اکنون یکپارچه هستند، یعنی بر اساس پیشرفت های خارجی یا فناوری های منبع باز ساخته می شوند. در چنین پروژه هایی اساساً رویکردها و فناوری های جدیدی ایجاد نمی شود، بلکه پیشرفت های موجود سازگار می شوند. در Acronis، ما مسیر متفاوتی را در پیش گرفتیم و پس از تجزیه و تحلیل گزینه‌های موجود، تصمیم گرفتیم در توسعه خود سرمایه‌گذاری کنیم، در نتیجه یک سیستم ذخیره‌سازی قابل اعتماد برای کلان داده‌ها ایجاد شد که از نظر هزینه پایین‌تر از Amazon S3 نیست، اما به طور قابل اعتماد کار می‌کند. و کارآمد و در مقیاس بسیار کوچکتر. شرکت‌های اینترنتی بزرگ نیز پیشرفت‌های خاص خود را در زمینه داده‌های بزرگ دارند، اما بیشتر بر نیازهای داخلی متمرکز هستند تا نیازهای مشتریان خارجی.

درک روندها و نیروهای اقتصادی که بر حوزه پردازش داده های بزرگ تأثیر می گذارند، مهم است. برای این کار باید زیاد مطالعه کنید، به سخنرانی های کارشناسان معتبر صنعت IT گوش دهید، در کنفرانس های موضوعی شرکت کنید. اکنون تقریباً هر کنفرانس بخشی در مورد داده های بزرگ دارد، اما همه آنها از زاویه متفاوتی در مورد آن صحبت می کنند: از نقطه نظر فناوری، تجارت یا بازاریابی. می توانید برای کار پروژه ای یا کارآموزی در شرکتی که قبلاً پروژه هایی در این زمینه دارد بروید. اگر به توانایی های خود اطمینان دارید، پس برای سازماندهی یک استارتاپ در زمینه داده های بزرگ دیر نیست.

بدون تماس مداوم با بازارتوسعه جدید خطر عدم ادعا را دارد

درست است، زمانی که شما مسئول یک محصول جدید هستید، زمان زیادی صرف تجزیه و تحلیل بازار و ارتباط با مشتریان بالقوه، شرکا، تحلیلگران حرفه ای می شود که اطلاعات زیادی در مورد مشتریان و نیازهای آنها دارند. بدون تماس مداوم با بازار، یک توسعه جدید خطر بی ادعا شدن را دارد. همیشه ابهامات زیادی وجود دارد: باید بدانید چه کسی اولین کاربران (پذیرندگان اولیه)، چه چیزی برای آنها ارزش دارد و چگونه می توانید مخاطبان انبوه را جذب کنید. دومین وظیفه مهم این است که یک چشم انداز روشن و جامع از محصول نهایی را شکل داده و به توسعه دهندگان منتقل کنیم تا آنها را برای کار در چنین شرایطی ترغیب کنیم، زمانی که برخی از الزامات ممکن است هنوز تغییر کنند و اولویت ها به بازخورد مشتریان اول بستگی دارد. بنابراین، یک وظیفه مهم مدیریت انتظارات مشتریان از یک سو و توسعه دهندگان از سوی دیگر است. به طوری که هیچ یک از آنها علاقه خود را از دست نمی دهند و پروژه را به پایان می رسانند. پس از اولین پروژه موفق، کار آسان تر می شود و وظیفه اصلی یافتن مدل رشد مناسب برای کسب و کار جدید خواهد بود.

در محیط روسی زبان به عنوان یک اصطلاح استفاده می شود اطلاعات بزرگو مفهوم "داده های بزرگ". اصطلاح "داده های بزرگ" ردیابی یک اصطلاح انگلیسی است. کلان داده تعریف دقیقی ندارد. ترسیم یک مرز واضح غیرممکن است - 10 ترابایت است یا 10 مگابایت؟ نام خود بسیار ذهنی است. کلمه "بزرگ" در میان قبایل بدوی مانند "یک، دو، چند" است.

با این حال، یک عقیده ثابت وجود دارد که داده های بزرگ مجموعه ای از فناوری ها هستند که برای انجام سه عملیات طراحی شده اند. اول، برای پردازش مقادیر بیشتری از داده ها در مقایسه با سناریوهای "استاندارد". دوم اینکه بتوانید با داده های ورودی سریع در حجم بسیار زیاد کار کنید. یعنی نه تنها داده های زیادی وجود دارد، بلکه دائماً تعداد آنها بیشتر و بیشتر می شود. ثالثاً، آنها باید بتوانند با داده های ساختار یافته و ضعیف به طور موازی در جنبه های مختلف کار کنند. کلان داده فرض می کند که الگوریتم ها جریانی از اطلاعات را دریافت می کنند که همیشه ساختارمند نیستند و می توان بیش از یک ایده را از آن استخراج کرد.

یک مثال معمولی از کلان داده، اطلاعاتی است که از امکانات آزمایشی فیزیکی مختلف به دست می‌آید - به عنوان مثال، از، که حجم عظیمی از داده را تولید می‌کند و همیشه آن را انجام می‌دهد. نصب به طور مداوم حجم زیادی از داده ها را تولید می کند و دانشمندان از آنها برای حل بسیاری از مشکلات به طور موازی استفاده می کنند.

ظهور کلان داده ها در فضای عمومی به این دلیل بود که این داده ها تقریباً همه افراد را تحت تأثیر قرار داد و نه فقط جامعه علمی را که مدت هاست چنین مشکلاتی حل شده است. به حوزه عمومی فناوری اطلاعات بزرگزمانی که شروع به صحبت در مورد یک عدد بسیار خاص - تعداد ساکنان سیاره - شد، ظاهر شد. 7 میلیارد جمع آوری در شبکه های اجتماعی و پروژه های دیگر که افراد را جمع می کند. یوتیوب, فیس بوک, در تماس با، که در آن تعداد افراد به میلیاردها اندازه گیری می شود و تعداد عملیات هایی که همزمان انجام می دهند بسیار زیاد است. جریان داده در این مورد اقدامات کاربر است. مثلا دیتای همون هاست یوتیوب، که در هر دو جهت روی شبکه جریان دارند. پردازش نه تنها به معنای تفسیر، بلکه توانایی پردازش صحیح هر یک از این اقدامات است، یعنی قرار دادن آن در مکان مناسب و در دسترس قرار دادن سریع این داده ها در اختیار هر کاربر، زیرا شبکه های اجتماعی انتظار را تحمل نمی کنند.

بسیاری از آنچه به کلان داده مربوط می شود، رویکردهایی که برای تجزیه و تحلیل آن استفاده می شود، در واقع، برای مدت طولانی وجود داشته است. به عنوان مثال، پردازش تصاویر از دوربین های نظارتی، زمانی که ما در مورد یک تصویر صحبت نمی کنیم، بلکه در مورد یک جریان داده صحبت می کنیم. یا روبات های ناوبری. همه اینها برای چندین دهه وجود داشته است، فقط در حال حاضر وظایف پردازش داده ها بر تعداد بسیار بیشتری از افراد و ایده ها تأثیر گذاشته است.

بسیاری از توسعه دهندگان به کار با اشیاء ثابت عادت کرده اند و بر اساس حالت ها فکر می کنند. در کلان داده، پارادایم متفاوت است. شما باید بتوانید با یک جریان بی وقفه از داده ها کار کنید و این کار جالبی است. بیشتر و بیشتر مناطق را تحت تأثیر قرار می دهد.

در زندگی ما، سخت افزارها و نرم افزارهای بیشتری شروع به تولید حجم زیادی از داده ها می کنند - به عنوان مثال، "اینترنت اشیا".

چیزها در حال حاضر جریان های عظیمی از اطلاعات را ایجاد می کنند. سیستم پلیس پوتوک اطلاعات را از تمام دوربین ها ارسال می کند و به شما امکان می دهد با استفاده از این داده ها خودروها را پیدا کنید. دستبندهای تناسب اندام، ردیاب های GPS و چیزهای دیگری که وظایف یک فرد و کسب و کار را انجام می دهند، بیشتر و بیشتر به مد می آیند.

دپارتمان اطلاعات مسکو تعداد زیادی تحلیلگر داده را جذب می کند، زیرا آمارهای زیادی در مورد افراد وجود دارد و چند معیاره است (یعنی آمار در مورد هر فرد، در مورد هر گروه از افراد بر اساس آمار بسیار بزرگ جمع آوری می شود. تعداد معیارها). باید در این داده ها قاعده مندی و گرایش یافت. برای چنین وظایفی به ریاضیدانانی با تحصیلات فناوری اطلاعات نیاز است. زیرا در نهایت داده ها در DBMS ساختاریافته ذخیره می شوند و شما باید بتوانید به آن دسترسی داشته باشید و اطلاعاتی را به دست آورید.

پیش از این، داده های بزرگ را به عنوان یک کار در نظر نمی گرفتیم به این دلیل ساده که جایی برای ذخیره آن وجود نداشت و شبکه ای برای انتقال آن وجود نداشت. هنگامی که این فرصت ها ظاهر شدند، داده ها بلافاصله کل حجم ارائه شده به آنها را پر کردند. اما مهم نیست که چقدر پهنای باند و ظرفیت ذخیره‌سازی داده‌ها افزایش یافته است، همیشه منابعی وجود خواهند داشت، به عنوان مثال، آزمایش‌های فیزیک، آزمایش‌هایی روی مدل‌سازی ساده‌سازی بال‌ها، که اطلاعات بیشتری از آنچه ما می‌توانیم منتقل کنیم، تولید می‌کنند. طبق قانون مور، عملکرد سیستم‌های محاسباتی موازی مدرن به طور پیوسته در حال افزایش است و سرعت شبکه‌های انتقال داده نیز افزایش می‌یابد. با این حال، داده ها باید بتوانند به سرعت از رسانه های ذخیره سازی (هارد دیسک و انواع دیگر حافظه) ذخیره و بازیابی شوند و این یکی دیگر از چالش های پردازش داده های بزرگ است.

اصطلاح "داده های بزرگ" ممکن است امروزه قابل تشخیص باشد، اما هنوز در مورد معنای واقعی آن سردرگمی کمی وجود دارد. در حقیقت، این مفهوم به طور مداوم در حال تکامل و بازتعریف است زیرا نیروی محرکه بسیاری از امواج مداوم تحول دیجیتال از جمله هوش مصنوعی، علم داده و اینترنت اشیا باقی می‌ماند. اما فناوری Big-Data چیست و چگونه دنیای ما را تغییر می دهد؟ بیایید سعی کنیم ماهیت فناوری Big Data و معنای آن را در کلمات ساده درک کنیم.

رشد شگفت انگیز داده های بزرگ

همه چیز با یک "انفجار" در حجم داده هایی که ما از آغاز عصر دیجیتال ایجاد کرده ایم آغاز شد. این تا حد زیادی به دلیل توسعه رایانه‌ها، اینترنت و فناوری‌هایی است که می‌توانند داده‌ها را از دنیای اطراف ما «ربا» کنند. داده ها به خودی خود اختراع جدیدی نیست. حتی قبل از عصر رایانه ها و پایگاه های داده، ما از سوابق تراکنش های کاغذی، سوابق مشتری و فایل های آرشیو که داده ها هستند استفاده می کردیم. رایانه ها، به ویژه صفحات گسترده و پایگاه های داده، ذخیره و سازماندهی داده ها را در مقیاس بزرگ برای ما آسان کرده اند. به طور ناگهانی، اطلاعات با کلیک ماوس در دسترس است.

با این حال، ما فاصله زیادی با جداول و پایگاه داده های اصلی داشته ایم. امروز، هر دو روز یک بار به همان اندازه که از ابتدا تا سال 2000 دریافت کرده بودیم، ایجاد می کنیم. درست است، هر دو روز یکبار. و مقدار داده‌ای که ما ایجاد می‌کنیم همچنان سر به فلک می‌کشد. تا سال 2020، میزان اطلاعات دیجیتال موجود از حدود 5 زتابایت به 20 زتابایت افزایش خواهد یافت.

امروزه تقریباً هر اقدامی که انجام می‌دهیم اثر خود را بر جای می‌گذارد. هر زمان که به اینترنت دسترسی پیدا می کنیم، زمانی که گوشی های هوشمند خود را مجهز به موتور جستجو می کنیم، زمانی که با آشنایان خود از طریق شبکه های اجتماعی یا چت صحبت می کنیم و غیره، داده تولید می کنیم. علاوه بر این، میزان داده های تولید شده توسط ماشین نیز به سرعت در حال رشد است. زمانی که دستگاه های خانه هوشمند ما با یکدیگر یا با سرورهای خانگی خود ارتباط برقرار می کنند، داده ها تولید و به اشتراک گذاشته می شود. تجهیزات صنعتی در کارخانه ها و کارخانه ها به طور فزاینده ای به حسگرهایی مجهز می شوند که داده ها را جمع آوری و انتقال می دهند.

اصطلاح "داده های بزرگ" به مجموعه ای از همه این داده ها و توانایی ما در استفاده از آنها به نفع خود در طیف گسترده ای از زمینه ها از جمله تجارت اشاره دارد.

فناوری Big Data چگونه کار می کند؟

کلان داده بر اساس این اصل کار می کند: هرچه بیشتر در مورد یک موضوع یا پدیده خاص بدانید، با اطمینان بیشتری می توانید به درک جدیدی دست پیدا کنید و آنچه در آینده اتفاق خواهد افتاد را پیش بینی کنید. با مقایسه نقاط داده بیشتر، روابطی که قبلاً پنهان بودند ظاهر می شوند و این روابط به ما امکان می دهد یاد بگیریم و تصمیمات بهتری بگیریم. این اغلب از طریق فرآیندی انجام می‌شود که شامل ساخت مدل‌هایی از داده‌هایی است که می‌توانیم جمع‌آوری کنیم و سپس شبیه‌سازی را اجرا می‌کنیم که هر بار مقادیر نقاط داده را تغییر می‌دهد و می‌بیند که چگونه بر نتایج ما تأثیر می‌گذارند. این فرآیند خودکار است - فناوری‌های تحلیلی مدرن میلیون‌ها مورد از این شبیه‌سازی‌ها را اجرا می‌کنند و هر متغیر ممکن را تا زمانی که مدل یا ایده‌ای را پیدا کنند که به حل مشکلی که روی آن کار می‌کنند کمک می‌کند، دستکاری می‌کنند.

بیل گیتس روی محتویات کاغذ یک سی دی آویزان است

تا همین اواخر، داده ها به صفحات گسترده یا پایگاه داده محدود می شد - و همه چیز بسیار منظم و مرتب بود. هر چیزی که نمی‌توانست به راحتی در ردیف‌ها و ستون‌ها سازماندهی شود، برای کار کردن بسیار پیچیده در نظر گرفته می‌شد و نادیده گرفته می‌شد. با این حال، پیشرفت در ذخیره سازی و تجزیه و تحلیل به این معنی است که ما می توانیم حجم زیادی از داده ها از انواع مختلف را ضبط، ذخیره و پردازش کنیم. در نتیجه، "داده" امروزه می تواند به معنای هر چیزی باشد، از پایگاه داده گرفته تا عکس، فیلم، ضبط صدا، متون نوشته شده و داده های حسگر.

برای درک این همه داده های آشفته، پروژه های مبتنی بر داده های بزرگ اغلب از تجزیه و تحلیل پیشرفته، با استفاده از هوش مصنوعی و یادگیری ماشین استفاده می کنند. با آموزش رایانه‌ها برای تعیین اینکه داده‌های خاص چیست - به عنوان مثال، از طریق تشخیص الگو یا پردازش زبان طبیعی - می‌توانیم به آنها یاد دهیم که الگوها را بسیار سریع‌تر و قابل اعتمادتر از آنچه می‌توانیم شناسایی کنند.

داده های بزرگ چگونه استفاده می شود؟

این جریان روزافزون اطلاعات در مورد داده‌های حسگر، متن، صدا، عکس و داده‌های ویدیویی به این معنی است که اکنون می‌توانیم از داده‌ها به روش‌هایی استفاده کنیم که تا چند سال پیش غیرقابل تصور بود. این تقریباً در هر صنعتی تغییرات انقلابی را در دنیای تجارت ایجاد می کند. امروزه شرکت‌ها می‌توانند با دقت باورنکردنی پیش‌بینی کنند که کدام دسته از مشتریان می‌خواهند خرید کنند و چه زمانی. کلان داده همچنین به شرکت ها کمک می کند تا فعالیت های خود را بسیار کارآمدتر انجام دهند.

حتی در خارج از تجارت، پروژه‌های کلان داده در حال حاضر به روش‌های مختلف به تغییر دنیای ما کمک می‌کنند:

  • بهبود مراقبت های بهداشتی – پزشکی مبتنی بر داده قادر به تجزیه و تحلیل حجم وسیعی از اطلاعات پزشکی و تصاویر برای مدل هایی است که می توانند به تشخیص بیماری در مراحل اولیه و توسعه داروهای جدید کمک کنند.
  • پیش بینی و پاسخگویی به بلایای طبیعی و انسان ساز. داده های حسگر را می توان برای پیش بینی محل وقوع زلزله تجزیه و تحلیل کرد و الگوهای رفتاری انسان سرنخ هایی را ارائه می دهد که به سازمان ها کمک می کند تا به بازماندگان کمک کنند. فناوری Big Data نیز برای ردیابی و محافظت از جریان پناهندگان از مناطق جنگی در سراسر جهان استفاده می شود.
  • پیشگیری از جرم و جنایت نیروهای پلیس به طور فزاینده‌ای از استراتژی‌های مبتنی بر داده استفاده می‌کنند که اطلاعات اطلاعاتی و حوزه عمومی خود را برای استفاده بهتر از منابع و اتخاذ تدابیر متقابل در صورت نیاز به کار می‌برد.

بهترین کتاب ها در مورد فناوری Big-Data

  • همه دروغ می گویند. موتورهای جستجو، کلان داده و اینترنت همه چیز را در مورد شما می دانند.
  • اطلاعات بزرگ. تمام تکنولوژی در یک کتاب
  • صنعت شادی چگونه کلان داده و فناوری‌های جدید به افزایش احساسات به کالاها و خدمات کمک می‌کنند.
  • انقلابی در تحلیل چگونه می توان کسب و کار خود را با تجزیه و تحلیل عملیاتی در عصر داده های بزرگ بهبود بخشید.

مشکلات با داده های بزرگ

کلان داده بینش ها و فرصت های بی سابقه ای را به ما می دهد، اما همچنین مسائل و سوالاتی را ایجاد می کند که باید به آنها پرداخته شود:

  • حریم خصوصی داده ها - داده های بزرگی که امروز تولید می کنیم حاوی اطلاعات زیادی در مورد زندگی شخصی ما است که ما کاملاً حق داریم آنها را خصوصی نگه داریم. بیشتر و بیشتر از ما خواسته می شود بین میزان داده های شخصی که فاش می کنیم و راحتی که برنامه ها و خدمات مبتنی بر استفاده از Big Data ارائه می دهند تعادل ایجاد کنیم.
  • حفاظت از داده ها - حتی اگر فکر می کنیم با شخصی که داده های ما را برای هدف خاصی دارد خوب نیستیم، آیا می توانیم به او اعتماد کنیم تا داده های ما را ایمن و ایمن نگه دارد؟
  • تبعیض داده ها - وقتی همه اطلاعات مشخص باشد، آیا تبعیض علیه افراد بر اساس داده های زندگی شخصی آنها قابل قبول است؟ ما در حال حاضر از امتیازات اعتباری برای تصمیم گیری در مورد اینکه چه کسی می تواند پول قرض کند استفاده می کنیم، و بیمه نیز به شدت مبتنی بر داده است. ما باید انتظار داشته باشیم که با جزئیات بیشتری مورد تجزیه و تحلیل و ارزیابی قرار بگیریم، اما باید مراقب بود که این امر زندگی کسانی را که منابع کمتر و دسترسی محدود به اطلاعات دارند، پیچیده نکند.

انجام این وظایف بخش مهمی از داده های بزرگ است و سازمان هایی که می خواهند از چنین داده هایی استفاده کنند باید به آنها رسیدگی شود. عدم انجام این کار می تواند یک کسب و کار را نه تنها از نظر اعتبار، بلکه از نظر قانونی و مالی آسیب پذیر کند.

نگاه به آینده

داده ها جهان و زندگی ما را با سرعتی بی سابقه تغییر می دهند. اگر داده های بزرگ امروز قادر به انجام همه اینها هستند، فقط تصور کنید که فردا چه توانایی هایی خواهند داشت. مقدار داده های در دسترس ما فقط افزایش می یابد و فناوری تجزیه و تحلیل حتی پیشرفته تر می شود.

برای کسب و کارها، توانایی استفاده از داده های بزرگ در سال های آینده به طور فزاینده ای حیاتی خواهد شد. تنها شرکت هایی که به داده ها به عنوان یک دارایی استراتژیک نگاه می کنند، زنده می مانند و پیشرفت می کنند. کسانی که این انقلاب را نادیده می گیرند در خطر عقب ماندن هستند.



برترین مقالات مرتبط