روش های تجزیه و تحلیل کلان داده ها کلان داده - سیستم های کلان داده چیست؟ توسعه فناوری های داده های بزرگ

30.07.2019 در تماس با

کلان داده (یا Big Data) مجموعه ای از روش ها برای کار با حجم عظیمی از اطلاعات ساختاریافته یا بدون ساختار است. متخصصان کلان داده آن را پردازش و تجزیه و تحلیل می کنند تا به نتایج بصری و قابل درک برای انسان دست یابند. Look At Me با متخصصان صحبت کرد و متوجه شد که وضعیت پردازش داده های بزرگ در روسیه چگونه است، برای کسانی که می خواهند در این زمینه کار کنند کجا و چه چیزی بهتر است مطالعه کنند.

الکسی ریوکین در مورد روندهای اصلی در زمینه داده های بزرگ، ارتباط با مشتریان و دنیای اعداد

من در موسسه فناوری الکترونیک مسکو تحصیل کردم. اصلی ترین چیزی که من موفق شدم از آنجا بگیرم دانش بنیادی در فیزیک و ریاضیات بود. همزمان با تحصیل، در مرکز تحقیق و توسعه کار می‌کردم، جایی که در توسعه و اجرای الگوریتم‌های کدگذاری مقاوم در برابر نویز برای انتقال امن داده‌ها مشارکت داشتم. پس از اتمام دوره لیسانس وارد مقطع کارشناسی ارشد انفورماتیک بازرگانی در دانشکده عالی اقتصاد شدم. بعد از آن می خواستم در IBS کار کنم. من خوش شانس بودم که در آن زمان به دلیل پروژه های زیاد، کارآموزان بیشتری جذب شدند و پس از چندین مصاحبه در IBS یکی از بزرگترین شرکت های روسی در این زمینه شروع به کار کردم. در سه سال، از یک کارآموز به یک معمار راه حل های سازمانی تبدیل شدم. در حال حاضر من در حال توسعه تخصص در فناوری های داده های بزرگ برای شرکت های مشتری از بخش های مالی و مخابرات هستم.

دو تخصص اصلی برای افرادی که می خواهند با کلان داده کار کنند وجود دارد: تحلیلگران و مشاوران فناوری اطلاعات که فناوری هایی را برای کار با داده های بزرگ ایجاد می کنند. علاوه بر این، می‌توان در مورد حرفه تحلیلگر داده‌های بزرگ، یعنی افرادی که مستقیماً با داده‌ها کار می‌کنند، با پلتفرم IT مشتری صحبت کرد. قبلاً اینها تحلیلگران ریاضی معمولی بودند که آمار و ریاضیات را می دانستند و از نرم افزارهای آماری برای حل مسائل تجزیه و تحلیل داده ها استفاده می کردند. امروزه علاوه بر دانش آمار و ریاضیات، شناخت فناوری و چرخه عمر داده ها نیز ضروری است. این، به نظر من، تفاوت بین تحلیلگران داده مدرن و آن دسته از تحلیلگرانی است که قبلا آمده بودند.

تخصص من مشاوره فناوری اطلاعات است، یعنی راه‌هایی را برای حل مشکلات تجاری با استفاده از فناوری‌های فناوری اطلاعات به مشتریان ارائه می‌دهم. افراد با تجربیات مختلف به مشاوره مراجعه می کنند، اما مهمترین ویژگی های این حرفه توانایی درک نیازهای مشتری، تمایل به کمک به افراد و سازمان ها، ارتباط خوب و مهارت های تیمی است (از آنجایی که همیشه با مشتری کار می کند و در یک تیم)، مهارت های تحلیلی خوب. انگیزه داخلی بسیار مهم است: ما در یک محیط رقابتی کار می کنیم و مشتری انتظار راه حل های غیر معمول و علاقه به کار را دارد.

بیشتر وقت من صرف برقراری ارتباط با مشتریان، رسمی کردن نیازهای تجاری آنها و کمک به آنها برای توسعه مناسب ترین معماری فناوری می شود. معیارهای انتخاب در اینجا ویژگی خاص خود را دارند: علاوه بر عملکرد و TCO (هزینه کل مالکیت)، الزامات غیر عملکردی برای سیستم بسیار مهم است، اغلب اینها زمان پاسخ و زمان پردازش اطلاعات است. برای متقاعد کردن مشتری، ما اغلب از یک رویکرد اثبات مفهوم استفاده می‌کنیم - پیشنهاد می‌کنیم فناوری را به صورت رایگان در برخی کارها، روی مجموعه‌ای محدود از داده‌ها، آزمایش کنیم تا مطمئن شویم که فناوری کار می‌کند. راه حل باید با به دست آوردن مزایای اضافی (مثلاً فروش x، فروش متقابل) یک مزیت رقابتی برای مشتری ایجاد کند یا نوعی مشکل تجاری را حل کند، مثلاً سطح بالای تقلب در وام را کاهش دهد.

اگر مشتریان با یک کار آماده بیایند بسیار ساده تر خواهد بود،اما تا کنون آنها متوجه نشده اند که یک فناوری انقلابی ظاهر شده است که می تواند بازار را در چند سال تغییر دهد

با چه مشکلاتی روبرو هستید؟ بازار هنوز آماده استفاده از فناوری های کلان داده نیست. اگر مشتریان با یک کار آماده بیایند بسیار ساده تر خواهد بود، اما تا کنون آنها نمی دانند که یک فناوری انقلابی ظاهر شده است که می تواند بازار را در چند سال تغییر دهد. به همین دلیل است که ما اساساً در حالت راه اندازی کار می کنیم - ما فقط فناوری نمی فروشیم، بلکه هر بار مشتریان را متقاعد می کنیم که باید روی این راه حل ها سرمایه گذاری کنند. این موضع رویاپردازان است - ما به مشتریان نشان می دهیم که چگونه می توانند کسب و کار خود را با استفاده از داده ها و فناوری اطلاعات تغییر دهند. ما در حال ایجاد این بازار جدید هستیم - بازار مشاوره تجاری فناوری اطلاعات در زمینه داده های بزرگ.

اگر شخصی بخواهد در حوزه داده های بزرگ به تجزیه و تحلیل داده ها یا مشاوره فناوری اطلاعات بپردازد، اولین چیزی که مهم است آموزش ریاضی یا فنی با آموزش ریاضی خوب است. همچنین تسلط بر فناوری های خاص، به عنوان مثال SAS، Hadoop، زبان R یا راه حل های IBM مفید است. علاوه بر این، شما باید فعالانه به برنامه های کاربردی برای Big Data علاقه مند باشید - برای مثال، چگونه می توان از آن برای بهبود امتیازدهی اعتباری در بانک یا مدیریت چرخه عمر مشتری استفاده کرد. این و دانش دیگر را می توان از منابع موجود به دست آورد: به عنوان مثال، دانشگاه Coursera و Big Data. همچنین ابتکار تحلیل مشتری در دانشگاه وارتون پنسیلوانیا وجود دارد که در آن مطالب جالب زیادی منتشر شده است.

مشکل اصلی برای کسانی که می خواهند در زمینه ما کار کنند، کمبود واضح اطلاعات در مورد Big Data است. شما نمی توانید به یک کتابفروشی یا وب سایتی بروید و برای مثال، مجموعه ای جامع از موارد مربوط به همه کاربردهای فناوری داده های بزرگ در بانک ها را دریافت کنید. چنین دایرکتوری وجود ندارد. برخی از اطلاعات در کتاب ها هستند، برخی در کنفرانس ها جمع آوری شده اند و برخی دیگر را باید خودتان کشف کنید.

مشکل دیگر این است که تحلیلگران در دنیای اعداد راحت هستند، اما در تجارت همیشه راحت نیستند. این افراد اغلب درونگرا هستند و در برقراری ارتباط با مشکل مواجه می شوند و این امر باعث می شود که آنها بتوانند یافته های تحقیق را به طور متقاعدکننده ای به مشتریان منتقل کنند. برای توسعه این مهارت‌ها، کتاب‌هایی مانند اصل هرم، زبان نمودارها صحبت کنید را توصیه می‌کنم. آنها به توسعه مهارت های ارائه کمک می کنند و افکار خود را به طور مختصر و واضح بیان می کنند.

شرکت در مسابقات قهرمانی مختلف در حین تحصیل در دانشکده عالی اقتصاد دانشگاه تحقیقات ملی کمک زیادی به من کرد. مسابقات قهرمانی موردی مسابقات فکری برای دانش آموزان است که در آن نیاز به مطالعه مشکلات تجاری و ارائه راه حل برای آنها دارند. دو نوع وجود دارد: مسابقات قهرمانی موردی شرکت های مشاوره، به عنوان مثال، McKinsey، BCG، Accenture، و همچنین مسابقات قهرمانی مستقل مانند Changellenge. در حین شرکت در آنها، یاد گرفتم مشکلات پیچیده را ببینم و حل کنم - از شناسایی یک مشکل و ساختاربندی آن تا دفاع از توصیه هایی برای راه حل آن.

اولگ میخالسکی در مورد بازار روسیه و ویژگی های ایجاد یک محصول جدید در زمینه داده های بزرگ

قبل از پیوستن به Acronis، من قبلاً درگیر عرضه محصولات جدید برای بازاریابی در شرکت های دیگر بودم. همیشه جالب و در عین حال چالش برانگیز است، بنابراین من بلافاصله به فرصتی برای کار بر روی خدمات ابری و راه حل های ذخیره سازی داده علاقه مند شدم. تمام تجربیات قبلی من در صنعت IT، از جمله پروژه استارتاپی خودم I-accelerator، در این زمینه مفید بود. داشتن تحصیلات بازرگانی (MBA) علاوه بر مدرک مهندسی پایه نیز کمک کننده است.

در روسیه، شرکت های بزرگ - بانک ها، اپراتورهای تلفن همراه و غیره - به تجزیه و تحلیل داده های بزرگ نیاز دارند، بنابراین در کشور ما چشم اندازهایی برای کسانی که می خواهند در این زمینه کار کنند وجود دارد. درست است، اکنون بسیاری از پروژه ها پروژه های یکپارچه سازی هستند، یعنی بر اساس پیشرفت های خارجی یا فناوری های منبع باز ساخته شده اند. در چنین پروژه هایی اساساً رویکردها و فناوری های جدیدی ایجاد نمی شود، بلکه پیشرفت های موجود سازگار می شوند. در Acronis، ما مسیر متفاوتی را در پیش گرفتیم و پس از تجزیه و تحلیل گزینه‌های موجود، تصمیم گرفتیم در توسعه خود سرمایه‌گذاری کنیم، در نتیجه یک سیستم ذخیره‌سازی قابل اعتماد برای کلان داده‌ها ایجاد شد که از نظر هزینه کمتر از Amazon S3 نیست، اما به طور قابل اعتماد کار می‌کند. و کارآمد و در مقیاس بسیار کوچکتر. شرکت‌های اینترنتی بزرگ نیز پیشرفت‌های خاص خود را در کلان داده دارند، اما بیشتر بر نیازهای داخلی متمرکز هستند تا نیازهای مشتریان خارجی.

درک روندها و نیروهای اقتصادی که بر حوزه داده های بزرگ تأثیر می گذارند، مهم است. برای این کار باید زیاد مطالعه کنید، به سخنرانی های کارشناسان معتبر صنعت IT گوش دهید و در کنفرانس های موضوعی شرکت کنید. در حال حاضر تقریباً هر کنفرانس بخشی در مورد داده های بزرگ دارد، اما همه آنها از زاویه متفاوتی در مورد آن صحبت می کنند: از نقطه نظر فناوری، تجارت یا بازاریابی. شما می توانید برای کار پروژه ای یا کارآموزی در شرکتی که قبلاً پروژه هایی در این زمینه پیشرو است، بروید. اگر به توانایی های خود اطمینان دارید، پس برای سازماندهی یک استارتاپ در زمینه Big Data دیر نیست.

بدون تماس مداوم با بازارخطرات توسعه جدید بدون ادعا

درست است، زمانی که شما مسئول یک محصول جدید هستید، زمان زیادی صرف تجزیه و تحلیل بازار و ارتباط با مشتریان بالقوه، شرکا و تحلیلگران حرفه ای می شود که اطلاعات زیادی در مورد مشتریان و نیازهای آنها دارند. بدون تماس مداوم با بازار، یک توسعه جدید خطر عدم ادعا را دارد. همیشه ابهامات زیادی وجود دارد: شما باید بفهمید که پذیرندگان اولیه چه کسانی خواهند بود، چه چیزی باید به آنها پیشنهاد دهید، و چگونه می توانید مخاطبان انبوه را جذب کنید. دومین وظیفه مهم این است که یک چشم انداز روشن و جامع از محصول نهایی را تدوین و به توسعه دهندگان منتقل کنیم تا آنها را تشویق کنیم تا در چنین شرایطی کار کنند، زمانی که برخی از الزامات ممکن است هنوز تغییر کنند، و اولویت ها به بازخوردهایی بستگی دارد که از اولین مشتریان دریافت می شود. بنابراین، یک وظیفه مهم مدیریت انتظارات مشتریان از یک سو و توسعه دهندگان از سوی دیگر است. به طوری که نه یکی و نه دیگری علاقه خود را از دست نمی دهند و پروژه را به اتمام می رسانند. پس از اولین پروژه موفق، آسان تر می شود و چالش اصلی پیدا کردن مدل رشد مناسب برای کسب و کار جدید خواهد بود.

اطلاعات بزرگ- این فقط خود داده نیست، بلکه فن آوری های پردازش و استفاده از آن، روش هایی برای جستجوی اطلاعات لازم در آرایه های بزرگ است. مشکل کلان داده هنوز برای هر سیستمی که چندین دهه است اطلاعات گسترده ای را جمع آوری کرده است باز و حیاتی است.

این اصطلاح با عبارت همراه است "حجم، سرعت، تنوع"- اصولی که کار با داده های بزرگ بر اساس آنها استوار است. مستقیم است مقدار اطلاعات, سرعت پردازش آنو انواع اطلاعات، در یک آرایه ذخیره می شود. اخیراً یک اصل دیگر به سه اصل اساسی اضافه شده است - ارزش، که به معنی ارزش اطلاعات. یعنی باید از نظر نظری یا عملی مفید و ضروری باشد که هزینه های نگهداری و پردازش آن را توجیه کند.

نمونه ای از یک منبع معمولی داده های بزرگ شبکه های اجتماعی هستند - هر نمایه یا صفحه عمومی نشان دهنده یک قطره کوچک در اقیانوس بدون ساختار اطلاعات است. علاوه بر این، صرف نظر از مقدار اطلاعات ذخیره شده در یک نمایه خاص، تعامل با هر کاربر باید تا حد امکان سریع باشد.

کلان داده تقریباً در هر حوزه ای از زندگی انسان به طور مداوم در حال انباشته شدن است. این شامل هر صنعتی است که شامل تعامل انسانی یا محاسبات می شود. اینها شامل رسانه های اجتماعی، پزشکی، بانکداری و همچنین سیستم های دستگاهی است که نتایج متعددی را از محاسبات روزانه دریافت می کنند. به عنوان مثال، مشاهدات نجومی، اطلاعات هواشناسی و اطلاعات از دستگاه های سنجش زمین.

اطلاعات انواع سیستم های ردیابی در زمان واقعی نیز به سرورهای یک شرکت خاص می رود. پخش تلویزیون و رادیو، پایگاه داده تماس اپراتورهای تلفن همراه - تعامل هر فرد با آنها حداقل است، اما در مجموع همه این اطلاعات به داده های بزرگ تبدیل می شوند.

فناوری‌های کلان داده جزء لاینفک تحقیق و توسعه و تجارت شده‌اند. علاوه بر این، آنها شروع به تسلط بر حوزه مدیریت عمومی کرده‌اند - و در همه جا به معرفی سیستم‌های مؤثرتر برای ذخیره‌سازی و دستکاری اطلاعات نیاز است.

اصطلاح "داده های بزرگ" برای اولین بار در سال 2008 در مطبوعات ظاهر شد، زمانی که کلیفورد لینچ، سردبیر Nature مقاله ای را در مورد توسعه آینده علم با استفاده از فناوری ها برای کار با مقادیر زیاد داده منتشر کرد. تا سال 2009، این اصطلاح تنها از نظر تحلیل علمی مورد توجه قرار می گرفت، اما پس از انتشار چندین مقاله دیگر، مطبوعات شروع به استفاده گسترده از مفهوم داده های بزرگ کردند - و امروزه نیز از آن استفاده می کنند.

در سال 2010، اولین تلاش ها برای حل مشکل رو به رشد داده های بزرگ ظاهر شد. محصولات نرم افزاری منتشر شد که هدف آن به حداقل رساندن خطرات هنگام استفاده از حجم عظیمی از اطلاعات بود.

تا سال 2011، شرکت‌های بزرگی مانند مایکروسافت، اوراکل، EMC و IBM به داده‌های بزرگ علاقه‌مند شدند - آنها اولین کسانی بودند که از توسعه داده‌های بزرگ در استراتژی‌های توسعه خود استفاده کردند و کاملاً موفقیت آمیز بودند.

دانشگاه ها در سال 2013 مطالعه کلان داده ها را به عنوان یک موضوع جداگانه آغاز کردند - اکنون نه تنها علم داده، بلکه مهندسی، همراه با موضوعات محاسباتی، با مشکلاتی در این زمینه سروکار دارد.

روش های اصلی تجزیه و تحلیل و پردازش داده ها شامل موارد زیر است:

روش های کلاس یا تحلیل عمیق (داده کاوی).

این روش‌ها بسیار زیاد هستند، اما یک چیز مشترک دارند: ابزارهای ریاضی که در ارتباط با دستاوردهای حوزه فناوری اطلاعات استفاده می‌شوند.

جمع سپاری.

این تکنیک به شما امکان می دهد داده ها را به طور همزمان از چندین منبع بدست آورید و تعداد آنها عملاً نامحدود است.

تست A/B

از کل حجم داده ها، یک مجموعه کنترلی از عناصر انتخاب می شود که به طور متناوب با سایر مجموعه های مشابه که یکی از عناصر تغییر کرده است، مقایسه می شود. انجام چنین آزمایشاتی به تعیین اینکه کدام نوسانات پارامتر بیشترین تأثیر را بر جمعیت کنترل دارد کمک می کند. به لطف حجم داده های بزرگ، می توان تعداد زیادی تکرار را انجام داد و هر یک از آنها به مطمئن ترین نتیجه نزدیک می شوند.

تجزیه و تحلیل پیش بینی کننده

متخصصان در این زمینه سعی می کنند از قبل پیش بینی و برنامه ریزی کنند که شیء کنترل شده چگونه رفتار خواهد کرد تا سودآورترین تصمیم را در این شرایط اتخاذ کنند.

یادگیری ماشینی (هوش مصنوعی).

این بر اساس تجزیه و تحلیل تجربی اطلاعات و ساخت متعاقب آن الگوریتم های خودآموز برای سیستم ها است.

تجزیه و تحلیل شبکه

متداول ترین روش برای مطالعه شبکه های اجتماعی این است که پس از به دست آوردن داده های آماری، گره های ایجاد شده در شبکه، یعنی تعاملات بین تک تک کاربران و جوامع آنها، تجزیه و تحلیل می شوند.

در سال 2017، زمانی که کلان داده دیگر چیز جدیدی و ناشناخته نبود، اهمیت آن نه تنها کاهش پیدا نکرد، بلکه حتی بیشتر شد. کارشناسان اکنون شرط بندی می کنند که تجزیه و تحلیل داده های بزرگ نه تنها برای سازمان های غول پیکر، بلکه برای مشاغل کوچک و متوسط نیز در دسترس خواهد بود. این رویکرد با استفاده از مؤلفه های زیر برنامه ریزی شده است:

فضای ذخیره ابری.

ذخیره سازی و پردازش داده ها سریعتر و مقرون به صرفه تر می شود - در مقایسه با هزینه های نگهداری از مرکز داده خود و افزایش احتمالی کارکنان، به نظر می رسد اجاره ابر جایگزین بسیار ارزان تری باشد.

استفاده از داده های تاریک

به اصطلاح "داده های تاریک" همه اطلاعات غیر دیجیتالی درباره شرکت است که نقش کلیدی در استفاده مستقیم از آن ایفا نمی کند، اما می تواند دلیلی برای تغییر فرمت جدید برای ذخیره سازی اطلاعات باشد.

هوش مصنوعی و یادگیری عمیق.

فناوری یادگیری هوش ماشینی، که ساختار و عملکرد مغز انسان را تقلید می کند، برای پردازش مقادیر زیادی از اطلاعات دائماً در حال تغییر مناسب است. در این حالت، دستگاه هر کاری را که شخص انجام می دهد انجام می دهد، اما احتمال خطا به میزان قابل توجهی کاهش می یابد.

بلاک چین

این فناوری سرعت و ساده سازی بسیاری از تراکنش های آنلاین از جمله تراکنش های بین المللی را ممکن می سازد. یکی دیگر از مزایای بلاک چین کاهش هزینه های تراکنش است.

سلف سرویس و کاهش قیمت.

در سال 2017، برنامه ریزی شده است که "پلتفرم های سلف سرویس" معرفی شود - این پلتفرم های رایگان هستند که در آن نمایندگان مشاغل کوچک و متوسط می توانند به طور مستقل داده هایی را که ذخیره می کنند ارزیابی کرده و آنها را سیستماتیک کنند.

همه استراتژی های بازاریابی به نوعی مبتنی بر دستکاری اطلاعات و تجزیه و تحلیل داده های موجود است. به همین دلیل است که استفاده از داده های بزرگ می تواند پیش بینی کند و امکان تنظیم توسعه بیشتر شرکت را فراهم کند.

به عنوان مثال، یک حراج RTB ایجاد شده بر اساس داده های بزرگ به شما امکان می دهد از تبلیغات به طور مؤثرتری استفاده کنید - یک محصول خاص فقط به گروهی از کاربرانی که علاقه مند به خرید آن هستند نشان داده می شود.

مزایای استفاده از فناوری های کلان داده در بازاریابی و تجارت چیست؟

با کمک آنها، می توانید پروژه های جدید را بسیار سریعتر ایجاد کنید، که احتمالاً در بین خریداران تقاضا می شود.
آنها به ارتباط نیازهای مشتری با خدمات موجود یا طراحی شده کمک می کنند و بنابراین آنها را تنظیم می کنند.
روش‌های کلان داده ارزیابی میزان رضایت فعلی همه کاربران و هر کاربر را ممکن می‌سازد.
افزایش وفاداری مشتری از طریق روش های پردازش کلان داده به دست می آید.
به لطف توانایی کنترل حجم عظیمی از داده ها، جذب مخاطبان هدف به صورت آنلاین آسان تر می شود.

به عنوان مثال، یکی از محبوب ترین سرویس ها برای پیش بینی محبوبیت احتمالی یک محصول، Google.trends است. این به طور گسترده توسط بازاریابان و تحلیلگران استفاده می شود و به آنها امکان می دهد آماری در مورد استفاده قبلی از یک محصول معین و پیش بینی برای فصل بعد به دست آورند. این به مدیران شرکت اجازه می دهد تا بودجه تبلیغاتی را به طور مؤثرتری توزیع کنند و تعیین کنند که در کدام حوزه سرمایه گذاری بهتر است.

نمونه هایی از استفاده از داده های بزرگ

معرفی فعال فناوری‌های کلان داده به بازار و زندگی مدرن درست پس از آن آغاز شد که شرکت‌های مشهور جهانی با مشتریان تقریباً در هر بخش از جهان شروع به استفاده از آنها کردند.

اینها غول های اجتماعی مانند فیس بوک و گوگل، آی بی ام و همچنین موسسات مالی مانند مستر کارت، ویزا و بانک آمریکا هستند.

برای مثال، آی‌بی‌ام از تکنیک‌های کلان داده برای تراکنش‌های پولی جاری استفاده می‌کند. با کمک آنها، 15٪ تراکنش های کلاهبرداری بیشتر شناسایی شد که امکان افزایش 60٪ میزان وجوه محافظت شده را فراهم کرد. مشکلات مربوط به هشدارهای اشتباه سیستم نیز حل شد - تعداد آنها بیش از نصف کاهش یافت.

شرکت VISA به طور مشابه از Big Data برای ردیابی تلاش های جعلی برای انجام یک عملیات خاص استفاده کرد. به لطف این، آنها سالانه بیش از 2 میلیارد دلار از نشت صرفه جویی می کنند.

وزارت کار آلمان با وارد کردن یک سیستم کلان داده در کار خود در زمینه صدور مزایای بیکاری، توانست هزینه ها را 10 میلیارد یورو کاهش دهد. در همان زمان مشخص شد که یک پنجم شهروندان این مزایا را بدون دلیل دریافت می کنند.

بیگ دیتا به صنعت بازی هم رحم نکرده است. بنابراین، توسعه دهندگان World of Tanks مطالعه ای از اطلاعات مربوط به همه بازیکنان انجام دادند و شاخص های موجود فعالیت آنها را مقایسه کردند. این به پیش بینی خروج احتمالی بازیکنان در آینده کمک کرد - بر اساس فرضیات ساخته شده، نمایندگان سازمان قادر به تعامل موثرتری با کاربران بودند.

سازمان‌های برجسته‌ای که از داده‌های بزرگ استفاده می‌کنند نیز شامل HSBC، نزدک، کوکاکولا، استارباکس و AT&T هستند.

بزرگترین مشکل کلان داده هزینه پردازش آن است. این می تواند شامل تجهیزات گران قیمت و هزینه دستمزد برای متخصصان واجد شرایطی باشد که قادر به ارائه اطلاعات زیادی هستند. بدیهی است که تجهیزات باید به طور مرتب به روز شوند تا با افزایش حجم داده ها حداقل عملکرد را از دست ندهند.

مشکل دوم باز هم مربوط به حجم زیاد اطلاعاتی است که باید پردازش شوند. به عنوان مثال، اگر یک مطالعه نه 2-3، بلکه تعداد زیادی نتیجه را تولید کند، بسیار دشوار است که عینی باقی بماند و از جریان کلی داده ها فقط آنهایی را انتخاب کنید که تأثیر واقعی بر وضعیت هر پدیده ای داشته باشند.

مشکل حفظ حریم خصوصی داده های بزرگ با توجه به اینکه اکثر خدمات مشتری به سمت استفاده از داده های آنلاین حرکت می کنند، تبدیل شدن به هدف بعدی برای مجرمان سایبری بسیار آسان است. حتی صرفاً ذخیره اطلاعات شخصی بدون انجام هرگونه تراکنش آنلاین می تواند با عواقب نامطلوبی برای مشتریان ذخیره سازی ابری همراه باشد.

مشکل از دست دادن اطلاعات اقدامات پیشگیرانه مستلزم این است که خود را به یک نسخه پشتیبان ساده یکباره از داده ها محدود نکنید، بلکه حداقل 2 تا 3 نسخه پشتیبان از فضای ذخیره سازی تهیه کنید. با این حال، با افزایش حجم، مشکلات مربوط به افزونگی افزایش می‌یابد - و متخصصان فناوری اطلاعات در تلاش هستند تا راه‌حل بهینه را برای این مشکل بیابند.

بازار فناوری داده های بزرگ در روسیه و جهان

از سال 2014، 40 درصد از حجم بازار کلان داده را خدمات تشکیل می دهد. درآمد حاصل از استفاده از داده های بزرگ در تجهیزات کامپیوتری کمی کمتر از این شاخص است (38%). 22 درصد باقی مانده از نرم افزار تامین می شود.

طبق آمار، مفیدترین محصولات در بخش جهانی برای حل مشکلات Big Data پلتفرم های تحلیلی In-memory و NoSQL هستند. 15 و 12 درصد از بازار به ترتیب در اختیار نرم افزارهای تحلیلی Log-file و پلتفرم های Columnar است. اما Hadoop/MapReduce در عمل با مشکلات کلان داده ها به طور موثری کنار نمی آید.

نتایج پیاده‌سازی فناوری‌های کلان داده:

افزایش کیفیت خدمات به مشتریان؛
بهینه سازی یکپارچه سازی زنجیره تامین؛
بهینه سازی برنامه ریزی سازمان؛
تسریع در تعامل با مشتریان؛
افزایش کارایی پردازش درخواست های مشتری؛
کاهش هزینه های خدمات؛
بهینه سازی پردازش درخواست های مشتری

بهترین کتاب ها در مورد داده های بزرگ

مناسب برای مطالعه اولیه فناوری های پردازش کلان داده - به راحتی و به وضوح شما را معرفی می کند. روشن می کند که چگونه فراوانی اطلاعات بر زندگی روزمره و همه حوزه های آن تأثیر گذاشته است: علم، تجارت، پزشکی و غیره. حاوی تصاویر متعددی است، بنابراین بدون تلاش زیاد درک می شود.

"مقدمه ای بر داده کاوی" نوشته پانگ نینگ تان، مایکل اشتاین باخ و ویپین کومار

همچنین برای مبتدیان کتابی در مورد داده های بزرگ است که کار با داده های بزرگ را طبق اصل "از ساده به پیچیده" توضیح می دهد. بسیاری از نکات مهم را در مرحله اولیه پوشش می دهد: آماده سازی برای پردازش، تجسم، OLAP، و همچنین برخی از روش های تجزیه و تحلیل داده ها و طبقه بندی.

راهنمای عملی استفاده و کار با داده های بزرگ با استفاده از زبان برنامه نویسی پایتون. هم برای دانشجویان مهندسی و هم برای متخصصانی که می خواهند دانش خود را عمیق تر کنند مناسب است.

"Hadoop for Dummies"، دیرک دروس، پل اس. زیکوپولس، رومن بی. ملنیک

Hadoop پروژه ای است که به طور خاص برای کار با برنامه های توزیع شده ایجاد شده است که اجرای اقدامات را روی هزاران گره به طور همزمان سازماندهی می کند. آشنایی با آن به شما کمک می کند تا کاربرد عملی داده های بزرگ را با جزئیات بیشتری درک کنید.

بر اساس مواد تحقیق و روند

Big Data چند سالی است که بحث مطبوعات IT و بازاریابی است. و واضح است: فناوری های دیجیتال در زندگی انسان مدرن نفوذ کرده است، "همه چیز نوشته شده است." حجم داده ها در مورد جنبه های مختلف زندگی در حال افزایش است و در عین حال امکانات ذخیره سازی اطلاعات نیز در حال افزایش است.

فناوری های جهانی برای ذخیره سازی اطلاعات

منبع: هیلبرت و لوپز، «ظرفیت تکنولوژیکی جهان برای ذخیره، برقراری ارتباط و محاسبه اطلاعات»، Science، 2011 جهانی.

اکثر کارشناسان موافق هستند که تسریع رشد داده ها یک واقعیت عینی است. شبکه‌های اجتماعی، دستگاه‌های تلفن همراه، داده‌های دستگاه‌های اندازه‌گیری، اطلاعات تجاری - اینها تنها چند نوع منبع هستند که می‌توانند حجم عظیمی از اطلاعات را تولید کنند. با توجه به مطالعه IDCجهان دیجیتال، منتشر شده در سال 2012، در 8 سال آینده حجم داده ها در جهان به 40 ZB (زتابایت) می رسد که معادل 5200 گیگابایت برای هر ساکن کره زمین است.

رشد جمع آوری اطلاعات دیجیتال در ایالات متحده

منبع: IDC

بسیاری از اطلاعات توسط افراد ایجاد نمی‌شود، بلکه توسط روبات‌هایی که هم با یکدیگر و هم با سایر شبکه‌های داده، مانند حسگرها و دستگاه‌های هوشمند تعامل دارند، ایجاد می‌شوند. به گفته محققان با این سرعت رشد، میزان داده ها در جهان هر سال دو برابر می شود. با گسترش و ایجاد مراکز داده جدید، تعداد سرورهای مجازی و فیزیکی در جهان ده برابر خواهد شد. در نتیجه، نیاز روزافزونی به استفاده موثر و کسب درآمد از این داده ها وجود دارد. از آنجایی که استفاده از داده های بزرگ در تجارت نیاز به سرمایه گذاری قابل توجهی دارد، باید وضعیت را به وضوح درک کنید. و در اصل ساده است: شما می توانید کارایی کسب و کار را با کاهش هزینه ها و/یا افزایش حجم فروش افزایش دهید.

چرا به داده های بزرگ نیاز داریم؟

پارادایم کلان داده سه نوع اصلی از مشکلات را تعریف می کند.

ذخیره و مدیریت صدها ترابایت یا پتابایت داده که پایگاه های داده رابطه ای معمولی نمی توانند به طور موثر از آنها استفاده کنند.
سازماندهی اطلاعات بدون ساختار متشکل از متون، تصاویر، ویدئوها و انواع دیگر داده ها.
تجزیه و تحلیل کلان داده، که سوال راه های کار با اطلاعات بدون ساختار، تولید گزارش های تحلیلی و همچنین اجرای مدل های پیش بینی را مطرح می کند.

بازار پروژه داده های بزرگ با بازار تجزیه و تحلیل کسب و کار (BA) تلاقی می کند که حجم جهانی آن، به گفته کارشناسان، در سال 2012 حدود 100 میلیارد دلار بود. این شامل اجزای فناوری شبکه، سرورها، نرم افزارها و خدمات فنی است.

همچنین، استفاده از فناوری‌های کلان داده برای راه‌حل‌های کلاس تضمین درآمد (RA) که برای خودکارسازی فعالیت‌های شرکت‌ها طراحی شده‌اند، مرتبط است. سیستم‌های تضمین درآمد مدرن شامل ابزارهایی برای تشخیص ناسازگاری‌ها و تجزیه و تحلیل عمیق داده‌ها هستند که امکان تشخیص به موقع ضررهای احتمالی یا تحریف اطلاعات را فراهم می‌کنند که می‌تواند منجر به کاهش نتایج مالی شود. در این زمینه، شرکت‌های روسی با تایید حضور تقاضا برای فناوری‌های Big Data در بازار داخلی، خاطرنشان می‌کنند که عواملی که توسعه داده‌های بزرگ در روسیه را تحریک می‌کنند، رشد داده‌ها، تسریع در تصمیم‌گیری مدیریت و بهبود کیفیت آنها است.

چه چیزی شما را از کار با داده های بزرگ باز می دارد

امروزه تنها 0.5 درصد از داده‌های دیجیتالی انباشته شده مورد تجزیه و تحلیل قرار می‌گیرند، علی‌رغم این واقعیت که مشکلات عینی در سطح صنعت وجود دارد که می‌توان با استفاده از راه‌حل‌های تحلیلی کلاس داده‌های بزرگ حل کرد. بازارهای توسعه یافته فناوری اطلاعات در حال حاضر نتایجی دارند که می توانند برای ارزیابی انتظارات مرتبط با انباشت و پردازش کلان داده ها مورد استفاده قرار گیرند.

یکی از اصلی ترین عواملی که اجرای پروژه های بیگ دیتا را کند می کند، علاوه بر هزینه بالا، در نظر گرفته می شود مشکل انتخاب داده های پردازش شده: یعنی تعیین اینکه کدام داده ها نیاز به بازیابی، ذخیره و تجزیه و تحلیل دارند و کدام ها باید نادیده گرفته شوند.

بسیاری از نمایندگان کسب و کار خاطرنشان می کنند که مشکلات در اجرای پروژه های کلان داده با کمبود متخصص - بازاریابان و تحلیلگران همراه است. سرعت بازگشت سرمایه در Big Data به طور مستقیم به کیفیت کار کارکنان درگیر در تجزیه و تحلیل های عمیق و پیش بینی کننده بستگی دارد. پتانسیل عظیم داده های موجود در یک سازمان اغلب نمی تواند توسط خود بازاریابان به دلیل فرآیندهای تجاری قدیمی یا مقررات داخلی به طور موثر مورد استفاده قرار گیرد. بنابراین، پروژه‌های کلان داده اغلب توسط کسب‌وکارها نه تنها اجرا، بلکه ارزیابی نتایج نیز دشوار است: ارزش داده‌های جمع‌آوری‌شده. ماهیت خاص کار با داده ها به بازاریابان و تحلیلگران نیاز دارد که توجه خود را از فناوری و ایجاد گزارش به حل مشکلات خاص تجاری تغییر دهند.

با توجه به حجم زیاد و سرعت بالای جریان داده ها، فرآیند جمع آوری داده ها شامل رویه های ETL در زمان واقعی است. برای مرجع:ETL - از جانبانگلیسیاستخراج کردن, تبدیل, بار- به معنای واقعی کلمه "استخراج، تبدیل، بارگذاری") - یکی از فرآیندهای اصلی در مدیریت انبارهای داده که شامل: استخراج داده ها از منابع خارجی، تبدیل آنها و نظافت برای رفع نیازها ETL نه تنها باید به عنوان یک فرآیند انتقال داده ها از یک برنامه به برنامه دیگر، بلکه به عنوان ابزاری برای آماده سازی داده ها برای تجزیه و تحلیل در نظر گرفته شود.

و سپس مسائل مربوط به اطمینان از امنیت داده هایی که از منابع خارجی می آیند باید راه حل هایی داشته باشند که با حجم اطلاعات جمع آوری شده مطابقت داشته باشد. از آنجایی که روش های تجزیه و تحلیل کلان داده تنها به دنبال رشد حجم داده ها در حال توسعه هستند، توانایی پلتفرم های تحلیلی برای استفاده از روش های جدید تهیه و تجمیع داده ها نقش مهمی ایفا می کند. این نشان می‌دهد که برای مثال، داده‌های مربوط به خریداران بالقوه یا یک انبار داده عظیم با سابقه کلیک در سایت‌های خرید آنلاین ممکن است برای حل مشکلات مختلف مفید باشد.

سختی ها متوقف نمی شوند

علیرغم تمام مشکلاتی که در پیاده سازی Big Data وجود دارد، این کسب و کار قصد دارد سرمایه گذاری در این زمینه را افزایش دهد. همانطور که از داده‌های گارتنر برمی‌آید، در سال 2013، 64٪ از بزرگترین شرکت‌های جهان قبلاً سرمایه‌گذاری کرده‌اند یا برنامه‌هایی برای سرمایه‌گذاری در استقرار فناوری‌های Big Data برای تجارت خود داشته‌اند، در حالی که در سال 2012، 58٪ بود. طبق تحقیقات گارتنر، پیشتازان صنایع سرمایه‌گذاری در داده‌های بزرگ، شرکت‌های رسانه‌ای، مخابرات، بانکداری و شرکت‌های خدماتی هستند. نتایج موفقیت‌آمیز اجرای Big Data در حال حاضر توسط بسیاری از بازیگران اصلی صنعت خرده‌فروشی از نظر استفاده از داده‌های به‌دست‌آمده با استفاده از ابزارهای شناسایی فرکانس رادیویی، لجستیک و سیستم‌های جابجایی به دست آمده است. دوباره پر کردن- انباشت، دوباره پر کردن - تحقیق و توسعه)، و همچنین از برنامه های وفاداری. تجربه موفق خرده‌فروشی، سایر بخش‌های بازار را تشویق می‌کند تا راه‌های مؤثر جدیدی برای کسب درآمد از کلان داده بیابند تا تجزیه و تحلیل آن را به منبعی تبدیل کنند که برای توسعه کسب‌وکار کار می‌کند. به گفته کارشناسان، در بازه زمانی تا سال 2020، سرمایه گذاری در مدیریت و ذخیره سازی به ازای هر گیگابایت داده از 2 دلار به 0.2 دلار کاهش می یابد، اما برای مطالعه و تجزیه و تحلیل ویژگی های تکنولوژیکی داده های بزرگ تنها 40 درصد افزایش می یابد.

هزینه های ارائه شده در پروژه های مختلف سرمایه گذاری در حوزه داده های بزرگ ماهیت متفاوتی دارند. اقلام هزینه بستگی به انواع محصولاتی دارد که بر اساس تصمیمات خاصی انتخاب می شوند. به گفته کارشناسان، بیشترین بخش از هزینه ها در پروژه های سرمایه گذاری به محصولات مربوط به جمع آوری، ساختار داده ها، تمیز کردن و مدیریت اطلاعات اختصاص دارد.

چگونه انجام می شود

ترکیب‌های زیادی از نرم‌افزار و سخت‌افزار وجود دارد که به شما امکان می‌دهد راه‌حل‌های Big Data موثر برای رشته‌های مختلف کسب‌وکار ایجاد کنید: از رسانه‌های اجتماعی و برنامه‌های کاربردی تلفن همراه، تا تجزیه و تحلیل هوشمند و تجسم داده‌های تجاری. مزیت مهم Big Data سازگاری ابزارهای جدید با پایگاه های داده است که به طور گسترده در تجارت مورد استفاده قرار می گیرند، که به ویژه در هنگام کار با پروژه های بین رشته ای، مانند سازماندهی فروش چند کانالی و پشتیبانی مشتری، اهمیت زیادی دارد.

توالی کار با داده های بزرگ شامل جمع آوری داده ها، ساختاردهی اطلاعات دریافتی با استفاده از گزارش ها و داشبوردها، ایجاد بینش ها و زمینه ها، و تدوین توصیه هایی برای اقدام است. از آنجایی که کار با داده های بزرگ مستلزم هزینه های زیادی برای جمع آوری داده ها است که نتیجه پردازش آن از قبل ناشناخته است، وظیفه اصلی این است که به وضوح درک کنیم که داده ها برای چه چیزی هستند و نه اینکه چه مقدار از آن در دسترس است. در این حالت، جمع آوری داده ها به فرآیندی برای به دست آوردن اطلاعاتی تبدیل می شود که منحصراً برای حل مسائل خاص ضروری است.

به عنوان مثال، ارائه دهندگان مخابرات حجم عظیمی از داده ها، از جمله موقعیت جغرافیایی را که به طور مداوم به روز می شود، جمع آوری می کنند. این اطلاعات ممکن است برای آژانس های تبلیغاتی مورد توجه تجاری قرار گیرد، که ممکن است از آن برای ارائه تبلیغات هدفمند و محلی و همچنین خرده فروشان و بانک ها استفاده کنند. چنین داده‌هایی می‌توانند نقش مهمی را هنگام تصمیم‌گیری برای باز کردن یک فروشگاه خرده‌فروشی در یک مکان خاص بر اساس داده‌های مربوط به حضور یک جریان هدفمند قدرتمند از مردم ایفا کنند. نمونه ای از اندازه گیری اثربخشی تبلیغات در بیلبوردهای فضای باز در لندن وجود دارد. اکنون تنها با قرار دادن افراد با وسیله ای خاص در نزدیکی سازه های تبلیغاتی که رهگذران را شمارش می کنند، می توان وسعت چنین تبلیغاتی را سنجید. در مقایسه با این نوع اندازه گیری اثربخشی تبلیغات، اپراتور تلفن همراه فرصت های بسیار بیشتری دارد - او دقیقاً مکان مشترکین خود را می داند، ویژگی های جمعیتی، جنسیت، سن، وضعیت تأهل و غیره را می داند.

بر اساس چنین داده هایی، در آینده با استفاده از ترجیحات شخصی خاص که از کنار بیلبورد عبور می کند، امکان تغییر محتوای پیام تبلیغاتی وجود دارد. اگر داده ها نشان می دهد که شخصی که از آنجا می گذرد زیاد سفر می کند، می توان یک تبلیغ برای یک استراحتگاه به او نشان داد. برگزارکنندگان یک مسابقه فوتبال فقط می توانند تعداد هواداران را زمانی که به مسابقه می آیند تخمین بزنند. اما اگر آنها بتوانند از ارائه‌دهنده تلفن همراه خود اطلاعاتی درباره مکان حضور بازدیدکنندگان یک ساعت، یک روز یا یک ماه قبل از مسابقه بپرسند، به سازمان‌دهندگان این امکان را می‌دهد که مکان‌های تبلیغاتی را برای مسابقات آینده برنامه‌ریزی کنند.

مثال دیگر این است که چگونه بانک ها می توانند از داده های بزرگ برای جلوگیری از کلاهبرداری استفاده کنند. اگر مشتری مفقود شدن کارت را گزارش دهد و هنگام خرید با آن، بانک به صورت لحظه ای موقعیت تلفن مشتری را در منطقه خریدی که تراکنش انجام می شود مشاهده کند، بانک می تواند اطلاعات درخواست مشتری را بررسی کند. تا ببیند آیا قصد فریب او را دارد یا خیر. یا برعکس، وقتی مشتری در فروشگاهی خریدی انجام می دهد، بانک می بیند که کارت مورد استفاده برای تراکنش و تلفن مشتری در یک مکان هستند، بانک می تواند به این نتیجه برسد که صاحب کارت از آن استفاده می کند. به لطف چنین مزایای Big Data، مرزهای انبارهای داده سنتی در حال گسترش است.

برای تصمیم گیری موفقیت آمیز برای اجرای راه حل های کلان داده، یک شرکت نیاز به محاسبه یک مورد سرمایه گذاری دارد و این امر به دلیل بسیاری از مؤلفه های ناشناخته، مشکلات زیادی را ایجاد می کند. پارادوکس تجزیه و تحلیل در چنین مواردی پیش بینی آینده بر اساس گذشته است که اطلاعاتی در مورد آن اغلب وجود ندارد. در این مورد، یک عامل مهم برنامه ریزی روشن اقدامات اولیه شما است:

ابتدا لازم است یک مشکل تجاری خاص که برای آن از فناوری های کلان داده استفاده می شود، تعیین شود؛ این وظیفه به هسته تعیین صحت مفهوم انتخاب شده تبدیل خواهد شد. شما باید روی جمع آوری داده های مربوط به این کار خاص تمرکز کنید و در طول اثبات مفهوم، می توانید از ابزارها، فرآیندها و تکنیک های مدیریتی مختلفی استفاده کنید که به شما امکان می دهد در آینده تصمیمات آگاهانه تری بگیرید.
ثانیاً، بعید است که یک شرکت بدون مهارت و تجربه تجزیه و تحلیل داده بتواند با موفقیت پروژه Big Data را پیاده سازی کند. دانش لازم همیشه از تجربه قبلی تجزیه و تحلیل نشات می گیرد که عامل اصلی تأثیرگذار بر کیفیت کار با داده ها است. فرهنگ داده مهم است زیرا اغلب تجزیه و تحلیل داده ها حقایق سختی را در مورد یک کسب و کار آشکار می کند و برای پذیرش و کار با آن حقایق نیاز به اقدامات داده است.
سوم، ارزش فناوری‌های کلان داده در ارائه بینش نهفته است.تحلیلگران خوب همچنان در بازار کمبود دارند. آنها معمولاً متخصصانی نامیده می شوند که درک عمیقی از معنای تجاری داده ها دارند و می دانند چگونه از آنها به درستی استفاده کنند. تجزیه و تحلیل داده ها وسیله ای برای دستیابی به اهداف تجاری است و برای درک ارزش کلان داده ها، باید مطابق آن رفتار کنید و اقدامات خود را درک کنید. در این صورت کلان داده اطلاعات مفید زیادی در مورد مصرف کنندگان ارائه می دهد که بر اساس آن می توان تصمیماتی گرفت که برای تجارت مفید است.

علیرغم این واقعیت که بازار داده های بزرگ روسیه به تازگی در حال شکل گیری است، پروژه های فردی در این زمینه در حال حاضر با موفقیت اجرا می شوند. برخی از آنها در زمینه جمع آوری داده ها موفق هستند، مانند پروژه های خدمات مالیاتی فدرال و بانک سیستم های اعتباری Tinkoff، برخی دیگر - از نظر تجزیه و تحلیل داده ها و کاربرد عملی نتایج آن: این پروژه Synqera است.

بانک سیستم های اعتباری Tinkoff پروژه ای را برای پیاده سازی پلت فرم EMC2 Greenplum، که ابزاری برای محاسبات موازی گسترده است، اجرا کرد. در سال‌های اخیر، این بانک به دلیل نرخ رشد بالای تعداد کاربران کارت اعتباری، الزامات سرعت پردازش اطلاعات انباشته و تجزیه و تحلیل داده‌ها را در زمان واقعی افزایش داده است. این بانک برنامه‌هایی را برای گسترش استفاده از فناوری‌های کلان داده، به‌ویژه برای پردازش داده‌های بدون ساختار و کار با اطلاعات شرکتی دریافت‌شده از منابع مختلف، اعلام کرد.

سرویس مالیات فدرال روسیه در حال حاضر در حال ایجاد یک لایه تحلیلی برای انبار داده فدرال است. بر اساس آن، یک فضای اطلاعاتی و فناوری یکپارچه برای دسترسی به داده های مالیاتی برای پردازش آماری و تحلیلی ایجاد می شود. در طول اجرای این پروژه، کار برای متمرکز کردن اطلاعات تحلیلی از بیش از 1200 منبع در سطح محلی خدمات مالیاتی فدرال در حال انجام است.

نمونه جالب دیگری از تجزیه و تحلیل کلان داده در زمان واقعی، استارتاپ روسی Synqera است که پلتفرم Simplate را توسعه داده است. این راه حل مبتنی بر پردازش مقادیر زیادی داده است؛ این برنامه اطلاعات مربوط به مشتریان، تاریخچه خرید، سن، جنسیت و حتی خلق و خوی آنها را تجزیه و تحلیل می کند. صفحه‌های لمسی با حسگرهایی که احساسات مشتری را تشخیص می‌دهند، در صندوق‌های فروشگاه‌های زنجیره‌ای از لوازم آرایشی نصب شدند. این برنامه خلق و خوی فرد را تعیین می کند، اطلاعات مربوط به او را تجزیه و تحلیل می کند، زمان روز را تعیین می کند و پایگاه داده تخفیف فروشگاه را اسکن می کند، پس از آن پیام های هدفمندی را در مورد تبلیغات و پیشنهادات ویژه به خریدار ارسال می کند. این راه حل باعث افزایش وفاداری مشتری و افزایش فروش خرده فروشان می شود.

اگر در مورد موارد موفق خارجی صحبت کنیم، تجربه استفاده از فناوری های Big Data در شرکت Dunkin`Donuts که از داده های بلادرنگ برای فروش محصولات استفاده می کند، در این زمینه جالب است. نمایشگرهای دیجیتال در فروشگاه ها پیشنهاداتی را به نمایش می گذارند که هر دقیقه بسته به زمان روز و در دسترس بودن محصول تغییر می کند. شرکت با استفاده از رسیدهای نقدی، داده هایی را دریافت می کند که کدام پیشنهادها بیشترین پاسخ را از مشتریان دریافت کرده اند. این رویکرد پردازش داده به ما امکان داد تا سود و گردش کالا را در انبار افزایش دهیم.

همانطور که تجربه اجرای پروژه های Big Data نشان می دهد، این حوزه برای حل موفقیت آمیز مشکلات تجاری مدرن طراحی شده است. در عین حال، یکی از عوامل مهم در دستیابی به اهداف تجاری هنگام کار با داده های بزرگ، انتخاب استراتژی مناسب است که شامل تجزیه و تحلیل هایی است که نیازهای مصرف کننده را شناسایی می کند و همچنین استفاده از فناوری های نوآورانه در زمینه داده های بزرگ را شامل می شود.

بر اساس یک نظرسنجی جهانی که سالانه توسط Econsultancy و Adobe از سال 2012 در میان بازاریاب‌های شرکتی انجام می‌شود، «داده‌های بزرگ» که اقدامات افراد در اینترنت را مشخص می‌کند، می‌تواند کارهای زیادی انجام دهد. آنها می توانند فرآیندهای کسب و کار آفلاین را بهینه کنند، به درک نحوه استفاده صاحبان دستگاه های تلفن همراه برای جستجوی اطلاعات کمک کنند، یا به سادگی "بازاریابی را بهتر کنند"، به عنوان مثال. کارآمدتر. علاوه بر این، تابع دوم از سال به سال بیشتر و بیشتر محبوب می شود، همانطور که از نموداری که ارائه کردیم به شرح زیر است.

زمینه های اصلی کار بازاریابان اینترنتی از نظر ارتباط با مشتری

منبع: Econsultancy و Adobe، منتشر شده است– emarketer.com

توجه داشته باشید که ملیت پاسخ دهندگان چندان مهم نیست. همانطور که نظرسنجی انجام شده توسط KPMG در سال 2013 نشان می دهد، سهم "خوشبین"، یعنی. کسانی که از Big Data هنگام توسعه یک استراتژی تجاری استفاده می کنند 56٪ است و تغییرات از منطقه به منطقه کوچک است: از 63٪ در کشورهای آمریکای شمالی تا 50٪ در EMEA.

استفاده از داده های بزرگ در مناطق مختلف جهان

منبع: KPMG، منتشر شده است– emarketer.com

در همین حال، نگرش بازاریابان به چنین "روندهای مد" تا حدودی یادآور یک شوخی معروف است:

وانو بگو گوجه دوست داری؟
- من دوست دارم غذا بخورم، اما نه اینطور.

علیرغم این واقعیت که بازاریابان به صورت شفاهی Big Data را دوست دارند و به نظر می رسد حتی از آن استفاده می کنند، در واقعیت، همانطور که در مورد محبت های قلبی خود در شبکه های اجتماعی می نویسند، "همه چیز پیچیده است".

بر اساس یک نظرسنجی که توسط Circle Research در ژانویه 2014 در میان بازاریابان اروپایی انجام شد، از هر 5 پاسخ‌دهنده، 4 نفر از داده‌های بزرگ استفاده نمی‌کنند (هر چند که البته «آن را دوست دارند»). دلایل متفاوت است. تعداد کمی از شکاکان بدبین وجود دارد - 17٪ و دقیقاً همان تعداد پادپاهای آنها، یعنی. کسانی که با اطمینان پاسخ می دهند: "بله." بقیه مردد و شک هستند، «مرداب». آنها به بهانه های قابل قبولی مانند «هنوز نه، اما به زودی» یا «منتظر می مانیم تا بقیه شروع کنند» از پاسخ مستقیم اجتناب می کنند.

استفاده از داده های بزرگ توسط بازاریابان، اروپا، ژانویه 2014

منبع:dnx، منتشر شده -بازاریابcom

چه چیزی آنها را گیج می کند؟ مزخرف محض برخی (دقیقا نیمی از آنها) به سادگی این داده ها را باور نمی کنند. دیگران (همچنین تعداد کمی از آنها وجود دارد - 55٪) به سختی می توانند مجموعه ای از "داده ها" و "کاربران" را با یکدیگر مرتبط کنند. برخی از مردم به سادگی (به بیان سیاسی) یک آشفتگی داخلی شرکتی دارند: داده ها بدون نظارت بین بخش های بازاریابی و ساختارهای فناوری اطلاعات سرگردان هستند. برای دیگران، نرم افزار نمی تواند با هجوم کار کنار بیاید. و غیره. از آنجایی که کل سهام به طور قابل توجهی بیش از 100٪ است، واضح است که وضعیت "موانع چندگانه" غیر معمول نیست.

موانع استفاده از داده های بزرگ در بازاریابی

منبع:dnx، منتشر شده -بازاریابcom

بنابراین، ما باید بپذیریم که در حالی که "داده های بزرگ" یک پتانسیل بزرگ است که هنوز باید از آن استفاده کرد. به هر حال، این ممکن است دلیلی باشد که Big Data هاله یک "روند شیک" را از دست می دهد، همانطور که توسط داده های نظرسنجی انجام شده توسط شرکت Econsultancy قبلاً ذکر شده نشان می دهد.

مهم ترین روندها در بازاریابی دیجیتال 2013-2014

منبع: مشاوره و Adobe

آنها با یک پادشاه دیگر جایگزین می شوند - بازاریابی محتوا. چه مدت؟

نمی توان گفت که داده های بزرگ نوعی پدیده اساساً جدید است. سال‌هاست که منابع بزرگ داده وجود داشته است: پایگاه‌های اطلاعاتی در مورد خرید مشتری، تاریخچه اعتباری، شیوه زندگی. و برای سال‌ها، دانشمندان از این داده‌ها برای کمک به شرکت‌ها در ارزیابی ریسک و پیش‌بینی نیازهای آینده مشتریان استفاده کرده‌اند. اما امروزه وضعیت از دو جنبه تغییر کرده است:

ابزارها و تکنیک های پیچیده تری برای تجزیه و تحلیل و ترکیب مجموعه داده های مختلف پدیدار شده اند.

این ابزارهای تحلیلی با انبوهی از منابع داده جدید که توسط دیجیتالی کردن تقریباً تمام روش‌های جمع‌آوری و اندازه‌گیری داده‌ها هدایت می‌شوند، تکمیل می‌شوند.

گستره اطلاعات موجود برای محققانی که در محیط های تحقیقاتی ساختاریافته پرورش یافته اند، هم الهام بخش و هم دلهره آور است. احساسات مصرف کننده توسط وب سایت ها و انواع رسانه های اجتماعی ضبط می شود. واقعیت مشاهده یک تبلیغات نه تنها توسط جعبه های تنظیم، بلکه با کمک برچسب های دیجیتال و دستگاه های تلفن همراه که با تلویزیون ارتباط برقرار می کنند، ثبت می شود.

داده های رفتاری (مانند حجم تماس، عادات خرید و خریدها) اکنون در زمان واقعی در دسترس هستند. بنابراین، بسیاری از آنچه قبلاً می‌توانست از طریق تحقیق به دست آید، اکنون با استفاده از منابع کلان داده قابل یادگیری است. و تمام این دارایی های اطلاعاتی بدون در نظر گرفتن هر گونه فرآیند تحقیقاتی به طور مداوم تولید می شوند. این تغییرات ما را به این فکر می‌اندازد که آیا کلان داده می‌تواند جایگزین تحقیقات بازار کلاسیک شود.

این در مورد داده ها نیست، در مورد پرسش و پاسخ است.

قبل از اینکه ناقوس مرگ را برای تحقیقات کلاسیک به صدا در آوریم، باید به خود یادآوری کنیم که وجود برخی از دارایی های داده مهم نیست، بلکه چیز دیگری است. دقیقا چه چیزی؟ توانایی ما برای پاسخ دادن به سوالات، همین است. یک چیز خنده دار در مورد دنیای جدید داده های بزرگ این است که نتایج به دست آمده از دارایی های داده جدید منجر به سؤالات بیشتر می شود و این سؤالات معمولاً توسط تحقیقات سنتی بهترین پاسخ را می دهند. بنابراین، با رشد داده‌های بزرگ، شاهد افزایش موازی در دسترس بودن و نیاز به «داده‌های کوچک» هستیم که می‌تواند پاسخ‌هایی به سؤالات دنیای داده‌های بزرگ ارائه دهد.

وضعیت را در نظر بگیرید: یک تبلیغ کننده بزرگ به طور مداوم ترافیک فروشگاه و حجم فروش را در زمان واقعی نظارت می کند. روش‌های تحقیق موجود (که در آن از اعضای پانل در مورد انگیزه‌های خرید و رفتار محل فروش آنها نظرسنجی می‌کنیم) به ما کمک می‌کند بخش‌های خاص خریدار را بهتر هدف قرار دهیم. این تکنیک‌ها را می‌توان گسترش داد تا طیف وسیع‌تری از دارایی‌های کلان داده را در بر گیرد، تا جایی که داده‌های بزرگ به وسیله‌ای برای مشاهده غیرفعال تبدیل شود و تحقیق به روشی برای بررسی مداوم و با تمرکز محدود تغییرات یا رویدادهایی تبدیل شود که نیاز به مطالعه دارند. به این ترتیب کلان داده ها می توانند تحقیقات را از روال غیر ضروری رها کنند. تحقیقات اولیه دیگر نیازی به تمرکز بر آنچه در حال وقوع است ندارد (داده های بزرگ این کار را انجام می دهد). در عوض، تحقیقات اولیه می‌تواند بر توضیح اینکه چرا ما روندهای خاص یا انحراف از روندها را مشاهده می‌کنیم، تمرکز کند. محقق قادر خواهد بود کمتر به به دست آوردن داده ها فکر کند و بیشتر در مورد چگونگی تجزیه و تحلیل و استفاده از آنها فکر کند.

در عین حال، می بینیم که کلان داده می تواند یکی از بزرگترین مشکلات ما را حل کند: مشکل مطالعات بیش از حد طولانی. بررسی خود مطالعات نشان داده است که ابزارهای تحقیقاتی بیش از حد متورم تأثیر منفی بر کیفیت داده ها دارند. اگرچه بسیاری از کارشناسان مدت‌هاست که به این مشکل اذعان کرده بودند، اما همیشه با عبارت «اما من به این اطلاعات برای مدیریت ارشد نیاز دارم» پاسخ دادند و مصاحبه‌های طولانی ادامه یافت.

در دنیای داده های بزرگ، جایی که می توان معیارهای کمی را از طریق مشاهده غیرفعال به دست آورد، این موضوع بحث برانگیز می شود. بیایید دوباره به همه این مطالعات در مورد مصرف فکر کنیم. اگر داده‌های بزرگ از طریق مشاهده غیرفعال به ما بینشی در مورد مصرف می‌دهد، آن‌گاه تحقیقات پیمایشی اولیه دیگر نیازی به جمع‌آوری این نوع اطلاعات ندارد و ما در نهایت می‌توانیم دیدگاه خود را از نظرسنجی‌های کوتاه با چیزی فراتر از تفکر آرزو پشتیبان کنیم.

Big Data به کمک شما نیاز دارد

در نهایت، "بزرگ" تنها یکی از ویژگی های کلان داده است. مشخصه "بزرگ" به اندازه و مقیاس داده ها اشاره دارد. البته، این ویژگی اصلی است، زیرا حجم این داده ها فراتر از هر چیزی است که قبلاً با آن کار کرده ایم. اما سایر ویژگی‌های این جریان‌های داده جدید نیز مهم هستند: آنها اغلب قالب‌بندی ضعیفی دارند، ساختاری ندارند (یا در بهترین حالت، تا حدی ساختار یافته‌اند) و مملو از عدم قطعیت هستند. یک حوزه نوظهور از مدیریت داده ها، که به درستی آنالیز موجودیت نامیده می شود، به مشکل کاهش نویز در داده های بزرگ می پردازد. وظیفه آن تجزیه و تحلیل این مجموعه داده ها و تعیین تعداد مشاهدات مربوط به یک شخص است، مشاهدات فعلی و کدام یک قابل استفاده هستند.

این نوع پاکسازی داده ها برای حذف نویز یا داده های اشتباه هنگام کار با دارایی های داده بزرگ یا کوچک ضروری است، اما کافی نیست. ما همچنین باید بر اساس تجربه قبلی، تجزیه و تحلیل، و دانش دسته بندی، زمینه ای را پیرامون دارایی های کلان داده ایجاد کنیم. در واقع، بسیاری از تحلیلگران به توانایی مدیریت عدم قطعیت ذاتی در داده های بزرگ به عنوان منبع مزیت رقابتی اشاره می کنند، زیرا امکان تصمیم گیری بهتر را فراهم می کند.

اینجاست که تحقیقات اولیه نه تنها خود را با داده های بزرگ آزاد می کند، بلکه به ایجاد و تجزیه و تحلیل محتوا در داده های بزرگ نیز کمک می کند.

یک مثال بارز از این کار استفاده از چارچوب جدید ارزش ویژه برند ما در رسانه های اجتماعی است (در مورد توسعه یافته صحبت می کنیممیلوارد رنگ قهوه ایرویکردی جدید برای اندازه گیری ارزش ویژه برنداین معنی دار ناهمسان چارچوب- "پارادایم تفاوت معنی دار" -آر & تی ). این مدل از نظر رفتاری در بازارهای خاص آزمایش می‌شود، بر اساس استاندارد پیاده‌سازی می‌شود، و می‌تواند به راحتی در سایر بخش‌های بازاریابی و سیستم‌های اطلاعاتی پشتیبانی تصمیم اعمال شود. به عبارت دیگر، مدل ارزش ویژه برند ما، که توسط تحقیقات پیمایشی (اگرچه نه منحصراً مبتنی بر) است، تمام ویژگی‌های مورد نیاز برای غلبه بر ماهیت بدون ساختار، ناپیوسته و نامطمئن داده‌های بزرگ را دارد.

داده‌های احساسات مصرف‌کننده ارائه شده توسط رسانه‌های اجتماعی را در نظر بگیرید. در شکل خام، اوج و فرود در احساسات مصرف کننده اغلب با معیارهای آفلاین ارزش ویژه برند و رفتار همبستگی حداقلی دارند: صرفاً نویز بیش از حد در داده ها وجود دارد. اما ما می‌توانیم این نویز را با استفاده از مدل‌های معنای مصرف‌کننده، تمایز برند، پویایی و متمایز بودن در داده‌های خام مصرف‌کننده کاهش دهیم - راهی برای پردازش و جمع‌آوری داده‌های رسانه‌های اجتماعی در این ابعاد.

هنگامی که داده ها بر اساس چارچوب ما سازماندهی می شوند، روندهای شناسایی شده معمولاً با ارزش ویژه برند آفلاین و معیارهای رفتاری همسو می شوند. اساسا، داده های رسانه های اجتماعی نمی توانند برای خود صحبت کنند. استفاده از آنها برای این منظور نیاز به تجربه و مدل هایی دارد که بر اساس برندها ساخته شده اند. وقتی رسانه‌های اجتماعی اطلاعات منحصربه‌فردی را به ما می‌دهند که به زبانی که مصرف‌کنندگان برای توصیف برندها استفاده می‌کنند بیان می‌شود، ما باید از آن زبان هنگام ایجاد تحقیقات خود استفاده کنیم تا تحقیقات اولیه را بسیار مؤثرتر کنیم.

مزایای تحقیقات معاف

این ما را به این موضوع برمی‌گرداند که چگونه داده‌های بزرگ نه آنقدر که جایگزین تحقیقات می‌شوند بلکه آن‌ها را آزاد می‌کنند. محققان از نیاز به ایجاد یک مطالعه جدید برای هر مورد جدید رها خواهند شد. دارایی‌های کلان داده در حال رشد را می‌توان برای موضوعات مختلف تحقیقاتی مورد استفاده قرار داد، و به تحقیقات اولیه بعدی اجازه می‌دهد تا عمیق‌تر به موضوع بپردازند و شکاف‌های موجود را پر کنند. محققان از تکیه بر نظرسنجی های بیش از حد متورم رها خواهند شد. در عوض، آنها می توانند از نظرسنجی های کوتاه استفاده کنند و بر روی مهمترین پارامترها تمرکز کنند که کیفیت داده ها را بهبود می بخشد.

با این آزادسازی، محققان می‌توانند از اصول و ایده‌های تثبیت‌شده خود برای افزودن دقت و معنا به دارایی‌های کلان داده‌ها استفاده کنند و زمینه‌های جدیدی را برای تحقیقات پیمایشی ایجاد کنند. این چرخه باید به درک بیشتر در مورد طیف وسیعی از موضوعات استراتژیک و در نهایت حرکت به سمت آنچه که همیشه باید هدف اصلی ما باشد - اطلاع رسانی و بهبود کیفیت تصمیمات برند و ارتباطات منجر شود.

16.07.18. Mail.ru Big Data را به عنوان یک سرویس راه اندازی کرد

پلتفرم ابری Mail.ru با سرویسی برای تجزیه و تحلیل کلان داده، Cloud Big Data، که بر اساس چارچوب‌های Apache Hadoop و Spark است، تکمیل شده است. این سرویس برای خرده فروشان و سازمان های مالی که نیاز به تجزیه و تحلیل داده های بزرگ دارند، اما نمی خواهند پول زیادی را روی سرورهای خود خرج کنند، مفید خواهد بود. Mail.ru فقط برای زمان عملیات واقعی تجهیزات پول می گیرد. بنابراین، یک خوشه Hadoop از 10 گره برای مشتری 39 روبل هزینه خواهد داشت. برای یک ساعت کار به یاد داشته باشید که سال گذشته MTS همان سرویس BigData Cloud MTS را راه اندازی کرد. هزینه استفاده از این سرویس از 5 هزار روبل بود. هر ماه. همچنین خدمات پردازش کلان داده توسط.

2017. MTS یک پلتفرم ابری برای پردازش Big Data راه اندازی کرد

اپراتور MTS سرویسی را برای پردازش ابری داده های بزرگ برای تجارت به عنوان بخشی از پلت فرم ابری خود #CloudMTS راه اندازی کرده است. شرکت ها می توانند با داده ها در محیط های نرم افزاری Hadoop و Spark کار کنند. به عنوان مثال، این سرویس ابری به کسب و کارها کمک می کند تا تبلیغات را هدف قرار دهند، داده های باز را جمع آوری و پردازش کنند و تجزیه و تحلیل مالی و تجاری انجام دهند. فروشگاه های آنلاین قادر خواهند بود رفتار مشتری را تجزیه و تحلیل کنند و سپس پیشنهادات هدفمند آماده را برای رویدادها و تعطیلات مختلف ارائه دهند. این سرویس با استفاده از ابزارهای محاسباتی از پیش نصب شده کار می کند، اما می توان الگوریتم های پردازش داده های خود را ایجاد کرد. هزینه استفاده از سرویس از 5 هزار روبل در ماه شروع می شود، قیمت بسته به فضای اشغال شده در ابر متفاوت است. یادآوری می کنیم که پلتفرم #CloudMTS در سال 2016 ایجاد شد. در ابتدا فقط خدمات ذخیره سازی ابری ارائه می کرد و بعداً خدمات رایانش ابری را نیز اضافه کرد.

2016. پیش بینی کلان داده برای المپیک ریو

به زودی، خدمات Big Data به شما خواهند گفت که چه تصمیماتی برای رشد و تضمین امنیت کسب و کار خود بگیرید. در حال حاضر، آنها عمدتاً در رویدادهای ورزشی تمرین می کنند. آیا به یاد دارید که چگونه پلتفرم هوشمند مایکروسافت اخیراً نتایج مسابقات قهرمانی فوتبال اروپا را پیش بینی کرد؟ بنابراین، او هیچ چیز را درست حدس نمی زد. این بار شرکت آمریکایی Gracenote که متخصص پردازش کلان داده است، محتمل ترین گزینه را برای رده بندی مدال های المپیک ریو محاسبه کرده است. تصویر یک پیش بینی را نشان می دهد که یک ماه قبل از المپیک تدوین شده است. به طور مداوم به روز می شود. نسخه فعلی - .

2016. پلتفرم هوشمند مایکروسافت نتایج مسابقات قهرمانی فوتبال اروپا را پیش بینی کرد

مایکروسافت (مانند هر غول فناوری اطلاعاتی که به خود احترام می گذارد) قبلاً یک پلت فرم تحلیلی مبتنی بر پردازش داده های بزرگ و هوش مصنوعی دارد - Microsoft Cortana Intelligence Suite. بر اساس داده های مختلف از سیستم های تجاری شما، می تواند ریزش مشتری، خرابی تجهیزات، تغییرات درآمد و غیره را پیش بینی کند. و اکنون، مایکروسافت به ما این فرصت را می دهد تا بررسی کنیم که این پلتفرم چقدر دقیق کار می کند. وی پس از تجزیه و تحلیل تاریخچه فوتبال، اطلاعات آماری تیم ها، عملکرد بازیکنان، مصدومیت ها و همچنین نظرات هواداران در شبکه های اجتماعی، پیش بینی خود از مسابقات قهرمانی فوتبال اروپا را که از امروز آغاز می شود، ارائه کرد. بنابراین طبق پیش بینی: آلمان در فینال اسپانیا را با احتمال 66 درصد شکست خواهد داد. و در بازی افتتاحیه فرانسه با احتمال 71 درصد مقابل رومانی پیروز می شود.

2016. SAP و Yandex سرویس Big Data را برای حفظ مشتری ایجاد می کنند

2 سال پیش Yandex سرویسی را راه اندازی کرد که خدمات پردازش کلان داده را برای مشاغل ارائه می دهد. این سرویس قبلاً به شرکت هایی مانند Beeline و Wargaming (Word of Tanks) کمک کرده است تا از ریزش مشتری جلوگیری کنند. بر اساس داده‌های تاریخی، دوره‌های ریزش را پیش‌بینی می‌کند و به کسب‌وکار این فرصت را می‌دهد که به موقع برخی تبلیغات جدید را آماده و ارائه دهد. اکنون ظاهراً این فناوری Yandex علاقه بزرگترین بازیکن جهان در بازار فناوری اطلاعات شرکتی - SAP را به خود جلب کرده است. این شرکت‌ها برای توسعه خدماتی برای پیش‌بینی رفتار مشتری به نیروهای خود ملحق شده‌اند. به گفته SAP و YDF، این سرویس در خرده فروشی، تجارت الکترونیک، بانک ها و مخابرات استفاده خواهد شد. آنها می گویند این سرویس برای مشاغل متوسط طراحی خواهد شد، از جمله قیمت.

2016. PROMT Analyzer - مورفولوژیکی تجزیه و تحلیل داده های بزرگ

شرکت PROMT یک راه حل در زمینه هوش مصنوعی برای کار با داده های بزرگ در اطلاعات و سیستم های تحلیلی، PROMT Analyzer را منتشر کرده است. این ابزار برای جستجو، استخراج، خلاصه کردن و ساختار اطلاعات تقریباً از هر محتوای متنی به زبان های مختلف، چه در سیستم های شرکتی و چه در منابع خارجی، طراحی شده است. هر متن یا سندی را تجزیه و تحلیل می‌کند، موجودیت‌های موجود در آن‌ها (افراد، سازمان‌ها، نام‌های جغرافیایی، نهادهای ژئوپلیتیکی و غیره) را شناسایی می‌کند و همچنین اقدامات مربوط به این نهادها، تاریخ و مکان عمل را تعیین می‌کند و تصویری کلی از آن را تشکیل می‌دهد. سند. PROMT Analyzer به شما امکان می دهد وظایف مختلفی را حل کنید: تجزیه و تحلیل منابع داخلی شرکت (سیستم های جریان اسناد)، تجزیه و تحلیل منابع خارجی (رسانه ها، وبلاگ ها و غیره)، تجزیه و تحلیل داده های به دست آمده از منابع بسته برای ارزیابی بحرانی بودن موقعیت ها، تجزیه و تحلیل فعالیت یک شی با اشاره به جغرافیا، و بهینه سازی موتورهای جستجو و بهینه سازی میز کمک.

2016. Mail.Ru به شرکت ها کمک می کند تا داده های خود را تجزیه و تحلیل کنند

Mail.Ru در تلاش است تا از رقیب اصلی خود، Yandex عقب نماند. یک سال پیش سرویس تجزیه و تحلیل داده های بزرگ Yandex برای تجارت. و اکنون Mail.ru یک جهت داده بزرگ را برای مشتریان شرکتی باز کرده است. اول از همه، به پروژه هایی با هدف بهبود کارایی فرآیندهای بازاریابی و فروش، بهینه سازی تولید، لجستیک، مدیریت ریسک، برنامه ریزی، مدیریت پرسنل و سایر فرآیندهای کاری مشاغل مختلف می پردازد. به عنوان مثال، Mail.ru می‌تواند مدلی برای پیش‌بینی خروج مشتری، پاسخ به پیشنهادات و پیش‌بینی واکنش به درخواست تجدیدنظر از طریق یک کانال ارتباطی خاص ایجاد کند. این باعث می شود تعامل با مشتری بالقوه شخصی تر شود. Mail.ru بیان می‌کند که این شرکت از زمان تأسیس به صورت مجازی داده‌ها را تجزیه و تحلیل می‌کند و فناوری‌های یادگیری ماشین خود را دارد.

2015. آی‌بی‌ام به ارائه‌کننده پیشرو پیش‌بینی‌های هواشناسی تجاری تبدیل خواهد شد

آیا آب و هوا برای تجارت مهم است؟ البته، به خصوص اگر تجارت شما یک شرکت کشاورزی، آژانس مسافرتی، کافه یا فروشگاه پوشاک باشد. آب و هوا بر ثبات منابع، انتخاب مجموعه و فعالیت فروش تأثیر می گذارد. در این مورد، هر سیستم هوش تجاری که به خود احترام می گذارد، باید پیش بینی آب و هوا را در نظر بگیرد. این همان چیزی بود که IBM فکر کرد و بزرگترین سرویس هواشناسی جهان، The Weather Company را خرید. آی‌بی‌ام قصد دارد داده‌های سه میلیارد نقطه مرجع پیش‌بینی را به ابررایانه خود واتسون داده و پیش‌بینی آب و هوا را متحول کند. آنها همچنین قصد دارند پلتفرمی ایجاد کنند که به برنامه های تجاری شخص ثالث اجازه می دهد تا با پرداخت هزینه از اطلاعات آب و هوا استفاده کنند.

2015. ویدئو: نحوه استفاده از داده های بزرگ برای جذب کارکنان با استعداد

آیا هنوز شک دارید که داده های بزرگ برای تجارت مفید هستند؟ سپس این ویدیو را در مورد نحوه جذب کارکنان با استعداد جدید Beeline با استفاده از Big Data تماشا کنید. در ابتدای ماه سپتامبر، یک تاکسی بیگ دیتا به شکل خودروی تسلا در اطراف مسکو در حال تردد بود. به گفته یکی از نمایندگان Beeline، فناوری های Big Data علاوه بر کمک به جذب استعدادهای جدید، به شرکت اجازه می دهد تا مشکلات مختلفی را حل کند. شروع از موارد ساده و پیش پاافتاده مانند "همه کسانی که از سیم کارت خریداری شده با استفاده از پاسپورت شخص دیگری استفاده می کنند" و با "تعیین سن مشترک بر اساس مجموعه ای از شاخص ها" پایان می یابد.

2015. مایکروسافت یک پلتفرم Big Data را معرفی کرد

فناوری‌های کلان داده به شرکت‌ها وعده بهینه‌سازی جادویی فرآیندهای تجاری را می‌دهند، برای مثال: شما همیشه مقدار مناسبی از کالاها را در مکان مناسب و در زمان مناسب خواهید داشت. اما آن شرکت هایی که قبلاً Big Data را امتحان کرده اند می گویند: در عمل کار نمی کند. سیستم های کلان داده موجود برای تحلیلگران طراحی شده اند، اما به کارمند عادی که باید اینجا و اکنون تصمیم بگیرد کمکی نمی کند. بنابراین، مایکروسافت تصمیم گرفت یک پلتفرم Big Data را با چهره انسان (به طور دقیق تر، یک صدا) منتشر کند - مجموعه Cortana Analytics. این بر اساس پلت فرم ابری Azure است و از دستیار صوتی Cortana به عنوان رابط خود استفاده می کند. فرض بر این است که با کمک یک طراح بصری، هر رئیس بخش می تواند برنامه های کوچکی ایجاد کند که حجم زیادی از داده ها را پردازش می کند و هر کارمندی می تواند از کورتانا بپرسد و اطلاعات مناسب را در زمان مناسب دریافت کند. مکان درست.

2015. ویدئو: بیگ دیتا چیست و چه کسی به آن نیاز دارد؟

استارت آپ روسی CleverData به عنوان یکپارچه کننده داده های بزرگ قرار گرفته است. آنها پروژه هایی را برای حل مشکلات تجاری خاص با استفاده از پلتفرم ها و فناوری های Big Data اجرا می کنند. در این ویدئو، دنیس آفاناسیف، مدیر عامل CleverData به طرز جالبی در مورد اینکه Big Data چیست و این کلان داده از کجا آمده است صحبت می کند. به نظر می رسد که فناوری های پردازش کلان داده ها برای دهه ها وجود داشته اند، اما دلیل پیدایش اصطلاح بازاریابی Big Data این است که (به لطف محاسبات ابری) هزینه آنها کاهش یافته و برای شرکت های کوچک و متوسط قابل دسترسی شده اند. به گفته دنیس، داده های بزرگ اغلب برای بازاریابی (بخش بندی پایگاه مشتری، تبلیغات آنلاین)، امنیت فناوری اطلاعات (تشخیص تقلب، پیش بینی خرابی)، و مدیریت ریسک (ارزیابی اعتبار مشتریان) استفاده می شود.

2015. SAP چیز بزرگ بعدی - سیستم ERP S/4HANA را معرفی کرد

اولین سیستم SAP ERP R/2 نام داشت و روی مین فریم اجرا می شد. سپس R/3 وجود داشت. در سال 2004، SAP Business Suite ظاهر شد. روز دیگر، SAP (به قول آنها) مهمترین محصول تاریخ خود - نسخه جدید S4/HANA را ارائه کرد. هنگام ایجاد آن، توسعه دهندگان به این فکر نمی کردند که چگونه از رقیب همیشگی اوراکل پیشی بگیرند، بلکه به این فکر می کردند که چگونه از ارائه دهندگان تهاجمی SaaS Salesforce و Workday جلوگیری کنند. بنابراین، S4 می تواند هم به صورت محلی و هم در فضای ابری کار کند. ویژگی اصلی سیستم سرعت است. همانطور که از نام آن پیداست، S4 بر اساس پلتفرم پیشرو Big-Data SAP HANA است که به شما امکان می دهد داده های بسیار بزرگ را در چند ثانیه پردازش کنید. دومین ویژگی اصلی رابط کاربری است. میزها و منوهای پیچیده را فراموش کنید که بدون بطری نمی توانید آنها را بفهمید. SAP می خواهد سیستم قدرتمند جدید با استفاده از تلفن هوشمند کنترل شود. برای کار با SAP می توانید از حداقل 25 برنامه ساده SAP Fiori استفاده کنید. در اینجا ارائه ویدیویی آنها است:

2014. Yandex یک سرویس Big Data را برای تجارت باز کرده است

Yandex پروژه Yandex Data Factory را راه اندازی کرده است که خدمات پردازش کلان داده را برای مشاغل ارائه می دهد. برای انجام این کار، از فناوری یادگیری ماشینی Matrixnet استفاده می کند که Yandex برای رتبه بندی سایت ها در موتور جستجوی خود توسعه داده است. گفته می شود که Yandex قصد دارد به رقیب شرکت هایی مانند SAP AG و Microsoft تبدیل شود. در حال حاضر، متخصصان Yandex Data Factory چندین پروژه آزمایشی را با شرکت های اروپایی اجرا کرده اند. به طور خاص، هوش مصنوعی Yandex توسط یک شرکت خدمات رسانی خطوط برق برای پیش بینی خرابی، توسط یک بانک برای هدف قرار دادن وام گیرندگان و توسط یک آژانس بزرگراه برای پیش بینی ترافیک استفاده شد. علاوه بر این، معلوم می شود که Yandex داده های به دست آمده از برخورد دهنده معروف هادرون در CERN را پردازش می کند.

2014. مایکروسافت با بیگ دیتا به پیروزی رئال مادرید کمک خواهد کرد

آنها به دنبال خیر از خیر نیستند. رئال مادرید اخیراً خوب بازی می کند و نتایج خوبی کسب کرده است. با این حال، افتخارات تیم ملی آلمان که با کمک به قهرمانی جام جهانی رسید، رئیس باشگاه مادریدی، فلورنتینو پرز (در سمت چپ در عکس) را تسخیر کرد. از این رو قراردادی به مبلغ 30 میلیون دلار با مایکروسافت بست که در چارچوب آن زیرساخت مدرن IT برای باشگاه ایجاد می شود. کادر مربیگری و بازیکنان رئال مادرید تبلت های Surface Pro 3 را با برنامه های از پیش نصب شده Office 365 برای همکاری نزدیک تر کارکنان دریافت خواهند کرد. و با استفاده از ابزارهای تحلیلی Power BI برای Office 365، مربیان تیم قادر به مطالعه عملکرد بازیکنان فوتبال، شناسایی روندهای بلند مدت و حتی پیش بینی آسیب ها خواهند بود.

2014. 1C-Bitrix سرویس Big Data را راه اندازی کرد

Big Data - فناوری هایی برای پردازش حجم بسیار زیادی از داده ها به منظور به دست آوردن نتایج ساده و مفید برای تجارت - یکی از اصلی ترین روندهای جدید در بازار فناوری اطلاعات است. و سرویس BigData 1C-Bitrix شاید اولین سرویس داخلی مبتنی بر این فناوری باشد. اولین کاربرد این هوش مصنوعی بهینه سازی (شخصی سازی) فروشگاه های آنلاین با استفاده از موتور Bitrix برای هر بازدید کننده جدید خواهد بود. بر اساس تجزیه و تحلیل حجم زیادی از داده‌های مربوط به همه بازدیدکنندگان گذشته، این سرویس می‌تواند رفتار یک بازدیدکننده جدید در سایت را پیش‌بینی کند، مشتریان مشابه او را برجسته کند و بر اساس سابقه خرید سایرین، پیشنهادات شخصی‌سازی شده برای او ارائه دهد. مشتریان احتمالاً به زودی می توانیم انتظار عملکردهای Big Data را در سیستم مدیریت کسب و کار Bitrix24 داشته باشیم.

2014. SAP: تیم آلمان به لطف Big Data قهرمان جام جهانی شد

اخیراً، سال گذشته، قایق بادبانی اوراکل برنده جام آمریکا شد و سپس اوراکل گفت که این پیروزی تا حد زیادی به دلیل سیستم تجزیه و تحلیل داده های بزرگ در فضای ابری اوراکل بوده است. اکنون زمان آن فرا رسیده است که رقیب همیشگی اوراکل، شرکت آلمانی SAP، به این اقدام روابط عمومی پاسخ دهد. معلوم شد که تیم آلمان به لطف بیگ دیتا قهرمان جام جهانی شد. SAP یک سیستم Match Insights را توسعه داده است که یک مسابقه فوتبال را به یک مدل دیجیتالی سه بعدی می خواند و اقدامات هر بازیکن و تیم را به طور کلی تجزیه و تحلیل می کند. نه تنها مسابقات تیم خودمان (برای تصحیح خطاها و بهبود کارایی)، بلکه مسابقات رقبا نیز مورد تجزیه و تحلیل قرار گرفت. هوش مصنوعی نقاط ضعف حریفان را پیدا کرد و به تیم کمک کرد تا برای مسابقه آماده شود. اخلاقیات داستان این است: تصور کنید که داده های بزرگ چه کاری می توانند برای کسب و کار شما انجام دهند.

2014. CROC راه حل هوش تجاری مبتنی بر ابر را راه اندازی کرد

Croc یکپارچه کننده سیستم یک سرویس هوش تجاری را با نام خود توضیحی "Business Intelligence as a Service" یا BIaaS راه اندازی کرده است. این راه حل برای سازمان های بزرگی طراحی شده است که علاقه مند به کاهش هزینه های سرمایه ای و تسریع در تصمیم گیری های مدیریتی هستند. این سیستم بر روی محصول EMC Greenplum ساخته شده است و یک راه حل در سطح کلان داده است. با استفاده از این ابزار می توانید حجم زیادی از اطلاعات را تجزیه و تحلیل و مقایسه کنید، شاخص های کلیدی بسازید و تصمیمات تجاری بگیرید و مرحله هزینه های سرمایه ای برای خرید نرم افزار، مجوزها و نوسازی زیرساخت های احتمالی را دور بزنید. این راه حل به شما امکان می دهد سه سناریو ممکن را برای کار با داده ها پیاده سازی کنید - تجزیه و تحلیل برای خرده فروشی، تجزیه و تحلیل شاخص های عملکرد مرکز تماس، و همچنین ارزیابی فعالیت های مدیریتی سازمان برای انطباق با KPI.

2013. SAP کسب و کارهای بزرگ را با داده های بزرگ کارآمد می کند. رقبا گریه می کنند

در سال های اخیر، SAP خود را به عنوان کم نوآورترین شرکت فناوری اطلاعات (در مقایسه با رقبای اوراکل، مایکروسافت، IBM) ثابت کرده است. تمام پروژه های نوآورانه خود SAP عمدتاً با شکست مواجه شدند (به یاد داشته باشید)، و تنها چیزی که SAP در انجام آن موفق شد خرید شرکت های دیگر (SuccessFactors، SyBase، Ariba) بود. اما به نظر می رسد این بار SAP تصمیم گرفته است از رقبای خود پیشی بگیرد. و او این کار را با استفاده از فناوری جدید و مد روز Big Data انجام خواهد داد. آن چیست؟

فقط تنبل‌ها درباره کلان داده صحبت نمی‌کنند، اما به سختی می‌دانند که چیست و چگونه کار می‌کند. بیایید با ساده ترین چیز شروع کنیم - اصطلاحات. به زبان روسی، داده‌های بزرگ ابزارها، رویکردها و روش‌های مختلفی برای پردازش داده‌های ساختاریافته و بدون ساختار به منظور استفاده از آنها برای وظایف و اهداف خاص است.

داده های بدون ساختار اطلاعاتی هستند که ساختار از پیش تعیین شده ای ندارند یا به ترتیب خاصی سازماندهی نشده اند.

اصطلاح «داده‌های بزرگ» توسط کلیفورد لینچ، سردبیر مجله نیچر در سال 2008 در یک شماره ویژه به رشد انفجاری حجم اطلاعات جهان معرفی شد. اگرچه، البته، خود داده های بزرگ قبلا وجود داشته است. به گفته کارشناسان، دسته داده های بزرگ شامل اکثر جریان های داده بیش از 100 گیگابایت در روز است.

همچنین بخوانید:

امروزه، این اصطلاح ساده تنها دو کلمه را پنهان می کند - ذخیره سازی و پردازش داده ها.

داده های بزرگ - به عبارت ساده

در دنیای مدرن، داده های بزرگ یک پدیده اجتماعی-اقتصادی است که با این واقعیت همراه است که قابلیت های فناوری جدید برای تجزیه و تحلیل حجم عظیمی از داده ها پدید آمده است.

همچنین بخوانید:

برای درک آسان تر، سوپرمارکتی را تصور کنید که در آن همه کالاها به ترتیبی که شما به آن عادت کرده اید نیست. نان کنار میوه، رب گوجه فرنگی در کنار پیتزای یخ زده، مایع فندکی جلوی قفسه تامپون که شامل آووکادو، توفو یا قارچ شیتاکه است. بیگ دیتا همه چیز را در جای خود قرار می دهد و به شما کمک می کند شیر آجیل را پیدا کنید، از هزینه و تاریخ انقضا مطلع شوید و همچنین چه کسی به جز شما این شیر را می خرد و چرا بهتر از شیر گاو است.

کنت کوکیر: کلان داده ها داده های بهتری هستند

فناوری داده های بزرگ

حجم عظیمی از داده ها پردازش می شود تا فرد بتواند نتایج خاص و لازم را برای استفاده مؤثر بیشتر از آنها به دست آورد.

همچنین بخوانید:

در واقع داده های بزرگ راه حلی برای مشکلات و جایگزینی برای سیستم های سنتی مدیریت داده است.

تکنیک ها و روش های تجزیه و تحلیل قابل استفاده برای داده های بزرگ طبق مک کینزی:

جمع سپاری؛

اختلاط و ادغام داده ها؛

فراگیری ماشین؛

شبکه های عصبی مصنوعی؛

الگو شناسی؛

تجزیه و تحلیل پیش بینی کننده؛

شبیه سازی مدل سازی;

تحلیل فضایی؛

تحلیل آماری؛
بصری سازی داده های تحلیلی

مقیاس پذیری افقی که پردازش داده ها را امکان پذیر می کند، اصل اساسی پردازش کلان داده است. داده ها بین گره های محاسباتی توزیع می شوند و پردازش بدون کاهش عملکرد انجام می شود. مک‌کینزی همچنین سیستم‌های مدیریت رابطه‌ای و هوش تجاری را در زمینه کاربردی گنجاند.

فن آوری ها:

NoSQL;
MapReduce;
هادوپ
راه حل های سخت افزاری

همچنین بخوانید:

برای کلان داده ها، مشخصه های تعریف کننده سنتی وجود دارد که توسط Meta Group در سال 2001 توسعه یافته است، که به نام " سه V»:

جلد- مقدار حجم فیزیکی
سرعت- نرخ رشد و نیاز به پردازش سریع داده ها برای به دست آوردن نتایج.
تنوع- توانایی پردازش همزمان انواع مختلف داده ها.

داده های بزرگ: برنامه ها و فرصت ها

پردازش حجم اطلاعات دیجیتالی ناهمگن و به سرعت در حال رسیدن با ابزارهای سنتی غیرممکن است. تجزیه و تحلیل داده ها به خودی خود به شما امکان می دهد الگوهای مشخص و نامحسوسی را ببینید که شخص نمی تواند آنها را ببیند. این به ما امکان می دهد تا تمام زمینه های زندگی خود را - از مدیریت دولتی گرفته تا تولید و مخابرات - بهینه کنیم.

به عنوان مثال، چند سال پیش برخی از شرکت ها از مشتریان خود در برابر کلاهبرداری محافظت کردند و مراقبت از پول مشتری به معنای مراقبت از پول خود است.

سوزان اتلیگر: کلان داده چطور؟

راه حل های مبتنی بر داده های بزرگ: Sberbank، Beeline و سایر شرکت ها

Beeline اطلاعات زیادی در مورد مشترکین دارد که آنها نه تنها برای کار با آنها، بلکه برای ایجاد محصولات تحلیلی مانند مشاوره خارجی یا تجزیه و تحلیل IPTV از آنها استفاده می کنند. Beeline با استفاده از HDFS و Apache Spark برای ذخیره سازی و Rapidminer و Python برای پردازش داده ها، پایگاه داده را بخش بندی کرد و از مشتریان در برابر کلاهبرداری مالی و ویروس ها محافظت کرد.

همچنین بخوانید:

یا بیایید Sberbank را با پرونده قدیمی آنها به نام AS SAFI به یاد بیاوریم. این سیستمی است که عکس ها را برای شناسایی مشتریان بانک و جلوگیری از کلاهبرداری تجزیه و تحلیل می کند. این سیستم در سال 2014 معرفی شد، این سیستم مبتنی بر مقایسه عکس‌های پایگاه داده است که به لطف دید کامپیوتری از دوربین‌های وب روی پایه‌ها به آنجا می‌رسند. اساس سیستم یک پلت فرم بیومتریک است. به همین دلیل موارد کلاهبرداری 10 برابر کاهش یافته است.

کلان داده در جهان

تا سال 2020، طبق پیش بینی ها، بشریت 40 تا 44 زتابایت اطلاعات تولید خواهد کرد. طبق گزارش The Data Age 2025 که توسط تحلیلگران IDC تهیه شده است، تا سال 2025 10 برابر رشد خواهد کرد. این گزارش خاطرنشان می‌کند که بیشتر داده‌ها به جای مصرف‌کنندگان عادی، توسط خود مشاغل تولید می‌شوند.

تحلیلگران پژوهشی بر این باورند که داده‌ها به یک دارایی حیاتی تبدیل می‌شوند و امنیت به پایه‌ای حیاتی در زندگی تبدیل می‌شود. نویسندگان این اثر همچنین مطمئن هستند که این فناوری چشم انداز اقتصادی را تغییر خواهد داد و کاربر معمولی حدود 4800 بار در روز با دستگاه های متصل ارتباط برقرار می کند.

بازار داده های بزرگ در روسیه

کلان داده معمولا از سه منبع به دست می آید:

اینترنت (شبکه های اجتماعی، انجمن ها، وبلاگ ها، رسانه ها و سایت های دیگر)؛
آرشیو اسناد شرکتی؛
قرائت از حسگرها، ابزار و وسایل دیگر.

کلان داده در بانک ها

علاوه بر سیستم توضیح داده شده در بالا، استراتژی Sberbank برای 2014-2018 شامل موارد زیر است: در مورد اهمیت تجزیه و تحلیل داده های فوق العاده برای خدمات مشتری با کیفیت، مدیریت ریسک و بهینه سازی هزینه صحبت می کند. اکنون بانک از داده های بزرگ برای مدیریت ریسک ها، مبارزه با تقلب، تقسیم بندی و ارزیابی اعتبار مشتریان، مدیریت پرسنل، پیش بینی صف در شعب، محاسبه پاداش برای کارکنان و سایر وظایف استفاده می کند.

VTB24 از داده‌های بزرگ برای تقسیم‌بندی و مدیریت جریان‌های خروجی مشتری، تولید گزارش‌های مالی و تجزیه و تحلیل نظرات در شبکه‌های اجتماعی و انجمن‌ها استفاده می‌کند. برای انجام این کار، او از راه حل های Teradata، SAS Visual Analytics و SAS Marketing Optimizer استفاده می کند.

روش های تجزیه و تحلیل کلان داده ها کلان داده - سیستم های کلان داده چیست؟ توسعه فناوری های داده های بزرگ

الکسی ریوکین در مورد روندهای اصلی در زمینه داده های بزرگ، ارتباط با مشتریان و دنیای اعداد

اولگ میخالسکی در مورد بازار روسیه و ویژگی های ایجاد یک محصول جدید در زمینه داده های بزرگ

مزایای استفاده از فناوری های کلان داده در بازاریابی و تجارت چیست؟

نمونه هایی از استفاده از داده های بزرگ

بازار فناوری داده های بزرگ در روسیه و جهان

بهترین کتاب ها در مورد داده های بزرگ

"مقدمه ای بر داده کاوی" نوشته پانگ نینگ تان، مایکل اشتاین باخ و ویپین کومار

"Hadoop for Dummies"، دیرک دروس، پل اس. زیکوپولس، رومن بی. ملنیک

بر اساس مواد تحقیق و روند

چرا به داده های بزرگ نیاز داریم؟

چه چیزی شما را از کار با داده های بزرگ باز می دارد

سختی ها متوقف نمی شوند

چگونه انجام می شود

این در مورد داده ها نیست، در مورد پرسش و پاسخ است.

Big Data به کمک شما نیاز دارد

مزایای تحقیقات معاف

همچنین بخوانید:

داده های بزرگ - به عبارت ساده

همچنین بخوانید:

فناوری داده های بزرگ

همچنین بخوانید:

همچنین بخوانید:

داده های بزرگ: برنامه ها و فرصت ها

راه حل های مبتنی بر داده های بزرگ: Sberbank، Beeline و سایر شرکت ها

همچنین بخوانید:

کلان داده در جهان

بازار داده های بزرگ در روسیه

کلان داده در بانک ها

بهترین مقالات در این زمینه