पिछला नवीनीकरण
सार्थक परिणामों में "बड़े डेटा" को परिवर्तित करना जटिल लग सकता है। लेकिन एक बार जब आप समझ जाते हैं कि यह क्या है और यह कैसे काम करता है, तो यह इतना जटिल नहीं है।
कई वर्षों में, बहुत सारे buzzwords कई उद्योगों में फैशनेबल हो जाते हैं। कुछ ही हैं जो इतने लोकप्रिय हो गए हैं, और इतने लंबे समय तक, बड़े डेटा के रूप में। लेकिन बड़ा डेटा क्या है, बिल्कुल?
बिग डेटा विभिन्न प्रकार के स्रोतों से जानकारी के एक आभासी महासागर को संदर्भित करता है, जिसका विश्लेषण और फ़िल्टर किया जाता है ताकि सार्थक और क्रियात्मक परिणाम विकसित हो सकें।
"बड़े डेटा" को सार्थक परिणामों में बदलने की प्रक्रिया जटिल और कठिन दिखाई दे सकती है। हालाँकि, एक बार जब आप समझ जाते हैं कि बड़ा डेटा क्या है और यह कैसे काम करता है, तो यह समझना कि इसे सार्थक कैसे बनाया जाए, यह इतना जटिल नहीं है।
बिग डेटा क्या है?
जब आप लोगों को "बड़े डेटा" के बारे में बात करते हुए सुनते हैं, तो यह आमतौर पर बहुत सारे हाथ लहराते हुए और बड़े शब्दों के साथ होता है। लेकिन जब आप सभी हाइपरबोले को उबालते हैं, तो वास्तविक "डेटा" वास्तव में कई मल्टीपल डेटा इनपुट स्ट्रीम होते हैं।
इसे समझने के लिए एक उदाहरण मदद कर सकता है। मान लीजिए कि आप एक छाता निर्माण कंपनी चलाते हैं। आपका विपणन विभाग बेहतर अनुमान लगाने का एक तरीका ढूंढ रहा है जब बाजार की मांग स्पाइक के बारे में हो।
बड़े डेटा के दिनों से पहले, विपणक बाजार के रुझानों का अध्ययन करेंगे, ग्राहक सर्वेक्षण और कई अन्य गतिविधियों को भेजेंगे।
वे उस सभी डेटा को एकत्र करेंगे और इसे अपनी कंपनी के आंतरिक डेटाबेस पर संग्रहीत करेंगे। कोई भी वार्षिक या त्रैमासिक आधार पर विपणन अनुसंधान डेटा को अद्यतन करने के लिए प्रभारी हो सकता है।
हालांकि, बड़े डेटा के आगमन से इस तरह के अनुसंधान के संचालन की क्षमता का विस्तार होता है। विशेष रूप से, वास्तविक समय के पास महत्वपूर्ण रुझानों या घटनाओं की पहचान करने में बड़ा डेटा विशेष रूप से प्रभावी है।
इस तरह के "बड़े डेटा" विश्लेषण के लिए डेटा इनपुट में रियलटाइम डेटा स्ट्रीम शामिल हो सकते हैं जो कोड को प्लग इन करके लिखते हैं एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (एपीआई) कई अलग-अलग कंपनियों ने जो उस डेटा को सार्वजनिक किया है:
- ट्विटर और फेसबुक: पहचानें कि कब और क्यों लोग छाता खरीदने पर चर्चा कर रहे हैं।
- मौसम: पहचान करना मौसम की स्थिति या भविष्यवाणियां जो उच्च छाता बिक्री में बदल सकती हैं।
- शेयर बाजार: छतरियों का उत्पादन करने के लिए कच्चे माल की लागत में मौसमी परिवर्तन।
- ग्राहक वेब का उपयोग करें: से जानकारी का उपयोग करना कंप्यूटर कुकीज़ जो लोग कंपनी के कैटलॉग को खरीदने के व्यवहार को समझने के लिए जाते हैं।
- ग्राहक खरीद इतिहास: खुदरा विक्रेताओं से बिक्री के रुझान के भूगोल और मौसमों पर नज़र रखना।
बड़े डेटा का उपयोग करने के लिए, इस कंपनी की मार्केटिंग टीम को कुछ मामलों में, नई तकनीकों को स्थापित करना होगा।
बिग डेटा और इंटरनेट
इसमें खुदरा विक्रेताओं पर इंटरनेट ऑफ थिंग्स (IoT) तकनीक शामिल हो सकती है जो उपभोक्ता व्यवहार पर नज़र रखती है और रिपोर्ट करती है। या इसमें एक प्रोग्रामर शामिल हो सकता है जो ट्विटर के एपीआई के साथ इंटरफेस करने के लिए आवश्यक कोड लिखता है, जो "छाता" या कंपनी के नाम का उल्लेख करने वाले किसी भी ट्वीट को फ़िल्टर करता है।
इनमें से प्रत्येक तकनीक अब इंटरनेट की बदौलत उपलब्ध है। इंटरनेट किसी को भी दुनिया भर से डेटा की धाराओं में टैप करने की अनुमति देता है।
इस तरह से हमारे अपने उदाहरण में सेटअप इस मामले में काम कर सकता है।
यह आरेख दिखाता है कि कैसे डेटा कई अलग-अलग स्रोतों से कंपनी के "डेटा लेक" में बहता है। आने वाले डेटा को अलग तरीके से संरचित किया जा सकता है, लेकिन महत्वपूर्ण बात यह है कि सभी स्रोतों से अधिक से अधिक डेटा एकत्र किया जाए।
डेटा लेक क्या है?
एक डेटाबेस के विपरीत, जिसमें विशिष्ट स्तंभों और पंक्तियों में संगठित संरचित डेटा शामिल है, एक डेटा झील डेटा के कई विभिन्न रूपों के लिए एक विशाल भंडार है।
संग्रहित डेटा को संरचित या असंरचित किया जा सकता है। मतलब इसमें संरचित पंक्तियाँ और स्तंभ हो सकते हैं, या यह नहीं हो सकता है। डेटा तार हो सकता है जो अलग डेटा के लिए विशिष्ट स्वरूपण का उपयोग करता है। प्रत्येक डेटा स्रोत डेटा झील में डेटा को प्रस्तुत कर सकता है जो भी उसे पसंद हो।
एक विशाल झील की तरह एक डेटा झील का चित्र जिसमें मीडिया के कई रूप हैं, जैसे किताबें, चित्र माइक्रोफ़ोन पर, और डीवीडी पर वीडियो।
उस लाइब्रेरी के संरक्षक के रूप में डिजिटल इंटेलिजेंस और डेटा एनालिटिक्स इंजीनियर की कल्पना करें। ये संरक्षक डिजिटल रूप से किताबों, माइक्रोफिच और डीवीडी से डेटा खींच सकते हैं और उस डेटा को मिलाने और संयोजित करने के तरीके खोज सकते हैं और डेटा को कैसे सहसंबंधित करते हैं, से चीजें सीख सकते हैं।
उन सीखों में से वास्तविक, कार्रवाई योग्य बुद्धिमत्ता आती है। हमारे उदाहरण से इनमें से कुछ शामिल हो सकते हैं:
- ट्विटर और फेसबुक पर चैटर न्यूयॉर्क शहर में एक तूफानी तूफान का संकेत देते हैं, जिसमें हजारों ग्राहक छाता खरीदने की योजना बना रहे हैं।
- कंप्यूटर कुकी क्रय डेटा और खुदरा चेकआउट मशीनें इंगित करती हैं कि कैलिफोर्निया में खरीदार डिजाइनर छतरियों के लिए वर्जीनिया के लोगों की तुलना में अधिक भुगतान करने को तैयार हैं।
- बड़े पैमाने पर आने वाला तूफान का पैटर्न बताता है कि पूर्वी तट के अधिकांश हिस्से में पूरे एक सप्ताह तक बारिश की आंधी रहेगी।
ये सभी सीखें मार्केटिंग टीम को भौगोलिक रूप से अधिक विज्ञापन में निवेश करने के लिए प्रेरित कर सकती हैं जहाँ छतरी की बिक्री की माँग बहुत अधिक मजबूत है। विनिर्माण परिचालन भी अपने उत्पादन प्रयासों को दुनिया के उन क्षेत्रों में स्थानांतरित कर सकता है जहां बिक्री की संभावना अधिक है।
इस तरह, बड़े डेटा का उपयोग करके, कोई भी कंपनी अपने विपणन और संचालन को कारगर बना सकती है।
Hadoop क्या है?
अगला सवाल यह है कि कंपनियां डेटा के ऐसे उच्च संस्करणों को कैसे संसाधित करती हैं और रुझानों की पहचान करती हैं?
इस तरह के डेटा क्रंचिंग के लिए बड़े पैमाने पर कंप्यूटर संसाधनों की आवश्यकता होती है। इतना अधिक, कि कंपनियां अब बड़े मेनफ्रेम कंप्यूटरों का उपयोग परिसर में नहीं करतीं, जैसे वे करती थीं। इन सेवाओं में से कई अब क्लाउड से खरीद रहे हैं। Apache Hadoop जैसी क्लाउड डेटा इंटेलिजेंस सेवाएं एक बड़े क्लाउड नेटवर्क पर कई कंप्यूटर नोड प्रदान करती हैं। इनमें से प्रत्येक नोड कई स्रोतों से डेटा की विशाल धाराओं का विश्लेषण करने के लिए आवश्यक प्रसंस्करण शक्ति में योगदान देता है।
इस तरह की प्रोसेसिंग पावर मशीन या डिजिटल इंटेलिजेंस और डेटा एनालिटिक्स का दिल है। Hadoop वह सॉफ्टवेयर फ्रेमवर्क है जो डिजिटल खुफिया इंजीनियरों के लिए आवश्यक रूप से बड़े पैमाने पर कम्प्यूटेशनल बिजली काम के इस पूरे नेटवर्क को बनाता है।
एक बार कम्प्यूटेशनल इंजन एक्शनेबल इंटेलिजेंस का उत्पादन करता है, इन्हें आमतौर पर डैशबोर्ड या रिपोर्ट के रूप में कंपनी को दिया जाता है।
बिग डेटा केवल बज़वर्ड्स नहीं है
सच्चाई यह है कि "बड़ा डेटा" सिर्फ कॉर्पोरेट लिंगो की तुलना में अधिक है। कई कंपनियां सीख रही हैं कि डेटा का बेहतर उपयोग करके वे कई उपलब्धियां हासिल करने में सक्षम हैं।
- निर्माता उपज, गुणवत्ता और दक्षता जैसे महत्वपूर्ण उत्पादन मैट्रिक्स में सुधार कर सकते हैं।
- रिटेलर्स मार्केटप्लेस सिग्नल के आधार पर मार्केटिंग, एडवरटाइजिंग और बिजनेस इन्वेस्टमेंट को बेहतर तरीके से अलाइन कर सकते हैं।
- वितरक एक आपूर्ति श्रृंखला में संभावित समस्याओं की भविष्यवाणी करने में सक्षम हैं जो आकस्मिक रूप से आकस्मिक योजनाओं को विकसित करने में सक्षम हैं।
- समाचार संगठन इंटरनेट पर सार्वजनिक संकेतों का विश्लेषण करके तेजी से समाचारों की पहचान कर सकते हैं।
- साइबर सुरक्षा के विशेषज्ञ जब वे प्रगति पर हों तो साइबर हमलों की पहचान करने के लिए इंटरनेट पर संकेतों का उपयोग करें।
जबकि हाल के वर्षों में जो कुछ भी बड़ा डेटा पूरा हुआ है वह जनता के लिए लगभग अदृश्य बना हुआ है, दुनिया भर के लोगों के लिए बड़े डेटा का वास्तव में रोजमर्रा के जीवन पर महत्वपूर्ण प्रभाव पड़ा है।