वर्गीकरण एक डेटा खनन तकनीक है जो अधिक सटीक भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा संग्रह के लिए श्रेणियां निर्दिष्ट करती है। कभी-कभी निर्णय ट्री कहा जाता है, वर्गीकरण बहुत बड़े डेटासेट्स का विश्लेषण करने के उद्देश्य से कई तरीकों में से एक है।
वर्गीकरण क्यों?
"बड़े डेटा" की आज की दुनिया में बहुत बड़े डेटाबेस आदर्श बन रहे हैं। डेटा के कई टेराबाइट्स वाले डेटाबेस की कल्पना करें- टेराबाइट डेटा का एक ट्रिलियन बाइट है।
अकेले फेसबुक हर दिन 600 टेराबाइट नए डेटा को क्रंच करता है (2014 तक, आखिरी बार इन चश्मे की सूचना दी गई थी)। बड़े डेटा की प्राथमिक चुनौती यह है कि इसे कैसे समझें।
और सरासर मात्रा एकमात्र समस्या नहीं है: बड़ा डेटा भी विविध, असंगठित और तेज़ी से बदलता रहता है। ऑडियो और वीडियो डेटा, सोशल मीडिया पोस्ट, 3 डी डेटा या भू-स्थानिक डेटा पर विचार करें। इस प्रकार का डेटा आसानी से वर्गीकृत या संगठित नहीं किया जाता है।
इस चुनौती को पूरा करने के लिए, वर्गीकरण के बीच, उपयोगी जानकारी निकालने के लिए स्वचालित विधियों की एक श्रृंखला विकसित की गई है ।
वर्गीकरण कैसे काम करता है
तकनीकी बोलने में बहुत दूर जाने के खतरे में, चलिए चर्चा करते हैं कि वर्गीकरण कैसे काम करता है। लक्ष्य वर्गीकरण नियमों का एक सेट बनाना है जो किसी प्रश्न का उत्तर देंगे, निर्णय लेंगे या व्यवहार की भविष्यवाणी करेंगे। शुरू करने के लिए, प्रशिक्षण डेटा का एक सेट विकसित किया गया है जिसमें विशेषताओं के एक निश्चित सेट के साथ-साथ संभावित परिणाम भी शामिल हैं।
वर्गीकरण एल्गोरिदम का काम यह पता लगाने के लिए है कि गुणों का सेट इसके निष्कर्ष तक कैसे पहुंचता है।
परिदृश्य : शायद एक क्रेडिट कार्ड कंपनी यह निर्धारित करने की कोशिश कर रही है कि कौन सी संभावनाएं क्रेडिट कार्ड ऑफ़र प्राप्त करनी चाहिए।
यह प्रशिक्षण डेटा का सेट हो सकता है:
नाम | आयु | लिंग | वार्षिक आय | क्रेडिट कार्ड प्रस्ताव |
---|---|---|---|---|
जॉन डो | 25 | एम | $ 39,500 | नहीं |
जेन डोए | 56 | एफ | $ 125,000 | हाँ |
"भविष्यवाणियों" कॉलम आयु , लिंग , और वार्षिक आय "भविष्यवाणी विशेषता" क्रेडिट कार्ड ऑफ़र का मूल्य निर्धारित करती है। एक प्रशिक्षण सेट में, भविष्यवाणी विशेषता ज्ञात है। वर्गीकरण एल्गोरिदम तब यह निर्धारित करने का प्रयास करता है कि भविष्यवाणियों की विशेषता का मूल्य कैसे पहुंचा: भविष्यवाणियों और निर्णय के बीच क्या संबंध मौजूद हैं? यह पूर्वानुमान नियमों का एक सेट विकसित करेगा, आमतौर पर एक IF / THEN कथन, उदाहरण के लिए:
अगर (आयु> 18 या आयु <75) और वार्षिक आय> 40,000 फिर क्रेडिट कार्ड ऑफ़र = हाँ
जाहिर है, यह एक साधारण उदाहरण है, और एल्गोरिदम को यहां दिखाए गए दो रिकॉर्डों की तुलना में कहीं अधिक डेटा नमूनाकरण की आवश्यकता होगी। इसके अलावा, पूर्वानुमान विवरण कैप्चर करने के लिए उप-नियमों सहित पूर्वानुमान नियम अधिक जटिल होने की संभावना है।
इसके बाद, एल्गोरिदम को विश्लेषण के लिए डेटा का "पूर्वानुमान सेट" दिया जाता है, लेकिन इस सेट में भविष्यवाणी विशेषता (या निर्णय) की कमी है:
नाम | आयु | लिंग | वार्षिक आय | क्रेडिट कार्ड प्रस्ताव |
---|---|---|---|---|
जैक फ्रॉस्ट | 42 | एम | $ 88,000 | |
मैरी मरे | 16 | एफ | $ 0 |
यह भविष्यवाणक डेटा पूर्वानुमान नियमों की सटीकता का अनुमान लगाने में मदद करता है, और नियम तब तक tweaked किए जाते हैं जब तक कि डेवलपर भविष्यवाणियों को प्रभावी और उपयोगी मानता है।
वर्गीकरण के दिन के दिन के उदाहरण
वर्गीकरण, और अन्य डेटा खनन तकनीक, उपभोक्ताओं के रूप में हमारे दैनिक अनुभव के पीछे है।
मौसम की भविष्यवाणियां यह रिपोर्ट करने के लिए वर्गीकरण का उपयोग कर सकती हैं कि दिन बरसात, धूप या बादल छाएगा। मेडिकल पेशे चिकित्सा परिणामों की भविष्यवाणी करने के लिए स्वास्थ्य की स्थिति का विश्लेषण कर सकते हैं। एक प्रकार की वर्गीकरण विधि, बेवकूफ बेयसियन, स्पैम ईमेल को वर्गीकृत करने के लिए सशर्त संभावना का उपयोग करती है। धोखाधड़ी का पता लगाने से उत्पाद ऑफ़र तक, प्रतिदिन डेटा का विश्लेषण करने और भविष्यवाणियों का उत्पादन करने के दृश्यों के पीछे वर्गीकरण होता है।