डेटा खनन में वर्गीकरण

वर्गीकरण एक डेटा खनन तकनीक है जो अधिक सटीक भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा संग्रह के लिए श्रेणियां निर्दिष्ट करती है। कभी-कभी निर्णय ट्री कहा जाता है, वर्गीकरण बहुत बड़े डेटासेट्स का विश्लेषण करने के उद्देश्य से कई तरीकों में से एक है।

वर्गीकरण क्यों?

"बड़े डेटा" की आज की दुनिया में बहुत बड़े डेटाबेस आदर्श बन रहे हैं। डेटा के कई टेराबाइट्स वाले डेटाबेस की कल्पना करें- टेराबाइट डेटा का एक ट्रिलियन बाइट है।

अकेले फेसबुक हर दिन 600 टेराबाइट नए डेटा को क्रंच करता है (2014 तक, आखिरी बार इन चश्मे की सूचना दी गई थी)। बड़े डेटा की प्राथमिक चुनौती यह है कि इसे कैसे समझें।

और सरासर मात्रा एकमात्र समस्या नहीं है: बड़ा डेटा भी विविध, असंगठित और तेज़ी से बदलता रहता है। ऑडियो और वीडियो डेटा, सोशल मीडिया पोस्ट, 3 डी डेटा या भू-स्थानिक डेटा पर विचार करें। इस प्रकार का डेटा आसानी से वर्गीकृत या संगठित नहीं किया जाता है।

इस चुनौती को पूरा करने के लिए, वर्गीकरण के बीच, उपयोगी जानकारी निकालने के लिए स्वचालित विधियों की एक श्रृंखला विकसित की गई है

वर्गीकरण कैसे काम करता है

तकनीकी बोलने में बहुत दूर जाने के खतरे में, चलिए चर्चा करते हैं कि वर्गीकरण कैसे काम करता है। लक्ष्य वर्गीकरण नियमों का एक सेट बनाना है जो किसी प्रश्न का उत्तर देंगे, निर्णय लेंगे या व्यवहार की भविष्यवाणी करेंगे। शुरू करने के लिए, प्रशिक्षण डेटा का एक सेट विकसित किया गया है जिसमें विशेषताओं के एक निश्चित सेट के साथ-साथ संभावित परिणाम भी शामिल हैं।

वर्गीकरण एल्गोरिदम का काम यह पता लगाने के लिए है कि गुणों का सेट इसके निष्कर्ष तक कैसे पहुंचता है।

परिदृश्य : शायद एक क्रेडिट कार्ड कंपनी यह निर्धारित करने की कोशिश कर रही है कि कौन सी संभावनाएं क्रेडिट कार्ड ऑफ़र प्राप्त करनी चाहिए।

यह प्रशिक्षण डेटा का सेट हो सकता है:

प्रशिक्षण जानकारी
नाम आयु लिंग वार्षिक आय क्रेडिट कार्ड प्रस्ताव
जॉन डो 25 एम $ 39,500 नहीं
जेन डोए 56 एफ $ 125,000 हाँ

"भविष्यवाणियों" कॉलम आयु , लिंग , और वार्षिक आय "भविष्यवाणी विशेषता" क्रेडिट कार्ड ऑफ़र का मूल्य निर्धारित करती है। एक प्रशिक्षण सेट में, भविष्यवाणी विशेषता ज्ञात है। वर्गीकरण एल्गोरिदम तब यह निर्धारित करने का प्रयास करता है कि भविष्यवाणियों की विशेषता का मूल्य कैसे पहुंचा: भविष्यवाणियों और निर्णय के बीच क्या संबंध मौजूद हैं? यह पूर्वानुमान नियमों का एक सेट विकसित करेगा, आमतौर पर एक IF / THEN कथन, उदाहरण के लिए:

अगर (आयु> 18 या आयु <75) और वार्षिक आय> 40,000 फिर क्रेडिट कार्ड ऑफ़र = हाँ

जाहिर है, यह एक साधारण उदाहरण है, और एल्गोरिदम को यहां दिखाए गए दो रिकॉर्डों की तुलना में कहीं अधिक डेटा नमूनाकरण की आवश्यकता होगी। इसके अलावा, पूर्वानुमान विवरण कैप्चर करने के लिए उप-नियमों सहित पूर्वानुमान नियम अधिक जटिल होने की संभावना है।

इसके बाद, एल्गोरिदम को विश्लेषण के लिए डेटा का "पूर्वानुमान सेट" दिया जाता है, लेकिन इस सेट में भविष्यवाणी विशेषता (या निर्णय) की कमी है:

भविष्यवाणी डेटा
नाम आयु लिंग वार्षिक आय क्रेडिट कार्ड प्रस्ताव
जैक फ्रॉस्ट 42 एम $ 88,000
मैरी मरे 16 एफ $ 0

यह भविष्यवाणक डेटा पूर्वानुमान नियमों की सटीकता का अनुमान लगाने में मदद करता है, और नियम तब तक tweaked किए जाते हैं जब तक कि डेवलपर भविष्यवाणियों को प्रभावी और उपयोगी मानता है।

वर्गीकरण के दिन के दिन के उदाहरण

वर्गीकरण, और अन्य डेटा खनन तकनीक, उपभोक्ताओं के रूप में हमारे दैनिक अनुभव के पीछे है।

मौसम की भविष्यवाणियां यह रिपोर्ट करने के लिए वर्गीकरण का उपयोग कर सकती हैं कि दिन बरसात, धूप या बादल छाएगा। मेडिकल पेशे चिकित्सा परिणामों की भविष्यवाणी करने के लिए स्वास्थ्य की स्थिति का विश्लेषण कर सकते हैं। एक प्रकार की वर्गीकरण विधि, बेवकूफ बेयसियन, स्पैम ईमेल को वर्गीकृत करने के लिए सशर्त संभावना का उपयोग करती है। धोखाधड़ी का पता लगाने से उत्पाद ऑफ़र तक, प्रतिदिन डेटा का विश्लेषण करने और भविष्यवाणियों का उत्पादन करने के दृश्यों के पीछे वर्गीकरण होता है।