डेटा खनन में वर्गीकरण

by माइक चैपल

वर्गीकरण एक डेटा खनन तकनीक है जो अधिक सटीक भविष्यवाणियों और विश्लेषण में सहायता के लिए डेटा संग्रह के लिए श्रेणियां निर्दिष्ट करती है। कभी-कभी निर्णय ट्री कहा जाता है, वर्गीकरण बहुत बड़े डेटासेट्स का विश्लेषण करने के उद्देश्य से कई तरीकों में से एक है।

वर्गीकरण क्यों?

"बड़े डेटा" की आज की दुनिया में बहुत बड़े डेटाबेस आदर्श बन रहे हैं। डेटा के कई टेराबाइट्स वाले डेटाबेस की कल्पना करें- टेराबाइट डेटा का एक ट्रिलियन बाइट है।

अकेले फेसबुक हर दिन 600 टेराबाइट नए डेटा को क्रंच करता है (2014 तक, आखिरी बार इन चश्मे की सूचना दी गई थी)। बड़े डेटा की प्राथमिक चुनौती यह है कि इसे कैसे समझें।

और सरासर मात्रा एकमात्र समस्या नहीं है: बड़ा डेटा भी विविध, असंगठित और तेज़ी से बदलता रहता है। ऑडियो और वीडियो डेटा, सोशल मीडिया पोस्ट, 3 डी डेटा या भू-स्थानिक डेटा पर विचार करें। इस प्रकार का डेटा आसानी से वर्गीकृत या संगठित नहीं किया जाता है।

इस चुनौती को पूरा करने के लिए, वर्गीकरण के बीच, उपयोगी जानकारी निकालने के लिए स्वचालित विधियों की एक श्रृंखला विकसित की गई है ।

वर्गीकरण कैसे काम करता है

तकनीकी बोलने में बहुत दूर जाने के खतरे में, चलिए चर्चा करते हैं कि वर्गीकरण कैसे काम करता है। लक्ष्य वर्गीकरण नियमों का एक सेट बनाना है जो किसी प्रश्न का उत्तर देंगे, निर्णय लेंगे या व्यवहार की भविष्यवाणी करेंगे। शुरू करने के लिए, प्रशिक्षण डेटा का एक सेट विकसित किया गया है जिसमें विशेषताओं के एक निश्चित सेट के साथ-साथ संभावित परिणाम भी शामिल हैं।

वर्गीकरण एल्गोरिदम का काम यह पता लगाने के लिए है कि गुणों का सेट इसके निष्कर्ष तक कैसे पहुंचता है।

परिदृश्य : शायद एक क्रेडिट कार्ड कंपनी यह निर्धारित करने की कोशिश कर रही है कि कौन सी संभावनाएं क्रेडिट कार्ड ऑफ़र प्राप्त करनी चाहिए।

यह प्रशिक्षण डेटा का सेट हो सकता है:

**प्रशिक्षण जानकारी**
नाम	आयु	लिंग	वार्षिक आय	क्रेडिट कार्ड प्रस्ताव
जॉन डो	25	एम	$ 39,500	नहीं
जेन डोए	56	एफ	$ 125,000	हाँ

"भविष्यवाणियों" कॉलम आयु , लिंग , और वार्षिक आय "भविष्यवाणी विशेषता" क्रेडिट कार्ड ऑफ़र का मूल्य निर्धारित करती है। एक प्रशिक्षण सेट में, भविष्यवाणी विशेषता ज्ञात है। वर्गीकरण एल्गोरिदम तब यह निर्धारित करने का प्रयास करता है कि भविष्यवाणियों की विशेषता का मूल्य कैसे पहुंचा: भविष्यवाणियों और निर्णय के बीच क्या संबंध मौजूद हैं? यह पूर्वानुमान नियमों का एक सेट विकसित करेगा, आमतौर पर एक IF / THEN कथन, उदाहरण के लिए:

अगर (आयु> 18 या आयु <75) और वार्षिक आय> 40,000 फिर क्रेडिट कार्ड ऑफ़र = हाँ

जाहिर है, यह एक साधारण उदाहरण है, और एल्गोरिदम को यहां दिखाए गए दो रिकॉर्डों की तुलना में कहीं अधिक डेटा नमूनाकरण की आवश्यकता होगी। इसके अलावा, पूर्वानुमान विवरण कैप्चर करने के लिए उप-नियमों सहित पूर्वानुमान नियम अधिक जटिल होने की संभावना है।

इसके बाद, एल्गोरिदम को विश्लेषण के लिए डेटा का "पूर्वानुमान सेट" दिया जाता है, लेकिन इस सेट में भविष्यवाणी विशेषता (या निर्णय) की कमी है:

**भविष्यवाणी डेटा**
नाम	आयु	लिंग	वार्षिक आय	क्रेडिट कार्ड प्रस्ताव
जैक फ्रॉस्ट	42	एम	$ 88,000
मैरी मरे	16	एफ	$ 0

यह भविष्यवाणक डेटा पूर्वानुमान नियमों की सटीकता का अनुमान लगाने में मदद करता है, और नियम तब तक tweaked किए जाते हैं जब तक कि डेवलपर भविष्यवाणियों को प्रभावी और उपयोगी मानता है।

वर्गीकरण के दिन के दिन के उदाहरण

वर्गीकरण, और अन्य डेटा खनन तकनीक, उपभोक्ताओं के रूप में हमारे दैनिक अनुभव के पीछे है।

मौसम की भविष्यवाणियां यह रिपोर्ट करने के लिए वर्गीकरण का उपयोग कर सकती हैं कि दिन बरसात, धूप या बादल छाएगा। मेडिकल पेशे चिकित्सा परिणामों की भविष्यवाणी करने के लिए स्वास्थ्य की स्थिति का विश्लेषण कर सकते हैं। एक प्रकार की वर्गीकरण विधि, बेवकूफ बेयसियन, स्पैम ईमेल को वर्गीकृत करने के लिए सशर्त संभावना का उपयोग करती है। धोखाधड़ी का पता लगाने से उत्पाद ऑफ़र तक, प्रतिदिन डेटा का विश्लेषण करने और भविष्यवाणियों का उत्पादन करने के दृश्यों के पीछे वर्गीकरण होता है।

वर्गीकरण क्यों?

वर्गीकरण कैसे काम करता है

वर्गीकरण के दिन के दिन के उदाहरण

Alike posts

See Newest

Sapid posts