के-मतलब क्लस्टरिंग क्या है?

के-मतलब एल्गोरिदम के साथ डेटा खनन

के-मतलब क्लस्टरिंग एल्गोरिदम एक डेटा खनन और मशीन लर्निंग टूल है जो उन रिश्तों के पूर्व ज्ञान के बिना संबंधित अवलोकनों के समूहों में अवलोकन को क्लस्टर करने के लिए प्रयोग किया जाता है। नमूनाकरण करके, एल्गोरिदम मूल्य श्रेणी द्वारा परिभाषित क्लस्टर की संख्या के साथ, किस श्रेणी, या क्लस्टर में डेटा दिखाने का प्रयास करता है

के- मतलब एल्गोरिदम सबसे सरल क्लस्टरिंग तकनीकों में से एक है और इसका प्रयोग आमतौर पर चिकित्सा इमेजिंग, बॉयोमीट्रिक्स और संबंधित क्षेत्रों में किया जाता है। के-का मतलब क्लस्टरिंग का लाभ यह है कि यह शुरुआत में डेटा (एल्गोरिदम के पर्यवेक्षित रूप का उपयोग करके) के बारे में एल्गोरिदम को निर्देश देने के बजाय आपके डेटा (इसके असुरक्षित रूप का उपयोग करके) के बारे में बताता है।

इसे कभी-कभी लॉयड के एल्गोरिदम के रूप में जाना जाता है, विशेष रूप से कंप्यूटर विज्ञान सर्किलों में क्योंकि मानक एल्गोरिदम पहली बार स्टुअर्ट लॉयड द्वारा 1 9 57 में प्रस्तावित किया गया था। शब्द "के-साधन" जेम्स मैक्यूएन द्वारा 1 9 67 में बनाया गया था।

कैसे ए-एल्गोरिदम कार्य का मतलब है

के- मतलब एल्गोरिदम एक विकासवादी एल्गोरिदम है जो इसका नाम ऑपरेशन की विधि से प्राप्त करता है। एल्गोरिदम क्लस्टर के समूह में अवलोकन, जहां के इनपुट पैरामीटर के रूप में प्रदान किया जाता है। इसके बाद क्लस्टर के अर्थ के अवलोकन की निकटता के आधार पर क्लस्टर को प्रत्येक अवलोकन को असाइन किया जाता है। क्लस्टर का मतलब फिर से संपीड़ित होता है और प्रक्रिया फिर से शुरू होती है। यहां बताया गया है कि एल्गोरिदम कैसे काम करता है:

  1. एल्गोरिदम प्रारंभिक क्लस्टर केंद्र (साधन) के रूप में मनमाने ढंग से के बिंदुओं का चयन करता है।
  2. प्रत्येक बिंदु और प्रत्येक क्लस्टर केंद्र के बीच यूक्लिडियन दूरी के आधार पर डेटासेट में प्रत्येक बिंदु बंद क्लस्टर को सौंपा गया है।
  3. प्रत्येक क्लस्टर सेंटर को उस क्लस्टर में बिंदुओं के औसत के रूप में पुनः संयोजित किया जाता है।
  4. चरण 2 और 3 दोहराने तक क्लस्टर एकत्रित होते हैं। अभिसरण को कार्यान्वयन के आधार पर अलग-अलग परिभाषित किया जा सकता है, लेकिन इसका सामान्य अर्थ यह है कि या तो चरण 2 और 3 दोहराए जाने पर कोई अवलोकन क्लस्टर बदलता नहीं है, या परिवर्तन क्लस्टर की परिभाषा में भौतिक अंतर नहीं बनाते हैं।

क्लस्टर की संख्या का चयन करना

के-मुख्य मतलब क्लस्टरिंग का मुख्य नुकसान यह तथ्य है कि आपको क्लस्टर को एल्गोरिदम में इनपुट के रूप में निर्दिष्ट करना होगा। डिज़ाइन किए गए अनुसार, एल्गोरिदम क्लस्टर की उचित संख्या निर्धारित करने में सक्षम नहीं है और उपयोगकर्ता को पहले से इसकी पहचान करने पर निर्भर करता है।

उदाहरण के लिए, यदि आपके पास पुरुषों या महिलाओं के रूप में द्विआधारी लिंग पहचान के आधार पर क्लस्टर किया जाना है, तो इनपुट के = 3 का उपयोग करके के- साधन एल्गोरिदम को कॉल करने से लोगों को तीन क्लस्टर में मजबूर किया जाएगा जब केवल दो, या के = 2 का इनपुट , एक और अधिक प्राकृतिक फिट प्रदान करेगा।

इसी तरह, यदि घर के आधार पर व्यक्तियों का एक समूह आसानी से क्लस्टर किया गया था और आपने इनपुट के = 20 के साथ के-साधन एल्गोरिदम कहा था , तो परिणाम प्रभावी होने के लिए बहुत सामान्यीकृत हो सकते हैं।

इस कारण से, अक्सर आपके डेटा के अनुकूल मूल्य की पहचान करने के लिए के विभिन्न मूल्यों के साथ प्रयोग करना एक अच्छा विचार है। आप मशीन-सीखे ज्ञान के लिए अपनी खोज में अन्य डेटा खनन एल्गोरिदम के उपयोग का भी पता लगाना चाहेंगे।