Bayesian स्पैम फ़िल्टरिंग के बारे में आपको क्या पता होना चाहिए

जानें कि आंकड़े आपके इनबॉक्स को साफ रखने में कैसे मदद करते हैं

Bayesian स्पैम फ़िल्टर इसकी सामग्री के आधार पर स्पैम होने वाले संदेश की संभावना की गणना करता है। सरल सामग्री-आधारित फ़िल्टरों के विपरीत, बेयसियन स्पैम फ़िल्टरिंग स्पैम से और अच्छे मेल से सीखती है, जिसके परिणामस्वरूप एक बहुत ही मजबूत, अनुकूल और कुशल एंटी-स्पैम दृष्टिकोण होता है, जो सबसे अच्छा है, शायद ही कोई झूठी सकारात्मक प्रतिक्रिया देता है।

आप जंक ईमेल को कैसे पहचानते हैं?

स्पैम का पता लगाने के बारे में सोचें। एक त्वरित नज़र अक्सर पर्याप्त है। आप जानते हैं कि स्पैम कैसा दिखता है, और आप जानते हैं कि अच्छा मेल कैसा दिखता है।

अच्छे मेल की तरह दिखने वाले स्पैम की संभावना लगभग ... शून्य है।

सामग्री-आधारित फ़िल्टर स्कोरिंग अनुकूल नहीं है

क्या यह अच्छा नहीं होगा अगर स्वचालित स्पैम फ़िल्टर भी इस तरह काम करते हैं?

स्कोरिंग सामग्री-आधारित स्पैम फ़िल्टर बस कोशिश करें। वे स्पैम के विशिष्ट शब्दों और अन्य विशेषताओं की तलाश करते हैं। प्रत्येक विशेषता तत्व को स्कोर दिया जाता है, और पूरे संदेश के लिए स्पैम स्कोर व्यक्तिगत स्कोर से गणना की जाती है। कुछ स्कोरिंग फ़िल्टर वैध मेल की विशेषताओं को भी देखते हैं, जो संदेश के अंतिम स्कोर को कम करते हैं।

स्कोरिंग फ़िल्टर दृष्टिकोण काम करता है, लेकिन इसमें कई दोष भी हैं:

Bayesian स्पैम फ़िल्टर खुद को ट्विक, बेहतर और बेहतर हो रही है

Bayesian स्पैम फ़िल्टर एक प्रकार का स्कोरिंग सामग्री-आधारित फ़िल्टर भी हैं। उनका दृष्टिकोण सरल स्कोरिंग स्पैम फ़िल्टर की समस्याओं से दूर है, और यह बहुत मूल रूप से करता है। चूंकि स्कोरिंग फ़िल्टर की कमजोरी विशेषताओं और उनके स्कोर की मैन्युअल रूप से बनाई गई सूची में है, इसलिए यह सूची समाप्त हो गई है।

इसके बजाए, बेयसियन स्पैम फ़िल्टर स्वयं सूची बनाते हैं। आदर्श रूप में, आप ईमेल के एक (बड़े) समूह से शुरू करते हैं जिसे आपने स्पैम के रूप में वर्गीकृत किया है, और अच्छे मेल का एक और गुच्छा है। फ़िल्टर स्पैम में दिखाई देने वाली विभिन्न विशेषताओं की संभावना की गणना करने के लिए, और अच्छे मेल में वैध मेल के साथ-साथ स्पैम का विश्लेषण और विश्लेषण करते हैं।

एक Bayesian स्पैम फ़िल्टर कैसे एक ईमेल की जांच करता है

एक Bayesian स्पैम फ़िल्टर की विशेषताएं देख सकते हैं:

उदाहरण के लिए, "कार्टेशियन" शब्द, स्पैम में कभी नहीं दिखाई देता है, लेकिन अक्सर आपको प्राप्त होने वाले वैध ईमेल में, संभावना है कि "कार्टेशियन" स्पैम को इंगित करता है शून्य के करीब है। दूसरी तरफ, "टोनर", विशेष रूप से, और अक्सर, स्पैम में दिखाई देता है। "टोनर" में स्पैम में पाया जाने की बहुत अधिक संभावना है, 1 (100%) से बहुत कम नहीं है।

जब कोई नया संदेश आता है, तो इसका विश्लेषण बेयसियन स्पैम फ़िल्टर द्वारा किया जाता है, और स्पैम होने वाले पूरे संदेश की संभावना व्यक्तिगत विशेषताओं का उपयोग करके गणना की जाती है।

मान लें कि एक संदेश में "कार्टेशियन" और "टोनर" दोनों शामिल हैं। अकेले इन शब्दों से यह अभी तक स्पष्ट नहीं है कि हमारे पास स्पैम या कानूनी मेल है या नहीं। अन्य विशेषताएं (उम्मीदपूर्वक और सबसे अधिक संभावना) एक संभावना को इंगित करती हैं जो फ़िल्टर को संदेश को स्पैम या अच्छी मेल के रूप में वर्गीकृत करने की अनुमति देती है।

Bayesian स्पैम फ़िल्टर स्वचालित रूप से सीख सकते हैं

अब जब हमारे पास वर्गीकरण है, तो संदेश को फ़िल्टर को आगे प्रशिक्षित करने के लिए इस्तेमाल किया जा सकता है। इस मामले में, या तो "कार्टेशियन" की संभावना अच्छी मेल को इंगित करती है (यदि "कार्टेशियन" और "टोनर" दोनों वाला संदेश स्पैम पाया जाता है), या स्पैम को इंगित करने वाले "टोनर" की संभावना पर पुनर्विचार किया जाना चाहिए।

इस ऑटो-अनुकूली तकनीक का उपयोग करके, बेयसियन फ़िल्टर अपने और उपयोगकर्ता के निर्णयों से सीख सकते हैं (यदि वह फ़िल्टर द्वारा गलत तरीके से गलतफहमी को सुधारती है)। बेयसियन फ़िल्टरिंग की अनुकूलता यह भी सुनिश्चित करती है कि वे व्यक्तिगत ईमेल उपयोगकर्ता के लिए सबसे प्रभावी हैं। जबकि अधिकांश लोगों के स्पैम में समान विशेषताएं हो सकती हैं, वैध मेल सभी के लिए विशेष रूप से भिन्न होता है।

स्पैमर पिछले बेयसियन फ़िल्टर कैसे प्राप्त कर सकते हैं?

वैध मेल की विशेषताएं बेयसियन स्पैम फ़िल्टरिंग प्रक्रिया के लिए उतनी ही महत्वपूर्ण हैं जितनी स्पैम है। यदि फिल्टर को प्रत्येक उपयोगकर्ता के लिए विशेष रूप से प्रशिक्षित किया जाता है, तो स्पैमर के पास हर किसी के (या यहां तक ​​कि अधिकांश लोगों के) स्पैम फ़िल्टर के आसपास काम करने में भी कठिन समय होगा, और फ़िल्टर लगभग हर चीज स्पैमर को अनुकूलित कर सकते हैं।

स्पैमर केवल इसे अच्छी तरह से प्रशिक्षित बेयसियन फ़िल्टर बना देंगे यदि वे अपने स्पैम संदेश को सामान्य ईमेल की तरह पूरी तरह दिखते हैं।

स्पैमर आमतौर पर ऐसे सामान्य ईमेल नहीं भेजते हैं। आइए मान लीजिए क्योंकि ये ईमेल जंक ईमेल के रूप में काम नहीं करते हैं। इसलिए, संभावना है कि वे ऐसा नहीं करेंगे जब सामान्य, उबाऊ ईमेल पिछले स्पैम फ़िल्टर बनाने का एकमात्र तरीका है।

यदि स्पैमर अधिकतर सामान्य दिखने वाले ईमेल पर स्विच करते हैं, हालांकि, हम फिर से हमारे इनबॉक्स में बहुत से स्पैम देखेंगे, और ईमेल निराशाजनक हो सकता है क्योंकि यह पूर्व-बेयसियन दिनों (या इससे भी बदतर) में था। यह ज्यादातर प्रकार के स्पैम के लिए बाजार को भी बर्बाद कर देगा, और इस प्रकार लंबे समय तक नहीं टिकेगा।

मजबूत संकेतक एक Bayesian स्पैम फ़िल्टर की Achilles & # 39; एड़ी

स्पैमर को अपनी सामान्य सामग्री के साथ भी बेयसियन फ़िल्टर के माध्यम से अपना रास्ता काम करने के लिए एक अपवाद माना जा सकता है। यह Bayesian आंकड़ों की प्रकृति में है कि एक शब्द या विशेषता जो अक्सर अच्छी मेल में दिखाई देती है, इतनी महत्वपूर्ण हो सकती है कि किसी भी संदेश को स्पैम की तरह दिखने से फ़िल्टर द्वारा हैम के रूप में रेट किया जा सके।

यदि स्पैमर को आपके रिटर्न -फायर अच्छे मेल शब्दों को निर्धारित करने का कोई तरीका मिलता है- एचटीएमएल रिटर्न रसीदों का उपयोग करके यह देखने के लिए कि आपने कौन से संदेश खोले हैं, उदाहरण के लिए, उनमें से एक को जंक मेल में शामिल कर सकते हैं और एक अच्छी तरह से- प्रशिक्षित Bayesian फ़िल्टर।

जॉन ग्राहम-कमिंग ने दो बेयसियन फ़िल्टरों को एक-दूसरे के खिलाफ काम करने की कोशिश की है, "खराब" एक "अनुकूल" फ़िल्टर के माध्यम से कौन से संदेश मिलते हैं। उनका कहना है कि यह काम करता है, हालांकि प्रक्रिया समय लेने वाली और जटिल है। हमें नहीं लगता कि हम कम से कम बड़े पैमाने पर नहीं, और व्यक्तियों की ईमेल विशेषताओं के अनुरूप नहीं होने वाले इस बारे में अधिकतर देखेंगे। स्पैमर संगठनों के लिए कुछ कीवर्ड (कोशिश कर सकते हैं) (कुछ लोगों के लिए "अल्माडेन" जैसे कुछ हो सकता है?) इसके बजाए।

आम तौर पर, स्पैम नियमित मेल से हमेशा (महत्वपूर्ण) अलग होगा या यह स्पैम नहीं होगा, हालांकि।

निचला रेखा: बेयसियन फ़िल्टरिंग की ताकत इसकी कमजोरी हो सकती है

Bayesian स्पैम फ़िल्टर सामग्री-आधारित फ़िल्टर हैं जो: