डाटा खनन मा वर्गीकरण

वर्गीकरण एक डेटा खनन प्रविधी हो जसले डेटाको संग्रहमा कोटिहरू थप सटीक भविष्यवाणी र विश्लेषणमा सहायता गर्न प्रदान गर्दछ। यो पनि कहिलेकाहीं एक निर्णय ट्री भनिन्छ , वर्गीकरण धेरै ठूलो डेटासेट प्रभावकारी को विश्लेषण गर्न को लागी धेरै तरिकाहरु मध्ये एक हो।

किन वर्गीकरण?

धेरै ठूलो डेटाबेसहरू आजको संसारको "सामान्य डेटा" को आदर्श हुन्। डाटाबेसको बहु डेटाबेसको साथ कल्पना गर्नुहोस् - a terabyte डेटाको एक ट्रिलियन बाइट्स हो।

फेसबुकले हरेक दिन 600 टेबाइट्सको नयाँ डेटा प्रत्येक दिन (जस्तै 2014 सम्म, अन्तिम पटक यो चश्मा रिपोर्ट गरेको छ) लाई रोक्दछ। ठूलो डाटाको प्राथमिक चुनौती यो कसरी बनाउनको लागि हो।

र सङ्ग्य मात्रा मात्र समस्या होइन: ठूला डेटा पनि विविध, अनावश्यक र छिटो-परिवर्तन हुने हुन्छ। अडियो र भिडीयो डेटा, सोशल मिडिया पोष्टहरू, 3D डेटा वा भू-स्थानिय डेटालाई विचार गर्नुहोस्। यो प्रकारको डेटा सजिलै वर्गीकृत वा व्यवस्थित गरिएको छैन।

यो चुनौती पूरा गर्न, उपयोगी जानकारी निकाल्न को लागी स्वत: विधिहरूको दायरा विकसित गरिएको छ, तिनीहरूलाई वर्गीकरणमा

कसरी वर्गीकरण कार्य गर्दछ

टेक-बोईमा धेरै टाढाको खतरामा, हामी कसरी वर्गीकरण कार्य गर्दछ चर्चा गर्छौं। लक्ष्य एक वर्गीकरण नियम को एक सेट छ कि एक प्रश्न को जवाब, एक निर्णय, वा व्यवहार को भविष्यवाणी गर्न को लागी छ .सुरु गर्न को लागि, प्रशिक्षण डेटा को एक सेट विकसित भएको छ कि एक निश्चित सेट विशेषताहरु र संभावना परिणाम को रूप मा।

वर्गीकरण एल्गोरिदमको कार्य पत्ता लगाउनु हो कि कसरी विशेषताहरूको सेट यसको निष्कर्षमा पुग्छ।

परिदृश्य : सायद एक क्रेडिट कार्ड कम्पनीले कस्तो संभावनाहरूलाई क्रेडिट कार्ड प्रस्ताव प्राप्त गर्नुपर्छ भन्ने निर्धारण गर्न प्रयास गर्दैछ।

यो प्रशिक्षण डेटा यसको सेट हो हुन सक्छ:

प्रशिक्षण डेटा
नाम उमेर लिङ्ग वार्षिक आय क्रेडिट कार्ड प्रस्ताव
जॉन डो 25 एम $ 39,500 होइन
जेन डो 56 F $ 125,000 हो

"Predictor" स्तम्भ उमेर , लिंग , र वार्षिक आय "predictor विशेषता" क्रेडिट कार्ड प्रस्ताव को मूल्य निर्धारण गर्दछ। एक प्रशिक्षण सेटमा, भविष्यवाचक विशेषता थाहा छ। वर्गीकरण एल्गोरिथ्म त्यसपछि भविष्यवाणीकर्ताको मूल्य कसरी पुग्यो भनेर निर्धारण गर्न कोसिस गर्दछ: भविष्यवाणीहरू र निर्णयको बीच कुन सम्बन्धहरू अवस्थित छन्? यसले भविष्यवाणी नियमहरूको सामान्यतया विकास गर्नेछ, सामान्यतया कुनै आईएफ / तानको बयान, उदाहरणका लागि:

यदि (उमेर> 18 वा उमेर <75) र वार्षिक आय> 40,000 THEN क्रेडिट कार्ड प्रस्ताव = हो

जाहिर छ, यो एक सरल उदाहरण हो, र एल्गोरिथ्मले धेरै लामो डाटा नमूनाको आवश्यकता पर्दछ जुन यहाँ देखाइएको दुई रेकर्ड भन्दा बढी हुन्छ। यसबाहेक, भविष्यवाणी नियमहरू सम्भावना विवरणहरू खिच्नका लागि उप-नियम सहित धेरै जटिल हुनसक्दछ।

अर्को, एल्गोरिदमलाई विश्लेषणको लागि डेटाको "भविष्यवाणी सेट" दिइएको छ, तर यो सेटले भविष्यवाणी विशेषता (वा निर्णय) को कमी छैन।

भविष्यसूचक डेटा
नाम उमेर लिङ्ग वार्षिक आय क्रेडिट कार्ड प्रस्ताव
जैक फ्रस्ट 42 एम $ 88,000
मेरी मरियम 16 F $ 0

यो भविष्यवाचक डेटाले भविष्यवाणी नियमहरूको शुद्धता अनुमान गर्दछ, र त्यसो भए नियमहरू तबसम्म ट्वीक गरिएको छ जब विकासकर्ता भविष्यवाणीहरू प्रभावकारी र उपयोगी मानिन्छ।

दिनको दिन वर्गीकरणको उदाहरण

वर्गीकरण, र अन्य डाटा खनन प्रविधिहरू, ग्राहकहरूको रूपमा हाम्रो दैनिक-दिनको अनुभव धेरै पछि लाग्दछ।

मौसम भविष्यवाणीहरूले वर्गीकरणको प्रयोगलाई रिपोर्ट गर्न दिन सक्छ कि दिन वर्षा, चिसो वा बादल हुनेछ। चिकित्सा पेशाले स्वास्थ्य परिस्थितिको विश्लेषण गर्न सक्दछ चिकित्सा परिणामहरूको अनुमान गर्न। एक प्रकारको वर्गीकरण विधि, नोभ बेईसेयनले स्प्याम सम्भावनाहरू स्प्याम इमेलहरू वर्गीकरण गर्न प्रयोग गर्दछ। धोखाधड़ी पत्ता लगाउने उत्पादन प्रस्ताव को लागी, वर्गीकरण डेटा को विश्लेषण र भविष्यवाणी को उत्पादन हरेक दृश्यहरु पछि छ।