डाटा खनन मा वर्गीकरण

by माइक चैपल

वर्गीकरण एक डेटा खनन प्रविधी हो जसले डेटाको संग्रहमा कोटिहरू थप सटीक भविष्यवाणी र विश्लेषणमा सहायता गर्न प्रदान गर्दछ। यो पनि कहिलेकाहीं एक निर्णय ट्री भनिन्छ , वर्गीकरण धेरै ठूलो डेटासेट प्रभावकारी को विश्लेषण गर्न को लागी धेरै तरिकाहरु मध्ये एक हो।

किन वर्गीकरण?

धेरै ठूलो डेटाबेसहरू आजको संसारको "सामान्य डेटा" को आदर्श हुन्। डाटाबेसको बहु डेटाबेसको साथ कल्पना गर्नुहोस् - a terabyte डेटाको एक ट्रिलियन बाइट्स हो।

फेसबुकले हरेक दिन 600 टेबाइट्सको नयाँ डेटा प्रत्येक दिन (जस्तै 2014 सम्म, अन्तिम पटक यो चश्मा रिपोर्ट गरेको छ) लाई रोक्दछ। ठूलो डाटाको प्राथमिक चुनौती यो कसरी बनाउनको लागि हो।

र सङ्ग्य मात्रा मात्र समस्या होइन: ठूला डेटा पनि विविध, अनावश्यक र छिटो-परिवर्तन हुने हुन्छ। अडियो र भिडीयो डेटा, सोशल मिडिया पोष्टहरू, 3D डेटा वा भू-स्थानिय डेटालाई विचार गर्नुहोस्। यो प्रकारको डेटा सजिलै वर्गीकृत वा व्यवस्थित गरिएको छैन।

यो चुनौती पूरा गर्न, उपयोगी जानकारी निकाल्न को लागी स्वत: विधिहरूको दायरा विकसित गरिएको छ, तिनीहरूलाई वर्गीकरणमा ।

कसरी वर्गीकरण कार्य गर्दछ

टेक-बोईमा धेरै टाढाको खतरामा, हामी कसरी वर्गीकरण कार्य गर्दछ चर्चा गर्छौं। लक्ष्य एक वर्गीकरण नियम को एक सेट छ कि एक प्रश्न को जवाब, एक निर्णय, वा व्यवहार को भविष्यवाणी गर्न को लागी छ .सुरु गर्न को लागि, प्रशिक्षण डेटा को एक सेट विकसित भएको छ कि एक निश्चित सेट विशेषताहरु र संभावना परिणाम को रूप मा।

वर्गीकरण एल्गोरिदमको कार्य पत्ता लगाउनु हो कि कसरी विशेषताहरूको सेट यसको निष्कर्षमा पुग्छ।

परिदृश्य : सायद एक क्रेडिट कार्ड कम्पनीले कस्तो संभावनाहरूलाई क्रेडिट कार्ड प्रस्ताव प्राप्त गर्नुपर्छ भन्ने निर्धारण गर्न प्रयास गर्दैछ।

यो प्रशिक्षण डेटा यसको सेट हो हुन सक्छ:

**प्रशिक्षण डेटा**
नाम	उमेर	लिङ्ग	वार्षिक आय	क्रेडिट कार्ड प्रस्ताव
जॉन डो	25	एम	$ 39,500	होइन
जेन डो	56	F	$ 125,000	हो

"Predictor" स्तम्भ उमेर , लिंग , र वार्षिक आय "predictor विशेषता" क्रेडिट कार्ड प्रस्ताव को मूल्य निर्धारण गर्दछ। एक प्रशिक्षण सेटमा, भविष्यवाचक विशेषता थाहा छ। वर्गीकरण एल्गोरिथ्म त्यसपछि भविष्यवाणीकर्ताको मूल्य कसरी पुग्यो भनेर निर्धारण गर्न कोसिस गर्दछ: भविष्यवाणीहरू र निर्णयको बीच कुन सम्बन्धहरू अवस्थित छन्? यसले भविष्यवाणी नियमहरूको सामान्यतया विकास गर्नेछ, सामान्यतया कुनै आईएफ / तानको बयान, उदाहरणका लागि:

यदि (उमेर> 18 वा उमेर <75) र वार्षिक आय> 40,000 THEN क्रेडिट कार्ड प्रस्ताव = हो

जाहिर छ, यो एक सरल उदाहरण हो, र एल्गोरिथ्मले धेरै लामो डाटा नमूनाको आवश्यकता पर्दछ जुन यहाँ देखाइएको दुई रेकर्ड भन्दा बढी हुन्छ। यसबाहेक, भविष्यवाणी नियमहरू सम्भावना विवरणहरू खिच्नका लागि उप-नियम सहित धेरै जटिल हुनसक्दछ।

अर्को, एल्गोरिदमलाई विश्लेषणको लागि डेटाको "भविष्यवाणी सेट" दिइएको छ, तर यो सेटले भविष्यवाणी विशेषता (वा निर्णय) को कमी छैन।

**भविष्यसूचक डेटा**
नाम	उमेर	लिङ्ग	वार्षिक आय	क्रेडिट कार्ड प्रस्ताव
जैक फ्रस्ट	42	एम	$ 88,000
मेरी मरियम	16	F	$ 0

यो भविष्यवाचक डेटाले भविष्यवाणी नियमहरूको शुद्धता अनुमान गर्दछ, र त्यसो भए नियमहरू तबसम्म ट्वीक गरिएको छ जब विकासकर्ता भविष्यवाणीहरू प्रभावकारी र उपयोगी मानिन्छ।

दिनको दिन वर्गीकरणको उदाहरण

वर्गीकरण, र अन्य डाटा खनन प्रविधिहरू, ग्राहकहरूको रूपमा हाम्रो दैनिक-दिनको अनुभव धेरै पछि लाग्दछ।

मौसम भविष्यवाणीहरूले वर्गीकरणको प्रयोगलाई रिपोर्ट गर्न दिन सक्छ कि दिन वर्षा, चिसो वा बादल हुनेछ। चिकित्सा पेशाले स्वास्थ्य परिस्थितिको विश्लेषण गर्न सक्दछ चिकित्सा परिणामहरूको अनुमान गर्न। एक प्रकारको वर्गीकरण विधि, नोभ बेईसेयनले स्प्याम सम्भावनाहरू स्प्याम इमेलहरू वर्गीकरण गर्न प्रयोग गर्दछ। धोखाधड़ी पत्ता लगाउने उत्पादन प्रस्ताव को लागी, वर्गीकरण डेटा को विश्लेषण र भविष्यवाणी को उत्पादन हरेक दृश्यहरु पछि छ।

किन वर्गीकरण?

कसरी वर्गीकरण कार्य गर्दछ

दिनको दिन वर्गीकरणको उदाहरण

Alike posts

See Newest

Sapid posts