कौन सा मशीन लर्निंग मॉडल सबसे अच्छा है?
आमतौर पर समस्या के अनुकूल सबसे सरल मॉडल से शुरू करना और जटिलता को उत्तरोत्तर बढ़ाना बेहतर होता है।
मशीन लर्निंग मॉडल प्रशिक्षण डेटा में पैटर्न की खोज करते हैं, जिसका उपयोग लक्ष्य फ़ंक्शन का अनुमान लगाने के लिए किया जाता है और डेटा सेट से आउटपुट में इनपुट का अनुवाद करने का प्रभारी होता है। इस पोस्ट में आपको सभी प्रकार के मशीन लर्निंग मॉडल उपलब्ध होंगे। लेकिन उससे पहले, मशीन लर्निंग के बारे में थोड़ा जान लेते हैं।
मशीन लर्निंग क्या है?
मशीन लर्निंग रणनीतियों और तकनीकों के संग्रह के लिए एक कैच-ऑल वाक्यांश है जो कंप्यूटर को सीखने और खुद को अपनाने में सहायता करता है। मशीन लर्निंग तकनीक स्पष्ट रूप से इच्छित क्रिया की प्रोग्रामिंग किए बिना सीखने में AI की सहायता करती है। मशीन लर्निंग एल्गोरिदम नमूना इनपुट से एक संरचना सीखकर पूर्व निर्धारित प्रोग्राम कमांड के बजाय पूरी तरह से सीखे गए पैटर्न के आधार पर कार्यों का अनुमान लगाता है और निष्पादित करता है। मशीन लर्निंग कई तरह की स्थितियों में बचाव के लिए आता है जब कठोर तरीके अव्यावहारिक होते हैं। यह पूर्व पैटर्न से नई प्रक्रिया सीखेगा और जो सीखा है उसे लागू करेगा।
मशीन लर्निंग एप्लिकेशन का एक उदाहरण जिससे हम सभी परिचित हैं, यह है कि हमारे ईमेल प्रदाता स्पैम से निपटने में हमारी सहायता कैसे करते हैं। स्पैम फ़िल्टर आपके स्पैम फ़ोल्डर में अवांछित ईमेल का पता लगाने और उन्हें रूट करने के लिए एक एल्गोरिथ्म का उपयोग करते हैं। कई ई-कॉमर्स व्यवसाय धोखाधड़ी का पता लगाने और अपने अनुशंसा इंजन की दक्षता में सुधार करने के लिए अन्य आईटी सुरक्षा समाधानों के संयोजन में मशीन लर्निंग एल्गोरिदम का उपयोग करते हैं।
मशीन लर्निंग मॉडल के प्रकार
हम मशीन लर्निंग मॉडल को कार्यों के प्रकार के आधार पर निम्नलिखित समूहों में वर्गीकृत कर सकते हैं:
1. वर्गीकरण मॉडल
एमएल में वर्गीकरण संभावनाओं के सीमित सेट से किसी वस्तु के प्रकार या वर्ग की भविष्यवाणी करने का काम है। वर्गीकरण आउटपुट चर आमतौर पर एक श्रेणी चर होता है। यह भविष्यवाणी करना कि कोई ईमेल स्पैम है या नहीं, क्लासिक बाइनरी वर्गीकरण कार्य का एक उदाहरण है। आइए वर्गीकरण कार्यों के लिए कई प्रासंगिक मॉडल देखें।
1. के-निकटतम पड़ोसी एल्गोरिदम
2. भोले बेयस
3. लॉजिस्टिक रिग्रेशन
4. एसवीएम
5. निर्णय वृक्ष
6. पहनावा
2. रिग्रेशन मॉडल
लर्निंग रिग्रेशन में मशीनी भाषा में मुद्दों का एक सेट होता है, जहां परिणाम चर निरंतर चर ले सकता है। उदाहरण के लिए, एयरलाइन की कीमत की गणना करना एक सामान्य प्रतिगमन कार्य है। आइए उपयोग किए जाने वाले कुछ सबसे सामान्य प्रतिगमन मॉडल पर एक नज़र डालें:
1. रैखिक प्रतिगमन
2. लासो रिग्रेशन
3. रिज रिग्रेशन
4. एसवीएम प्रतिगमन
5. डिसीजन ट्री रिग्रेशन आदि।
3. क्लस्टरिंग
क्लस्टरिंग, संक्षेप में, संबंधित वस्तुओं को एक साथ समूहित करने की समस्या है। यह ऑपरेटर की भागीदारी की आवश्यकता के बिना तुलनीय वस्तुओं की स्वचालित पहचान में सहायता करता है। समरूप डेटा के बिना, हम सफल पर्यवेक्षित मशीन लर्निंग मॉडल (मॉडल जिन्हें स्पष्ट रूप से क्यूरेट या लेबल किए गए डेटा के साथ प्रशिक्षित किया जाना चाहिए) नहीं बना सकते हैं। क्लस्टरिंग हमें इसे अधिक कुशल तरीके से पूरा करने में सक्षम बनाता है। निम्नलिखित कुछ सबसे अधिक उपयोग किए जाने वाले क्लस्टरिंग मॉडल हैं:
1. के मतलब
2. K का अर्थ है++
3. के मेडोइड्स।
4. एग्लोमेरेटिव क्लस्टरिंग
5. डीबीएससीएएन
4. आयामी कमी
स्वतंत्र चर या उद्देश्य का अनुमान लगाने के लिए उपयोग किए जाने वाले पूर्वसूचक कारकों की संख्या को आयामीता कहा जाता है। वास्तविक दुनिया के डेटासेट में चरों की संख्या अक्सर अत्यधिक होती है। मॉडल में बहुत अधिक चर होने पर ओवरफिटिंग भी एक समस्या है। वास्तव में, चर के ये सभी उच्च सेट उद्देश्य के लिए समान रूप से योगदान नहीं करते हैं, और कई परिस्थितियों में, हम वास्तव में कम संख्या में चर के साथ भिन्नताओं को संरक्षित कर सकते हैं। आइए कुछ सबसे अधिक उपयोग किए जाने वाले आयाम कमी मॉडल के बारे में जानें।
1. पीसीए
2. टीएसएनई
3. एसवीडी
5. डीप लर्निंग
डीप लर्निंग मशीन लर्निंग की एक शाखा है जो तंत्रिका नेटवर्क पर केंद्रित है। आइए तंत्रिका नेटवर्क वास्तुकला पर आधारित कई प्रमुख गहन शिक्षण मॉडल देखें:
1. मल्टी-लेयर परसेप्ट्रोन
2. कनवल्शन न्यूरल नेटवर्क्स
3. आवर्तक तंत्रिका नेटवर्क
4. बोल्ट्जमैन मशीन
5. ऑटोएन्कोडर आदि।
6. कौन सा मॉडल सबसे अच्छा है?
हमने ऊपर विभिन्न मशीन लर्निंग मॉडल की अवधारणाओं पर चर्चा की। अब स्पष्ट प्रश्न उठता है: 'इनमें से कौन सा मॉडल सबसे अच्छा है?' यह हाथ की स्थिति के साथ-साथ अन्य कारकों जैसे कि आउटलेयर, सुलभ डेटा की मात्रा, डेटा गुणवत्ता, फीचर डिज़ाइन, और इसी तरह से निर्धारित होता है। वास्तव में, समस्या के अनुकूल सरलतम मॉडल से शुरू करना आमतौर पर बेहतर होता है और पूरी तरह से पैरामीटर ट्यूनिंग और क्रॉस-सत्यापन के माध्यम से जटिलता को उत्तरोत्तर बढ़ाता है। डेटा विज्ञान के क्षेत्र में, एक कहावत है, 'डोमेन विशेषज्ञता की तुलना में क्रॉस-सत्यापन अधिक विश्वसनीय है।'