11 सबसे आम मशीन लर्निंग एल्गोरिदम 2024: मशीन लर्निंग एल्गोरिदम के प्रकार क्या हैं?

इस पोस्ट में, हम सबसे सामान्य मशीन लर्निंग एल्गोरिदम पर एक नज़र डालेंगे और उन्हें संक्षेप में समझाएंगे। इससे आपको यह समझने में मदद मिलेगी कि वे कैसे काम करते हैं और उनका उपयोग कब करना है। 

व्यवसाय और विज्ञान में भविष्यवाणियाँ या सिफ़ारिशें करने के लिए मशीन लर्निंग एल्गोरिदम का व्यापक रूप से उपयोग किया जाता है। 

यदि आप डेटा के साथ काम कर रहे हैं, या भविष्य में डेटा के साथ काम करने की योजना बना रहे हैं, तो आपको मशीन के बारे में जानना होगा एल्गोरिदम सीखना. लेकिन चिंता न करें, उन्हें समझने के लिए आपको एक प्रतिभाशाली गणितज्ञ होने की आवश्यकता नहीं है!

इस ब्लॉग पोस्ट में, हम 11 सबसे सामान्य मशीन लर्निंग एल्गोरिदम को तोड़ेंगे और उन्हें संक्षेप में समझाएंगे। तो क्या आप अभी शुरुआत कर रहे हैं डेटा विज्ञान या आप एक अनुभवी इंजीनियर हैं, मशीन लर्निंग एल्गोरिदम में क्रैश कोर्स के लिए आगे पढ़ें।

यदि आप अधिकांश डेटा विज्ञान पेशेवरों की तरह हैं, तो आप अपने मशीन लर्निंग मॉडल को बेहतर बनाने के लिए हमेशा नए और अभिनव तरीकों की तलाश में रहते हैं। लेकिन चुनने के लिए इतने सारे अलग-अलग एल्गोरिदम के साथ, यह जानना मुश्किल हो सकता है कि कहां से शुरू करें।

 

मशीन लर्निंग एल्गोरिदम

इस ब्लॉग पोस्ट में, हम ग्यारह सबसे सामान्य मशीन लर्निंग एल्गोरिदम पर एक नज़र डालेंगे और संक्षेप में बताएंगे कि वे कैसे काम करते हैं।

इस ज्ञान से लैस होकर, आप मौजूदा कार्य के लिए सही एल्गोरिदम चुनने में सक्षम होंगे और तेजी से बेहतर मॉडल बनाना शुरू कर सकेंगे। 

सबसे आम मशीन लर्निंग एल्गोरिदम

11 सबसे आम मशीन लर्निंग एल्गोरिदम 2024

1. रैखिक प्रतिगमन

सबसे आम मशीन लर्निंग एल्गोरिदम है। इसका उपयोग एक आश्रित चर (y) और एक या अधिक स्वतंत्र चर (x) के बीच संबंध बनाने के लिए किया जाता है। लक्ष्य सर्वोत्तम फिट की रेखा ढूंढना है जो अनुमानित मूल्यों और वास्तविक मूल्यों के बीच त्रुटि को कम करता है।

रेखीय प्रतिगमन एक सरल और व्यापक रूप से उपयोग की जाने वाली सांख्यिकीय शिक्षण पद्धति है। रैखिक प्रतिगमन मॉडल का उपयोग डेटा में एक पंक्ति फिट करके चर के बीच संबंधों का वर्णन करने के लिए किया जाता है। ये मॉडल लोकप्रिय हैं क्योंकि इन्हें समझना और व्याख्या करना आसान है, और इन्हें डेटा की एक विस्तृत श्रृंखला पर लागू किया जा सकता है।

रेखीय प्रतिगमन एक है शक्तिशाली उपकरण चरों के बीच संबंधों को समझने के लिए, लेकिन इसकी सीमाएँ हैं। रैखिक मॉडल डेटा के बारे में ऐसी धारणाएँ बनाते हैं जो सच नहीं हो सकती हैं, और वे आउटलेर्स द्वारा पक्षपाती हो सकते हैं। इसके अलावा, रैखिक मॉडल चर के बीच गैर-रेखीय संबंधों को कैप्चर नहीं कर सकते हैं।

इन सीमाओं के बावजूद, डेटा को समझने के लिए रैखिक प्रतिगमन अभी भी एक मूल्यवान उपकरण है। इस ट्यूटोरियल में, हम रैखिक प्रतिगमन के बारे में सीखेंगे और आर में रैखिक मॉडल कैसे बनाएं। हम रैखिक प्रतिगमन की कुछ सीमाओं और उन्हें कैसे दूर करें के बारे में भी सीखेंगे।

2. लॉजिस्टिक रिग्रेशन

यह रैखिक प्रतिगमन के समान है, लेकिन इसका उपयोग तब किया जाता है जब आश्रित चर द्विआधारी (1 या 0) होता है। लक्ष्य सर्वोत्तम फिट की रेखा ढूंढना है जो सही भविष्यवाणी की संभावना को अधिकतम करती है।

लॉजिस्टिक रिग्रेशन रैखिक रिग्रेशन के समान है, लेकिन लॉजिस्टिक रिग्रेशन द्वारा की गई भविष्यवाणियां निरंतर नहीं होती हैं। इसके बजाय, वे द्विभाजित हैं, जिसका अर्थ है कि केवल दो संभावित परिणाम हैं.

उदाहरण के लिए, एक लॉजिस्टिक रिग्रेशन मॉडल का उपयोग यह अनुमान लगाने के लिए किया जा सकता है कि कोई ईमेल एक स्पैम है, ईमेल में दिखाई देने वाले कुछ शब्दों पर आधारित।

लॉजिस्टिक रिग्रेशन एक शक्तिशाली उपकरण है, लेकिन इसकी सीमाएं भी हैं। सबसे बड़ी सीमाओं में से एक यह है कि इसका उपयोग केवल द्विभाजित परिणामों की भविष्यवाणी करने के लिए किया जा सकता है। दूसरे शब्दों में, यह केवल यह अनुमान लगा सकता है कि कोई घटना घटित होगी या नहीं, यह नहीं कि इसके घटित होने की कितनी संभावना है।

लॉजिस्टिक रिग्रेशन की एक और सीमा यह है कि यह मानता है कि सभी चर एक दूसरे से स्वतंत्र हैं।

वास्तविक दुनिया के डेटा सेट में हमेशा ऐसा नहीं होता है। अपनी सीमाओं के बावजूद, लॉजिस्टिक रिग्रेशन एक व्यापक रूप से उपयोग की जाने वाली सांख्यिकीय तकनीक है, और यह घटनाओं की भविष्यवाणी करने में बहुत सहायक हो सकती है।

3. वेक्टर मशीनों का समर्थन करें

एक प्रकार का लीनियर मशीन लर्निंग एल्गोरिदम है। इनका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य हाइपरप्लेन ढूंढना है जो दो वर्गों के बीच अंतर को अधिकतम करता है।

सपोर्ट वेक्टर मशीन (एसवीएम) एक प्रकार का पर्यवेक्षित शिक्षण एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों कार्यों के लिए किया जा सकता है। अपेक्षाकृत कम डेटा के साथ सटीक परिणाम देने की क्षमता के कारण एसवीएम मशीन सीखने के कार्यों के लिए एक लोकप्रिय विकल्प हैं।

एसवीएम डेटा को उच्च-आयामी स्थान में मैप करके और फिर एक हाइपरप्लेन ढूंढकर काम करते हैं जो डेटा को कक्षाओं में सबसे अच्छे से अलग करता है। इस हाइपरप्लेन का उपयोग नए डेटा पर भविष्यवाणियां करने के लिए किया जाता है।

एसवीएम उन मामलों में भी प्रभावी हैं जहां डेटा रैखिक रूप से अलग नहीं किया जा सकता है। इन मामलों में, एसवीएम डेटा को बदलने के लिए कर्नेल ट्रिक का उपयोग कर सकते हैं ताकि यह रैखिक रूप से अलग हो सके। एसवीएम के साथ उपयोग किए जाने वाले सामान्य कर्नेल में रेडियल बेसिस फ़ंक्शन (आरबीएफ) कर्नेल और बहुपद कर्नेल शामिल हैं।

अन्य मशीन लर्निंग एल्गोरिदम की तुलना में एसवीएम के कई फायदे हैं, जिनमें शामिल हैं:

- अपेक्षाकृत कम डेटा के साथ सटीक परिणाम देने की क्षमता

- डेटा के साथ काम करने की क्षमता जो रैखिक रूप से अलग नहीं की जा सकती

- डेटा को बदलने के लिए कर्नेल का उपयोग करने की क्षमता ताकि यह रैखिक रूप से अलग हो सके

एसवीएम के कुछ नुकसान भी हैं, जिनमें शामिल हैं:

- हाइपरपैरामीटर की सावधानीपूर्वक ट्यूनिंग की आवश्यकता

- यदि डेटा पर्याप्त रूप से बड़ा नहीं है तो ओवरफिटिंग की संभावना

यह भी पढ़ें: 

4. नाइव बेयस क्लासिफायर

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। वे बायेसियन प्रमेय पर आधारित हैं और संभाव्य दृष्टिकोण का उपयोग करके भविष्यवाणियां करते हैं।

जैसा कि हमने देखा, अनुभवहीन बेयस क्लासिफायर वर्गीकरण के लिए एक बहुत ही सरल और शक्तिशाली उपकरण है। क्लासिफायरियर के पीछे मुख्य विचार वजन का एक सेट ढूंढना है जिसका उपयोग दो वर्गों के बीच अंतर करने के लिए किया जा सकता है।

ऐसा करने के लिए, हमें पहले उन विशेषताओं का एक सेट ढूंढना होगा जो दो वर्गों के बीच भेदभाव करने के लिए उपयोगी हों।

एक बार जब हमें ये सुविधाएँ मिल जाती हैं, तो हम उनका उपयोग एक क्लासिफायरियर को प्रशिक्षित करने के लिए कर सकते हैं। नैवे बेयस क्लासिफायर वर्गीकरण के लिए एक बहुत लोकप्रिय उपकरण है, और इसका उपयोग अक्सर मशीन लर्निंग अनुप्रयोगों में किया जाता है।

अनुभवहीन बेयस क्लासिफायर का मुख्य लाभ यह है कि इसे लागू करना बहुत आसान है और इसे प्रशिक्षित करना भी बहुत तेज़ है। क्लासिफायर शोर और आउटलेर्स के लिए भी बहुत मजबूत है। हालाँकि, क्लासिफायरियर के कुछ नुकसान हैं।

सबसे पहले, क्लासिफायरियर सुविधाओं की स्वतंत्रता के बारे में एक मजबूत धारणा बनाता है। यह धारणा अक्सर व्यवहार में सच नहीं होती है, और इससे खराब प्रदर्शन हो सकता है। दूसरा, अनुभवहीन बेयस क्लासिफायरियर बड़े डेटासेट पर अच्छी तरह से स्केल नहीं करता है।

ऐसा इसलिए है क्योंकि क्लासिफायरियर को डेटासेट में सभी सुविधाओं के लिए संभावनाओं की गणना करनी होती है, जिसमें बहुत समय लग सकता है। अंत में, यदि प्रशिक्षण डेटा परीक्षण डेटा का प्रतिनिधि नहीं है, तो अनुभवहीन बेयस क्लासिफायरियर पक्षपाती हो सकता है।

5. निर्णय वृक्ष

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य उस निर्णय वृक्ष को ढूंढना है जो त्रुटि को कम करता है।

वर्गीकरण वृक्षों का उपयोग वर्ग लेबल (जैसे जानवर का प्रकार, कार का प्रकार) की भविष्यवाणी करने के लिए किया जाता है।

प्रतिगमन पेड़ों का उपयोग संख्यात्मक मान (जैसे मूल्य, तापमान) की भविष्यवाणी करने के लिए किया जाता है।

वर्गीकरण और प्रतिगमन पेड़ एक डेटासेट पर एक एल्गोरिदम को प्रशिक्षित करके बनाए जाते हैं। एल्गोरिदम डेटा में पैटर्न ढूंढता है और एक पेड़ बनाने के लिए उन पैटर्न का उपयोग करता है।

फिर पेड़ का उपयोग नए डेटा पर भविष्यवाणियां करने के लिए किया जाता है। उदाहरण के लिए, यदि आपके पास एक वर्गीकरण वृक्ष है जो जानवरों की विशेषताओं के आधार पर उनके प्रकार की भविष्यवाणी करता है, तो आप नए डेटा बिंदु (उदाहरण के लिए एक अज्ञात जानवर) के लिए जानवर के प्रकार की भविष्यवाणी करने के लिए पेड़ का उपयोग कर सकते हैं।

भविष्यवाणियाँ करने के लिए, एल्गोरिथ्म बस पेड़ की जड़ से पत्तियों तक के पथ का अनुसरण करता है। अंतिम भविष्यवाणी पत्तियों के बहुमत वोट (वर्गीकरण पेड़ों के लिए) या पत्तियों के मूल्यों के औसत (प्रतिगमन पेड़ों के लिए) के आधार पर की जाती है।

निर्णय वृक्ष शक्तिशाली होते हैं समस्याओं को हल करने का उपकरण, लेकिन वे परिपूर्ण नहीं हैं। निर्णय वृक्षों का एक नकारात्मक पक्ष यह है कि वे प्रशिक्षण डेटा को ओवरफिट कर सकते हैं।

इसका मतलब यह है कि पेड़ नए डेटा को अच्छी तरह से सामान्यीकृत नहीं कर सकता है, और सटीक नहीं हो सकता है। ओवरफिटिंग से बचने के लिए, अपने निर्णय वृक्ष को प्रशिक्षित करते समय एक अच्छी क्रॉस-सत्यापन रणनीति का उपयोग करना महत्वपूर्ण है।

6. बेतरतीब जंगल

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य उस जंगल को ढूंढना है जो त्रुटि को कम करता है।

रैंडम फ़ॉरेस्ट एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों कार्यों के लिए किया जाता है। यह एल्गोरिदम निर्णय पेड़ों का एक सेट बनाकर काम करता है, जिनमें से प्रत्येक को डेटा के यादृच्छिक सबसेट पर प्रशिक्षित किया जाता है।

अंतिम भविष्यवाणी सभी व्यक्तिगत निर्णय वृक्षों की भविष्यवाणियों के औसत के आधार पर की जाती है। अन्य मशीन लर्निंग एल्गोरिदम की तुलना में इस दृष्टिकोण के कई फायदे हैं, जिनमें बेहतर सटीकता और कम ओवरफिटिंग शामिल हैं।

यादृच्छिक वन वर्गीकरण और प्रतिगमन दोनों कार्यों के लिए एक शक्तिशाली उपकरण हैं। उनके पास कई विशेषताओं के साथ बड़े डेटासेट को संभालने की क्षमता है, और उनका उपयोग अन्य मशीन लर्निंग एल्गोरिदम की सटीकता में सुधार करने के लिए भी किया जा सकता है।

इसके अतिरिक्त, यादृच्छिक वनों का उपयोग और व्याख्या करना अपेक्षाकृत आसान है, जो उन्हें कई अनुप्रयोगों के लिए एक अच्छा विकल्प बनाता है।

7. ग्रेडिएंट बूस्टिंग मशीनें

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य उस मशीन को ढूंढना है जो त्रुटि को न्यूनतम करे।

ग्रेडिएंट बूस्टिंग मशीनें एक प्रकार की मशीन लर्निंग एल्गोरिदम हैं जिनका उपयोग पूर्वानुमानित मॉडल बनाने के लिए किया जा सकता है। एल्गोरिदम क्रमिक रूप से मॉडल बनाकर और फिर उन्हें जोड़कर एक अंतिम मॉडल बनाने का काम करता है।

इस दृष्टिकोण का लाभ यह है कि यह ओवरफिटिंग को कम करने में मदद कर सकता है क्योंकि प्रत्येक व्यक्तिगत मॉडल में डेटा को ओवरफिट करने की संभावना कम होती है।

मशीन लर्निंग एल्गोरिदम के संबंधित वीडियो:

8. तंत्रिका नेटवर्क

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य तंत्रिका नेटवर्क ढूंढना है जो त्रुटि को कम करता है।

न्यूरल नेटवर्क एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग डेटा में जटिल पैटर्न को मॉडल करने के लिए किया जाता है। तंत्रिका नेटवर्क अन्य मशीन लर्निंग एल्गोरिदम के समान हैं, लेकिन वे बड़ी संख्या में इंटरकनेक्टेड प्रोसेसिंग नोड्स या न्यूरॉन्स से बने होते हैं, जो इनपुट डेटा के पैटर्न को पहचानना सीख सकते हैं।

तंत्रिका नेटवर्क का उपयोग आमतौर पर छवि पहचान, वाक् पहचान और मशीन अनुवाद जैसे कार्यों के लिए किया जाता है।

न्यूरल नेटवर्क मशीन लर्निंग के लिए एक शक्तिशाली उपकरण हैं, लेकिन वे जटिल एल्गोरिदम भी हैं जिन्हें समझना और ट्यून करना मुश्किल हो सकता है। इस पोस्ट में, हम तंत्रिका नेटवर्क की कुछ बुनियादी बातों से परिचित कराएंगे और वे कैसे काम करते हैं।

9. K-मतलब क्लस्टरिंग

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य उन k-साधनों को ढूंढना है जो त्रुटि को कम करते हैं।

के-मीन्स क्लस्टरिंग एक प्रकार की अनपर्यवेक्षित शिक्षा है, जिसका उपयोग तब किया जाता है जब आपके पास अनलेबल डेटा होता है (यानी, परिभाषित श्रेणियों या समूहों के बिना डेटा)। इस एल्गोरिदम का लक्ष्य डेटा में क्लस्टर्स को ढूंढना है, जिसमें वेरिएबल K द्वारा दर्शाए गए क्लस्टर्स की संख्या शामिल है।

एल्गोरिदम प्रत्येक डेटा बिंदु को एक क्लस्टर को निर्दिष्ट करके और फिर प्रत्येक क्लस्टर के सेंट्रोइड को पुनरावृत्त रूप से ढूंढकर काम करता है। यह प्रक्रिया तब तक दोहराई जाती है जब तक कि क्लस्टर में बदलाव न हो जाए।

10. आयामी कमी

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य कम किए गए आयाम को ढूंढना है जो त्रुटि को कम करता है।

आयामीता में कमी करने के कई तरीके हैं। सबसे आम तरीका प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) है।

पीसीए एक रैखिक परिवर्तन है जो डेटा को एक नई समन्वय प्रणाली में बदल देता है जैसे कि डेटा के कुछ प्रक्षेपण द्वारा सबसे बड़ा विचरण पहले अक्ष पर होता है, दूसरा सबसे बड़ा विचरण दूसरे अक्ष पर होता है, और इसी तरह।

आयामीता में कमी के लिए अन्य लोकप्रिय तरीकों में रैखिक विभेदक विश्लेषण (एलडीए), सैमॉन मैपिंग, गैर-नकारात्मक मैट्रिक्स फ़ैक्टराइज़ेशन (एनएमएफ), बहुआयामी स्केलिंग (एमडीएस), आइसोमैप, स्थानीय रूप से रैखिक एम्बेडिंग (एलएलई), और ऑटोएन्कोडर्स शामिल हैं।

आयामीता में कमी का उपयोग अक्सर मशीन लर्निंग एल्गोरिदम के लिए प्री-प्रोसेसिंग चरण के रूप में किया जाता है। यह डेटा में शोर को कम करके और पैटर्न का पता लगाना आसान बनाकर इन एल्गोरिदम के प्रदर्शन को बेहतर बनाने में मदद कर सकता है।

मशीन लर्निंग एल्गोरिदम के संबंधित वीडियो:

11. सुदृढीकरण सीखना

एक प्रकार का मशीन लर्निंग एल्गोरिदम है जिसका उपयोग वर्गीकरण और प्रतिगमन दोनों के लिए किया जाता है। लक्ष्य उस सुदृढीकरण को ढूंढना है जो त्रुटि को कम करता है।

सुदृढीकरण सीखना एक प्रकार की मशीन लर्निंग है जो एजेंटों को परीक्षण और त्रुटि द्वारा अपने वातावरण से सीखने में सक्षम बनाती है। एजेंटों को कुछ कार्यों को पूरा करने के लिए पुरस्कार मिलते हैं, जो उन्हें यह सीखने के लिए प्रोत्साहित करता है कि उन कार्यों को कुशलतापूर्वक कैसे पूरा किया जाए।

सुदृढीकरण सीखने को विभिन्न समस्या क्षेत्रों में लागू किया गया है, जिनमें शामिल हैं रोबोटिक्स, खेल खेलना, और नियंत्रण प्रणाली।

त्वरित सम्पक:

निष्कर्ष: मशीन लर्निंग एल्गोरिदम 2024

अंत में, यंत्र अधिगम एल्गोरिदम एक आकर्षक अध्ययन है और इसमें कई व्यावहारिक अनुप्रयोग हैं। हालाँकि इस लेख ने केवल इन जटिल एल्गोरिदम की सतह को खंगाला है, हम आशा करते हैं कि अब आपको इसकी बुनियादी समझ हो गई होगी कि वे कैसे काम करते हैं।

यदि आप मशीन लर्निंग या कंप्यूटर विज्ञान के किसी अन्य क्षेत्र के बारे में अधिक जानना चाहते हैं, तो हमसे संपर्क करने में संकोच न करें।

उभरते डेटा वैज्ञानिकों को इस रोमांचक क्षेत्र के बारे में और अधिक जानने में मदद करने में हमें हमेशा खुशी होती है!

एंडी थॉम्पसन
यह लेखक BloggersIdeas.com पर सत्यापित है

एंडी थॉम्पसन लंबे समय से एक स्वतंत्र लेखक रहे हैं। वह एक वरिष्ठ एसईओ और सामग्री विपणन विश्लेषक हैं Digiexe, एक डिजिटल मार्केटिंग एजेंसी जो सामग्री और डेटा-संचालित एसईओ में विशेषज्ञता रखती है। उनके पास डिजिटल मार्केटिंग और एफिलिएट मार्केटिंग में भी सात साल से अधिक का अनुभव है। वह ई-कॉमर्स, स्टार्टअप, सोशल मीडिया मार्केटिंग, ऑनलाइन पैसा कमाने, संबद्ध मार्केटिंग से लेकर मानव पूंजी प्रबंधन और कई अन्य क्षेत्रों में अपने ज्ञान को साझा करना पसंद करती है। वह कई आधिकारिक एसईओ, मेक मनी ऑनलाइन और डिजिटल मार्केटिंग ब्लॉग जैसे के लिए लिखती रही हैं इमेजस्टेशन.

संबद्ध प्रकटीकरण: पूर्ण पारदर्शिता में - हमारी वेबसाइट पर कुछ लिंक सहबद्ध लिंक हैं, यदि आप उनका उपयोग खरीदारी करने के लिए करते हैं तो हम आपके लिए बिना किसी अतिरिक्त लागत के एक कमीशन अर्जित करेंगे (कोई भी नहीं!)

एक टिप्पणी छोड़ दो