उंगलियों पर गणित: कम से कम वर्गों के तरीके। कम से कम वर्ग की विधि कहाँ लागू होती है?

विधि सार कम से कम वर्गोंहै एक प्रवृत्ति मॉडल के मापदंडों को खोजने में जो समय या स्थान में कुछ यादृच्छिक घटना के विकास की प्रवृत्ति का सबसे अच्छा वर्णन करता है (एक प्रवृत्ति एक ऐसी रेखा है जो इस विकास की प्रवृत्ति को दर्शाती है)। कम से कम वर्ग विधि (ओएलएस) का कार्य न केवल कुछ प्रवृत्ति मॉडल ढूंढना है, बल्कि सबसे अच्छा या इष्टतम मॉडल ढूंढना है। यह मॉडल इष्टतम होगा यदि देखे गए वास्तविक मूल्यों और संबंधित परिकलित प्रवृत्ति मूल्यों के बीच चुकता विचलन का योग न्यूनतम (सबसे छोटा) है:

प्रेक्षित वास्तविक मान के बीच मानक विचलन कहाँ है

और संगत परिकलित प्रवृत्ति मूल्य,

अध्ययन के तहत घटना का वास्तविक (देखा गया) मूल्य,

ट्रेंड मॉडल का अनुमानित मूल्य,

अध्ययन के तहत घटना की टिप्पणियों की संख्या।

MNC का उपयोग शायद ही कभी अपने आप होता है। एक नियम के रूप में, अक्सर इसका उपयोग केवल सहसंबंध अध्ययन में एक आवश्यक तकनीक के रूप में किया जाता है। यह याद रखना चाहिए कि बहुराष्ट्रीय कंपनी का सूचना आधार केवल एक विश्वसनीय हो सकता है सांख्यिकीय श्रृंखला, और प्रेक्षणों की संख्या 4 से कम नहीं होनी चाहिए, अन्यथा, एलएसएम चौरसाई प्रक्रियाएं अपना सामान्य ज्ञान खो सकती हैं।

OLS टूलकिट को निम्न कार्यविधियों में घटाया गया है:

पहली प्रक्रिया। यह पता चलता है कि क्या चयनित कारक-तर्क में परिवर्तन होने पर परिणामी विशेषता को बदलने की कोई प्रवृत्ति है, या दूसरे शब्दों में, क्या "के बीच कोई संबंध है" पर " तथा " एक्स ».

दूसरी प्रक्रिया। यह निर्धारित किया जाता है कि कौन सी रेखा (प्रक्षेपवक्र) इस प्रवृत्ति का वर्णन या वर्णन करने में सबसे अच्छी है।

तीसरी प्रक्रिया।

उदाहरण. मान लीजिए हमारे पास अध्ययनाधीन खेत के लिए सूरजमुखी की औसत उपज के बारे में जानकारी है (सारणी 9.1)।

तालिका 9.1

अवलोकन संख्या

उत्पादकता, सी/हे

चूंकि हमारे देश में सूरजमुखी के उत्पादन में प्रौद्योगिकी का स्तर पिछले 10 वर्षों में बहुत अधिक नहीं बदला है, इसका मतलब है कि, सबसे अधिक संभावना है, विश्लेषण की अवधि में उपज में उतार-चढ़ाव मौसम और जलवायु परिस्थितियों में उतार-चढ़ाव पर बहुत अधिक निर्भर करता है। क्या यह सच है?

पहली बहुराष्ट्रीय कंपनी प्रक्रिया। विश्लेषण किए गए 10 वर्षों में मौसम और जलवायु परिस्थितियों में परिवर्तन के आधार पर सूरजमुखी की उपज में परिवर्तन की प्रवृत्ति के अस्तित्व के बारे में परिकल्पना का परीक्षण किया जा रहा है।

पर यह उदाहरणप्रति " आप » सूरजमुखी की उपज लेने की सलाह दी जाती है, और « एक्स » विश्लेषण की गई अवधि में देखे गए वर्ष की संख्या है। के बीच किसी भी संबंध के अस्तित्व के बारे में परिकल्पना का परीक्षण करना " एक्स " तथा " आप » दो तरीकों से किया जा सकता है: मैन्युअल रूप से और उपयोग करके कंप्यूटर प्रोग्राम. बेशक, कंप्यूटर प्रौद्योगिकी की उपलब्धता के साथ, यह समस्या अपने आप हल हो जाती है। लेकिन, ओएलएस टूलकिट को बेहतर ढंग से समझने के लिए, "के बीच संबंध के अस्तित्व के बारे में परिकल्पना का परीक्षण करना उचित है" एक्स " तथा " आप » मैन्युअल रूप से, जब केवल एक पेन और एक साधारण कैलकुलेटर हाथ में हों। ऐसे मामलों में, एक प्रवृत्ति के अस्तित्व की परिकल्पना को विश्लेषण की गई समय श्रृंखला की ग्राफिक छवि के स्थान से दृष्टिगत रूप से सर्वोत्तम रूप से जांचा जाता है - सहसंबंध क्षेत्र:

हमारे उदाहरण में सहसंबंध क्षेत्र धीरे-धीरे बढ़ती हुई रेखा के आसपास स्थित है। यह अपने आप में सूरजमुखी की उपज में परिवर्तन में एक निश्चित प्रवृत्ति के अस्तित्व को इंगित करता है। किसी भी प्रवृत्ति की उपस्थिति के बारे में केवल तभी बोलना असंभव है जब सहसंबंध क्षेत्र एक वृत्त, एक वृत्त, एक कड़ाई से लंबवत या कड़ाई से क्षैतिज बादल जैसा दिखता है, या इसमें बेतरतीब ढंग से बिखरे हुए बिंदु होते हैं। अन्य सभी मामलों में, "के बीच संबंध के अस्तित्व की परिकल्पना की पुष्टि करना आवश्यक है" एक्स " तथा " आप और अनुसंधान जारी रखें।

दूसरी बहुराष्ट्रीय कंपनी प्रक्रिया। यह निर्धारित किया जाता है कि विश्लेषण की गई अवधि के लिए कौन सी रेखा (प्रक्षेपवक्र) सूरजमुखी की उपज में परिवर्तन की प्रवृत्ति का वर्णन या विशेषता बताने में सक्षम है।

कंप्यूटर प्रौद्योगिकी की उपलब्धता के साथ, इष्टतम प्रवृत्ति का चयन स्वचालित रूप से होता है। "मैनुअल" प्रसंस्करण के साथ, इष्टतम फ़ंक्शन का चुनाव, एक नियम के रूप में, दृश्य तरीके से - सहसंबंध क्षेत्र के स्थान से किया जाता है। यही है, चार्ट के प्रकार के अनुसार, रेखा के समीकरण का चयन किया जाता है, जो अनुभवजन्य प्रवृत्ति (वास्तविक प्रक्षेपवक्र के लिए) के लिए सबसे उपयुक्त है।

जैसा कि आप जानते हैं, प्रकृति में कार्यात्मक निर्भरता की एक विशाल विविधता है, इसलिए उनमें से एक छोटे से हिस्से का भी नेत्रहीन विश्लेषण करना बेहद मुश्किल है। सौभाग्य से, वास्तविक आर्थिक व्यवहार में, अधिकांश संबंधों को या तो एक परवलय, या एक अतिपरवलय, या एक सीधी रेखा द्वारा सटीक रूप से वर्णित किया जा सकता है। इस संबंध में, सर्वोत्तम फ़ंक्शन का चयन करने के लिए "मैनुअल" विकल्प के साथ, आप स्वयं को केवल इन तीन मॉडलों तक सीमित कर सकते हैं।

अतिपरवलय:

दूसरे क्रम का परवलय: :

यह देखना आसान है कि हमारे उदाहरण में, विश्लेषण किए गए 10 वर्षों में सूरजमुखी की उपज में बदलाव की प्रवृत्ति एक सीधी रेखा द्वारा सबसे अच्छी विशेषता है, इसलिए प्रतिगमन समीकरण एक सीधी रेखा समीकरण होगा।

तीसरी प्रक्रिया। इस रेखा की विशेषता वाले प्रतिगमन समीकरण के मापदंडों की गणना की जाती है, या दूसरे शब्दों में, एक विश्लेषणात्मक सूत्र निर्धारित किया जाता है जो वर्णन करता है सबसे अच्छा मॉडलरुझान।

प्रतिगमन समीकरण के मापदंडों के मूल्यों को ढूँढना, हमारे मामले में, पैरामीटर और , एलएसएम का मूल है। यह प्रोसेससामान्य समीकरणों की एक प्रणाली को हल करने के लिए कम कर देता है।

(9.2)

गॉस विधि द्वारा समीकरणों की यह प्रणाली काफी आसानी से हल हो जाती है। याद रखें कि समाधान के परिणामस्वरूप, हमारे उदाहरण में, मापदंडों के मूल्य और पाए जाते हैं। इस प्रकार, पाया गया प्रतिगमन समीकरण का निम्न रूप होगा:

कम से कम वर्ग विधि

न्यूनतम वर्ग विधि ( एमएनके, ओएलएस, साधारण कम से कम वर्ग) - नमूना डेटा से प्रतिगमन मॉडल के अज्ञात मापदंडों का अनुमान लगाने के लिए प्रतिगमन विश्लेषण के बुनियादी तरीकों में से एक। विधि प्रतिगमन अवशेषों के वर्गों के योग को कम करने पर आधारित है।

यह ध्यान दिया जाना चाहिए कि कम से कम वर्ग विधि को किसी भी क्षेत्र में किसी समस्या को हल करने के लिए एक विधि कहा जा सकता है, यदि समाधान अज्ञात चर के कुछ कार्यों के वर्गों के योग को कम करने के लिए एक निश्चित मानदंड को पूरा करता है या पूरा करता है। इसलिए, कम से कम वर्ग विधि का उपयोग अन्य (सरल) कार्यों द्वारा दिए गए फ़ंक्शन के अनुमानित प्रतिनिधित्व (सन्निकटन) के लिए भी किया जा सकता है, जब समीकरणों या प्रतिबंधों को संतुष्ट करने वाली मात्राओं का एक सेट ढूंढा जाता है, जिसकी संख्या इन मात्राओं की संख्या से अधिक होती है , आदि।

MNC . का सार

(व्याख्या) चर के बीच संभाव्यता (प्रतिगमन) निर्भरता के कुछ (पैरामीट्रिक) मॉडल दें आपऔर कई कारक (व्याख्यात्मक चर) एक्स

अज्ञात मॉडल मापदंडों का वेक्टर कहां है

- रैंडम मॉडल त्रुटि।

बता दें कि संकेतित चरों के मूल्यों का नमूना अवलोकन भी होना चाहिए। आज्ञा देना प्रेक्षण संख्या () हो। फिर -वें अवलोकन में चरों के मान हैं। फिर, पैरामीटर b के दिए गए मानों के लिए, व्याख्या किए गए चर y के सैद्धांतिक (मॉडल) मानों की गणना करना संभव है:

अवशिष्टों का मान पैरामीटर b के मानों पर निर्भर करता है।

एलएसएम (साधारण, शास्त्रीय) का सार ऐसे पैरामीटर बी को ढूंढना है जिसके लिए अवशिष्ट के वर्गों का योग (इंग्लैंड। वर्गों का अवशिष्ट योग) न्यूनतम होगा:

सामान्य स्थिति में, इस समस्या को अनुकूलन (न्यूनतमीकरण) के संख्यात्मक तरीकों से हल किया जा सकता है। इस मामले में, कोई बोलता है अरेखीय कम से कम वर्ग(एनएलएस या एनएलएलएस - अंग्रेजी। गैर रेखीय कम से कम वर्ग) कई मामलों में, एक विश्लेषणात्मक समाधान प्राप्त किया जा सकता है। न्यूनीकरण समस्या को हल करने के लिए, फ़ंक्शन के स्थिर बिंदुओं को अज्ञात पैरामीटर बी के संबंध में अंतर करके, डेरिवेटिव को शून्य के बराबर करना, और समीकरणों की परिणामी प्रणाली को हल करना आवश्यक है:

यदि मॉडल की यादृच्छिक त्रुटियों को सामान्य रूप से वितरित किया जाता है, समान भिन्नता होती है, और एक दूसरे के साथ सहसंबद्ध नहीं होते हैं, तो कम से कम वर्ग पैरामीटर अनुमान अधिकतम संभावना विधि (एमएलएम) अनुमानों के समान होते हैं।

रैखिक मॉडल के मामले में एलएसएम

प्रतिगमन निर्भरता को रैखिक होने दें:

होने देना आप- समझाया चर के अवलोकन के कॉलम वेक्टर, और - कारकों के अवलोकन के मैट्रिक्स (मैट्रिक्स की पंक्तियां - किसी दिए गए अवलोकन में कारक मानों के वैक्टर, कॉलम द्वारा - सभी अवलोकनों में किसी दिए गए कारक के मूल्यों के वेक्टर) . रैखिक मॉडल के मैट्रिक्स प्रतिनिधित्व का रूप है:

फिर समझाया गया चर के अनुमानों का वेक्टर और प्रतिगमन अवशिष्ट के वेक्टर के बराबर होगा

तदनुसार, प्रतिगमन अवशेषों के वर्गों का योग बराबर होगा

पैरामीटर वेक्टर के संबंध में इस फ़ंक्शन को अलग करना और व्युत्पन्न को शून्य के बराबर करना, हम समीकरणों की एक प्रणाली प्राप्त करते हैं (मैट्रिक्स रूप में):

.

समीकरणों की इस प्रणाली का समाधान रैखिक मॉडल के लिए कम से कम वर्ग अनुमानों के लिए सामान्य सूत्र देता है:

विश्लेषणात्मक उद्देश्यों के लिए, इस सूत्र का अंतिम प्रतिनिधित्व उपयोगी साबित होता है। यदि प्रतिगमन मॉडल में डेटा केंद्रित, तो इस निरूपण में पहले मैट्रिक्स में कारकों के नमूना सहप्रसरण मैट्रिक्स का अर्थ है, और दूसरा एक आश्रित चर वाले कारकों के सहप्रसरणों का वेक्टर है। यदि, इसके अतिरिक्त, डेटा भी है सामान्यीकृत SKO पर (अर्थात, अंततः मानकीकृत), तो पहले मैट्रिक्स में कारकों के नमूना सहसंबंध मैट्रिक्स का अर्थ है, दूसरा वेक्टर - आश्रित चर के साथ कारकों के नमूना सहसंबंधों का वेक्टर।

मॉडल के लिए एलएलएस अनुमानों की एक महत्वपूर्ण संपत्ति स्थिरांक के साथ- निर्मित प्रतिगमन की रेखा नमूना डेटा के गुरुत्वाकर्षण के केंद्र से होकर गुजरती है, अर्थात समानता पूरी होती है:

विशेष रूप से, चरम मामले में, जब एकमात्र प्रतिगामी स्थिर होता है, तो हम पाते हैं कि एकल पैरामीटर (स्थिर स्वयं) का ओएलएस अनुमान चर के औसत मूल्य के बराबर है। अर्थात्, अंकगणित माध्य, इसके लिए जाना जाता है अच्छे गुणबड़ी संख्या के नियमों से, एक न्यूनतम वर्ग अनुमान भी है - यह इससे वर्ग विचलन के न्यूनतम योग के मानदंड को पूरा करता है।

उदाहरण: सरल (जोड़ीवार) प्रतिगमन

युग्मित रैखिक प्रतिगमन के मामले में, गणना सूत्र सरल होते हैं (आप मैट्रिक्स बीजगणित के बिना कर सकते हैं):

ओएलएस अनुमानों के गुण

सबसे पहले, हम ध्यान दें कि रैखिक मॉडल के लिए, कम से कम वर्ग अनुमान रैखिक अनुमान हैं, जैसा कि उपरोक्त सूत्र से निम्नानुसार है। निष्पक्ष ओएलएस अनुमानों के लिए, प्रतिगमन विश्लेषण की सबसे महत्वपूर्ण शर्त को पूरा करना आवश्यक और पर्याप्त है: कारकों पर सशर्त यादृच्छिक त्रुटि की गणितीय अपेक्षा शून्य के बराबर होनी चाहिए। यह स्थिति, विशेष रूप से, संतुष्ट है अगर

  1. अपेक्षित मूल्ययादृच्छिक त्रुटियां शून्य हैं, और
  2. कारक और यादृच्छिक त्रुटियां स्वतंत्र यादृच्छिक चर हैं।

दूसरी शर्त - बहिर्जात कारकों की स्थिति - मौलिक है। यदि यह संपत्ति संतुष्ट नहीं है, तो हम मान सकते हैं कि लगभग कोई भी अनुमान बेहद असंतोषजनक होगा: वे सुसंगत भी नहीं होंगे (अर्थात, बहुत बड़ी मात्रा में डेटा भी प्राप्त करने की अनुमति नहीं देता है) गुणात्मक आकलनइस मामले में)। शास्त्रीय मामले में, एक यादृच्छिक त्रुटि के विपरीत, कारकों के नियतत्ववाद के बारे में एक मजबूत धारणा बनाई जाती है, जिसका स्वचालित रूप से मतलब है कि बहिर्जात स्थिति संतुष्ट है। सामान्य मामले में, अनुमानों की स्थिरता के लिए, नमूना आकार में अनंत तक वृद्धि के साथ कुछ गैर-एकवचन मैट्रिक्स के मैट्रिक्स के अभिसरण के साथ-साथ बहिर्जात स्थिति को पूरा करने के लिए पर्याप्त है।

निरंतरता और निष्पक्षता के अलावा, (सामान्य) कम से कम वर्गों के अनुमान भी प्रभावी होने के लिए (रैखिक निष्पक्ष अनुमानों के वर्ग में सर्वश्रेष्ठ), यादृच्छिक त्रुटि के अतिरिक्त गुणों को पूरा करना आवश्यक है:

इन मान्यताओं को यादृच्छिक त्रुटि वेक्टर के सहप्रसरण मैट्रिक्स के लिए तैयार किया जा सकता है

एक रैखिक मॉडल जो इन शर्तों को पूरा करता है, कहलाता है क्लासिक. शास्त्रीय रैखिक प्रतिगमन के लिए ओएलएस अनुमान सभी रैखिक निष्पक्ष अनुमानों के वर्ग में निष्पक्ष, सुसंगत और सबसे कुशल अनुमान हैं (अंग्रेजी साहित्य में, संक्षेप में कभी-कभी उपयोग किया जाता है नीला (सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक) सबसे अच्छा रैखिक निष्पक्ष अनुमान है; घरेलू साहित्य में, गॉस-मार्कोव प्रमेय को अधिक बार उद्धृत किया जाता है)। जैसा कि यह दिखाना आसान है, गुणांक अनुमान वेक्टर का सहप्रसरण मैट्रिक्स इसके बराबर होगा:

सामान्यीकृत कम से कम वर्ग

कम से कम वर्गों की विधि व्यापक सामान्यीकरण की अनुमति देती है। अवशेषों के वर्गों के योग को कम करने के बजाय, कोई अवशिष्ट वेक्टर के कुछ सकारात्मक निश्चित द्विघात रूप को कम कर सकता है, जहां कुछ सममित सकारात्मक निश्चित वजन मैट्रिक्स है। साधारण कम से कम वर्ग इस दृष्टिकोण का एक विशेष मामला है, जब वजन मैट्रिक्स पहचान मैट्रिक्स के समानुपाती होता है। जैसा कि सममित मैट्रिक्स (या ऑपरेटरों) के सिद्धांत से जाना जाता है, ऐसे मैट्रिक्स के लिए एक अपघटन होता है। इसलिए, निर्दिष्ट कार्यात्मक को निम्नानुसार दर्शाया जा सकता है, अर्थात, इस कार्यात्मक को कुछ रूपांतरित "अवशिष्ट" के वर्गों के योग के रूप में दर्शाया जा सकता है। इस प्रकार, हम कम से कम वर्ग विधियों के एक वर्ग को अलग कर सकते हैं - एलएस-विधियां (कम से कम वर्ग)।

यह साबित होता है (ऐटकेन का प्रमेय) कि एक सामान्यीकृत रैखिक प्रतिगमन मॉडल के लिए (जिसमें यादृच्छिक त्रुटियों के सहप्रसरण मैट्रिक्स पर कोई प्रतिबंध नहीं लगाया जाता है), सबसे प्रभावी (रैखिक निष्पक्ष अनुमानों के वर्ग में) तथाकथित के अनुमान हैं। सामान्यीकृत ओएलएस (ओएमएनके, जीएलएस - सामान्यीकृत कम वर्ग)- यादृच्छिक त्रुटियों के व्युत्क्रम सहप्रसरण मैट्रिक्स के बराबर भार मैट्रिक्स के साथ LS-विधि: .

यह दिखाया जा सकता है कि रैखिक मॉडल के मापदंडों के जीएलएस-अनुमानों के सूत्र का रूप है

इन अनुमानों का सहप्रसरण मैट्रिक्स, क्रमशः, के बराबर होगा

वास्तव में, ओएलएस का सार मूल डेटा के एक निश्चित (रैखिक) परिवर्तन (पी) और रूपांतरित डेटा के लिए सामान्य न्यूनतम वर्गों के अनुप्रयोग में निहित है। इस परिवर्तन का उद्देश्य यह है कि रूपांतरित डेटा के लिए, यादृच्छिक त्रुटियां पहले से ही शास्त्रीय मान्यताओं को संतुष्ट करती हैं।

भारित न्यूनतम वर्ग

एक विकर्ण भार मैट्रिक्स (और इसलिए यादृच्छिक त्रुटियों के सहप्रसरण मैट्रिक्स) के मामले में, हमारे पास तथाकथित भारित न्यूनतम वर्ग (WLS - भारित कम से कम वर्ग) हैं। इस मामले में, मॉडल के अवशेषों के वर्गों के भारित योग को कम से कम किया जाता है, अर्थात, प्रत्येक अवलोकन को एक "वजन" प्राप्त होता है जो इस अवलोकन में यादृच्छिक त्रुटि के विचरण के व्युत्क्रमानुपाती होता है: । वास्तव में, डेटा को प्रेक्षणों को भारित करके (यादृच्छिक त्रुटियों के कल्पित मानक विचलन के अनुपात में विभाजित करके) रूपांतरित किया जाता है, और भारित डेटा पर सामान्य न्यूनतम वर्ग लागू होते हैं।

व्यवहार में एलएसएम के प्रयोग के कुछ विशेष मामले

रैखिक सन्निकटन

उस मामले पर विचार करें, जब एक निश्चित अदिश मात्रा पर एक निश्चित अदिश मात्रा की निर्भरता का अध्ययन करने के परिणामस्वरूप (यह हो सकता है, उदाहरण के लिए, वर्तमान ताकत पर वोल्टेज की निर्भरता: , जहां एक स्थिर मूल्य है, कंडक्टर का प्रतिरोध ), इन मात्राओं को मापा गया, जिसके परिणामस्वरूप मान और उनके संगत मान। माप डेटा एक तालिका में दर्ज किया जाना चाहिए।

मेज। माप परिणाम।

मापन संख्या
1
2
3
4
5
6

सवाल इस तरह लगता है: निर्भरता का सबसे अच्छा वर्णन करने के लिए गुणांक का कौन सा मूल्य चुना जा सकता है? कम से कम वर्गों के अनुसार, यह मान ऐसा होना चाहिए कि मानों के चुकता विचलन का योग मानों से

न्यूनतम था

वर्ग विचलन के योग में एक चरम सीमा होती है - न्यूनतम, जो हमें इस सूत्र का उपयोग करने की अनुमति देती है। आइए इस सूत्र से गुणांक का मान ज्ञात करें। ऐसा करने के लिए, हम इसके बाईं ओर को इस प्रकार बदलते हैं:

अंतिम सूत्र हमें गुणांक का मान ज्ञात करने की अनुमति देता है, जो समस्या में आवश्यक था।

कहानी

पहले प्रारंभिक XIXमें। वैज्ञानिकों के पास समीकरणों की एक प्रणाली को हल करने के लिए कुछ नियम नहीं थे जिसमें अज्ञात की संख्या समीकरणों की संख्या से कम हो; उस समय तक, समीकरणों के प्रकार और कैलकुलेटर की सरलता के आधार पर, विशेष विधियों का उपयोग किया जाता था, और इसलिए एक ही अवलोकन डेटा से शुरू होने वाले विभिन्न कैलकुलेटर अलग-अलग निष्कर्ष पर आते थे। गॉस (1795) को विधि के पहले आवेदन का श्रेय दिया जाता है, और लीजेंड्रे (1805) ने स्वतंत्र रूप से इसे अपने आधुनिक नाम (fr। मेथोड डेस मोइन्ड्रेस क्वारेस ) . लैपलेस ने विधि को संभाव्यता के सिद्धांत से जोड़ा, और अमेरिकी गणितज्ञ एड्रेन (1808) ने इसके संभाव्य अनुप्रयोगों पर विचार किया। Encke, Bessel, Hansen और अन्य द्वारा आगे के शोध द्वारा विधि व्यापक और बेहतर है।

बहुराष्ट्रीय कंपनियों का वैकल्पिक उपयोग

कम से कम वर्ग विधि के विचार का उपयोग अन्य मामलों में भी किया जा सकता है जो सीधे प्रतिगमन विश्लेषण से संबंधित नहीं हैं। तथ्य यह है कि वर्गों का योग वैक्टर के लिए सबसे आम निकटता उपायों में से एक है (परिमित-आयामी रिक्त स्थान में यूक्लिडियन मीट्रिक)।

अनुप्रयोगों में से एक सिस्टम का "समाधान" है रेखीय समीकरण, जिसमें समीकरणों की संख्या चर की संख्या से अधिक है

जहां मैट्रिक्स वर्गाकार नहीं, बल्कि आयताकार है।

समीकरणों की ऐसी प्रणाली, सामान्य स्थिति में, कोई हल नहीं है (यदि रैंक वास्तव में चर की संख्या से अधिक है)। इसलिए, इस प्रणाली को केवल ऐसे वेक्टर को चुनने के अर्थ में "हल" किया जा सकता है ताकि वैक्टर और के बीच "दूरी" को कम किया जा सके। ऐसा करने के लिए, आप सिस्टम के समीकरणों के बाएँ और दाएँ भागों के वर्ग अंतरों के योग को कम करने के लिए मानदंड लागू कर सकते हैं, अर्थात। यह दिखाना आसान है कि इस न्यूनीकरण समस्या का समाधान समीकरणों की निम्नलिखित प्रणाली के समाधान की ओर ले जाता है

जो में सबसे व्यापक आवेदन पाता है विभिन्न क्षेत्रविज्ञान और अभ्यास। यह भौतिकी, रसायन विज्ञान, जीव विज्ञान, अर्थशास्त्र, समाजशास्त्र, मनोविज्ञान आदि हो सकता है। भाग्य की इच्छा से, मुझे अक्सर अर्थव्यवस्था से निपटना पड़ता है, और इसलिए आज मैं आपके लिए एक अद्भुत देश के टिकट की व्यवस्था करूंगा जिसे कहा जाता है अर्थमिति=) ... आप ऐसा कैसे नहीं चाहते?! यह वहां बहुत अच्छा है - आपको बस फैसला करना है! ...लेकिन आप जो निश्चित रूप से चाहते हैं वह यह है कि समस्याओं को हल करना सीखना है कम से कम वर्गों. और विशेष रूप से मेहनती पाठक उन्हें न केवल सटीक रूप से हल करना सीखेंगे, बल्कि बहुत तेज़ ;-) लेकिन पहले समस्या का सामान्य विवरण+ संबंधित उदाहरण:

कुछ विषय क्षेत्र में संकेतकों का अध्ययन करने दें जिनकी मात्रात्मक अभिव्यक्ति है। साथ ही, यह मानने का हर कारण है कि संकेतक संकेतक पर निर्भर करता है। यह धारणा एक वैज्ञानिक परिकल्पना और प्राथमिक पर आधारित दोनों हो सकती है व्यावहारिक बुद्धि. आइए विज्ञान को एक तरफ छोड़ दें, और अधिक स्वादिष्ट क्षेत्रों का पता लगाएं - अर्थात्, किराना स्टोर। द्वारा निरूपित करें:

- किराने की दुकान का खुदरा स्थान, वर्गमीटर,
- किराने की दुकान का वार्षिक कारोबार, मिलियन रूबल।

यह बिल्कुल स्पष्ट है कि स्टोर का क्षेत्रफल जितना बड़ा होगा, ज्यादातर मामलों में उसका कारोबार उतना ही अधिक होगा।

मान लीजिए कि एक डफ के साथ अवलोकन / प्रयोग / गणना / नृत्य करने के बाद, हमारे पास हमारे निपटान में संख्यात्मक डेटा है:

किराने की दुकानों के साथ, मुझे लगता है कि सब कुछ स्पष्ट है: - यह पहली दुकान का क्षेत्र है, - इसका वार्षिक कारोबार, - दूसरी दुकान का क्षेत्र, - इसका वार्षिक कारोबार, आदि। वैसे, वर्गीकृत सामग्रियों तक पहुंच होना बिल्कुल भी आवश्यक नहीं है - काफी सटीक अनुमानटर्नओवर के माध्यम से प्राप्त किया जा सकता है गणितीय सांख्यिकी. हालांकि, विचलित न हों, वाणिज्यिक जासूसी का कोर्स पहले ही भुगतान किया जा चुका है =)

सारणीबद्ध डेटा को बिंदुओं के रूप में भी लिखा जा सकता है और हमारे लिए सामान्य तरीके से दर्शाया जा सकता है। कार्तीय प्रणाली .

हम जवाब देंगे महत्वपूर्ण सवाल: गुणात्मक अध्ययन के लिए कितने अंक चाहिए?

जितना बड़ा उतना अच्छा। न्यूनतम स्वीकार्य सेट में 5-6 अंक होते हैं। इसके अलावा, डेटा की एक छोटी मात्रा के साथ, "असामान्य" परिणामों को नमूने में शामिल नहीं किया जाना चाहिए। इसलिए, उदाहरण के लिए, एक छोटा संभ्रांत स्टोर "उनके सहयोगियों" से अधिक परिमाण के आदेशों की मदद कर सकता है, जिससे सामान्य पैटर्न को खोजने की आवश्यकता होती है!

यदि यह काफी सरल है, तो हमें एक फ़ंक्शन चुनना होगा, अनुसूचीजो जितना संभव हो उतना करीब से गुजरता है . इस तरह के एक समारोह कहा जाता है अनुमान करने वाले (सन्निकटन - सन्निकटन)या सैद्धांतिक कार्य . सामान्यतया, यहाँ तुरंत एक स्पष्ट "दिखावा" दिखाई देता है - उच्च डिग्री का एक बहुपद, जिसका ग्राफ सभी बिंदुओं से होकर गुजरता है। लेकिन यह विकल्प जटिल है, और अक्सर बस गलत है। (क्योंकि चार्ट हर समय "हवा" देगा और मुख्य प्रवृत्ति को खराब रूप से प्रतिबिंबित करेगा).

इस प्रकार, वांछित कार्य पर्याप्त रूप से सरल होना चाहिए और साथ ही साथ निर्भरता को पर्याप्त रूप से प्रतिबिंबित करना चाहिए। जैसा कि आप अनुमान लगा सकते हैं, ऐसे कार्यों को खोजने के तरीकों में से एक को कहा जाता है कम से कम वर्गों. सबसे पहले, आइए इसके सार का विश्लेषण करें सामान्य दृष्टि से. कुछ फ़ंक्शन को प्रयोगात्मक डेटा का अनुमान लगाने दें:


इस सन्निकटन की सटीकता का मूल्यांकन कैसे करें? आइए हम प्रयोगात्मक और कार्यात्मक मूल्यों के बीच अंतर (विचलन) की गणना करें (हम ड्राइंग का अध्ययन करते हैं). पहला विचार जो दिमाग में आता है वह यह है कि यह अनुमान लगाया जाए कि राशि कितनी बड़ी है, लेकिन समस्या यह है कि मतभेद नकारात्मक हो सकते हैं। (उदाहरण के लिए, ) और इस तरह के योग के परिणामस्वरूप विचलन एक दूसरे को रद्द कर देंगे। इसलिए, सन्निकटन की सटीकता के अनुमान के रूप में, यह खुद को योग लेने का सुझाव देता है मॉड्यूलविचलन:

या मुड़े हुए रूप में: (अचानक, कौन नहीं जानता: योग आइकन है, और एक सहायक चर है- "काउंटर", जो 1 से मान लेता है).

विभिन्न कार्यों के साथ प्रयोगात्मक बिंदुओं का अनुमान लगाते हुए, हम प्राप्त करेंगे विभिन्न अर्थ, और जाहिर है, जहां यह राशि कम है, वह फ़ंक्शन अधिक सटीक है।

ऐसी एक विधि मौजूद है और कहा जाता है कम से कम मापांक विधि. हालाँकि, व्यवहार में यह बहुत अधिक व्यापक हो गया है। कम से कम वर्ग विधि, जिसमें संभावित नकारात्मक मूल्यों को मापांक द्वारा समाप्त नहीं किया जाता है, लेकिन विचलन को चुकता करके:

, जिसके बाद प्रयासों को ऐसे फ़ंक्शन के चयन के लिए निर्देशित किया जाता है कि वर्ग विचलन का योग जितना संभव हो उतना छोटा था। दरअसल, इसलिए विधि का नाम।

और अब हम दूसरे के पास वापस आ गए हैं महत्वपूर्ण बिंदु: जैसा कि ऊपर उल्लेख किया गया है, चयनित फ़ंक्शन काफी सरल होना चाहिए - लेकिन ऐसे कई कार्य भी हैं: रैखिक , अतिपरवलिक, घातीय, लघुगणक, द्विघात आदि। और, ज़ाहिर है, यहाँ मैं तुरंत "गतिविधि के क्षेत्र को कम करना" चाहूंगा। अनुसंधान के लिए किस वर्ग के कार्यों का चयन करना है? आदिम लेकिन प्रभावी तकनीक:

- अंक आकर्षित करने का सबसे आसान तरीका ड्राइंग पर और उनके स्थान का विश्लेषण करें। यदि वे एक सीधी रेखा में होते हैं, तो आपको देखना चाहिए सीधी रेखा समीकरण इष्टतम मूल्यों के साथ और . दूसरे शब्दों में, कार्य ऐसे गुणांकों को खोजना है - ताकि वर्ग विचलनों का योग सबसे छोटा हो।

यदि बिंदु स्थित हैं, उदाहरण के लिए, साथ में अतिशयोक्ति, तो यह स्पष्ट है कि रैखिक फलन खराब सन्निकटन देगा। इस मामले में, हम हाइपरबोला समीकरण के लिए सबसे "अनुकूल" गुणांक की तलाश कर रहे हैं - देने वाले न्यूनतम राशिवर्गों .

अब ध्यान दें कि दोनों ही मामलों में हम बात कर रहे हैं दो चर के कार्य, जिनके तर्क हैं खोज निर्भरता विकल्प:

और संक्षेप में, हमें एक मानक समस्या को हल करने की आवश्यकता है - खोजने के लिए दो चर के एक समारोह का न्यूनतम.

हमारे उदाहरण को याद करें: मान लीजिए कि "दुकान" बिंदु एक सीधी रेखा में स्थित हैं और उपस्थिति पर विश्वास करने का हर कारण है रैखिक निर्भरताव्यापार क्षेत्र से कारोबार। आइए ऐसे गुणांक "ए" और "बी" खोजें ताकि वर्ग विचलन का योग हो सबसे छोटा था। सब कुछ हमेशा की तरह - पहले 1 क्रम के आंशिक व्युत्पन्न. के अनुसार रैखिकता नियमआप योग आइकन के ठीक नीचे अंतर कर सकते हैं:

यदि आप इस जानकारी का उपयोग निबंध या टर्म पेपर के लिए करना चाहते हैं, तो मैं स्रोतों की सूची में लिंक के लिए बहुत आभारी रहूंगा, आपको कहीं भी ऐसी विस्तृत गणना नहीं मिलेगी:

आइए एक मानक प्रणाली बनाएं:

हम प्रत्येक समीकरण को "दो" से कम करते हैं और, इसके अलावा, "अलग" रकम:

टिप्पणी : स्वतंत्र रूप से विश्लेषण करें कि "ए" और "बी" को योग आइकन से क्यों निकाला जा सकता है। वैसे, औपचारिक रूप से यह योग के साथ किया जा सकता है

आइए सिस्टम को "लागू" रूप में फिर से लिखें:

जिसके बाद हमारी समस्या को हल करने के लिए एल्गोरिदम तैयार करना शुरू होता है:

क्या हम बिंदुओं के निर्देशांक जानते हैं? हम जानते है। रकम क्या हम ढूंढ सकते हैं? सरलता। हम सबसे सरल रचना करते हैं दो अज्ञात के साथ दो रैखिक समीकरणों की प्रणाली("ए" और "बीएच")। हम सिस्टम को हल करते हैं, उदाहरण के लिए, क्रैमर की विधि, जिसके परिणामस्वरूप एक स्थिर बिंदु होता है। चेकिंग एक चरम के लिए पर्याप्त स्थिति, हम सत्यापित कर सकते हैं कि इस बिंदु पर फ़ंक्शन ठीक पहुँचता है न्यूनतम. सत्यापन अतिरिक्त गणनाओं से जुड़ा है और इसलिए हम इसे पर्दे के पीछे छोड़ देंगे। (यदि आवश्यक हो, लापता फ्रेम देखा जा सकता है). हम अंतिम निष्कर्ष निकालते हैं:

समारोह सबसे अच्छा तरीका (कम से कम किसी अन्य रैखिक कार्य की तुलना में)प्रयोगात्मक बिंदुओं को करीब लाता है . मोटे तौर पर, इसका ग्राफ इन बिंदुओं के जितना करीब हो सके गुजरता है। परंपरा में अर्थमितिपरिणामी सन्निकटन फलन को भी कहा जाता है युग्मित रैखिक समाश्रयण समीकरण .

विचाराधीन समस्या बहुत बड़ी है व्यावहारिक मूल्य. हमारे उदाहरण के साथ स्थिति में, समीकरण आपको यह अनुमान लगाने की अनुमति देता है कि किस प्रकार का टर्नओवर ("यिग")बिक्री क्षेत्र के एक या दूसरे मूल्य के साथ स्टोर पर होगा ("एक्स" का एक या दूसरा अर्थ). हां, परिणामी पूर्वानुमान केवल एक पूर्वानुमान होगा, लेकिन कई मामलों में यह काफी सटीक साबित होगा।

मैं "वास्तविक" संख्याओं के साथ केवल एक समस्या का विश्लेषण करूंगा, क्योंकि इसमें कोई कठिनाई नहीं है - सभी गणना स्तर पर हैं स्कूल के पाठ्यक्रम 7-8 ग्रेड। 95 प्रतिशत मामलों में, आपको केवल एक रैखिक फ़ंक्शन खोजने के लिए कहा जाएगा, लेकिन लेख के अंत में मैं दिखाऊंगा कि इष्टतम हाइपरबोला, घातांक और कुछ अन्य कार्यों के लिए समीकरणों को खोजना अधिक कठिन नहीं है।

वास्तव में, यह वादा किए गए उपहारों को वितरित करने के लिए बनी हुई है - ताकि आप सीखें कि ऐसे उदाहरणों को न केवल सटीक रूप से हल करना है, बल्कि जल्दी से भी। हम मानक का ध्यानपूर्वक अध्ययन करते हैं:

एक कार्य

दो संकेतकों के बीच संबंध का अध्ययन करने के परिणामस्वरूप, संख्याओं के निम्नलिखित जोड़े प्राप्त हुए:

कम से कम वर्ग विधि का उपयोग करते हुए, उस रैखिक फ़ंक्शन को खोजें जो अनुभवजन्य का सबसे अच्छा अनुमान लगाता है (अनुभव)जानकारी। एक ऐसा चित्र बनाइए जिस पर कार्तीय आयताकार निर्देशांक प्रणाली में प्रायोगिक बिंदुओं को आलेखित करें और सन्निकट फलन का आलेख तैयार करें। . अनुभवजन्य और सैद्धांतिक मूल्यों के बीच वर्ग विचलन का योग ज्ञात कीजिए। पता करें कि क्या फ़ंक्शन बेहतर है (न्यूनतम वर्ग विधि के संदर्भ में)अनुमानित प्रयोगात्मक बिंदु।

ध्यान दें कि "x" मान प्राकृतिक मूल्य हैं, और इसका एक विशिष्ट अर्थपूर्ण अर्थ है, जिसके बारे में मैं थोड़ी देर बाद बात करूंगा; लेकिन वे, निश्चित रूप से, भिन्नात्मक हो सकते हैं। इसके अलावा, किसी विशेष कार्य की सामग्री के आधार पर, "X" और "G" दोनों मान पूर्ण या आंशिक रूप से नकारात्मक हो सकते हैं। खैर, हमें एक "फेसलेस" टास्क दिया गया है, और हम इसे शुरू करते हैं समाधान:

हम सिस्टम के समाधान के रूप में इष्टतम फ़ंक्शन के गुणांक पाते हैं:

अधिक कॉम्पैक्ट नोटेशन के प्रयोजनों के लिए, "काउंटर" चर को छोड़ा जा सकता है, क्योंकि यह पहले से ही स्पष्ट है कि योग 1 से .

सारणीबद्ध रूप में आवश्यक राशियों की गणना करना अधिक सुविधाजनक है:


गणना एक माइक्रोकैलकुलेटर पर की जा सकती है, लेकिन एक्सेल का उपयोग करना बहुत बेहतर है - दोनों तेज और त्रुटियों के बिना; एक छोटा वीडियो देखें:

इस प्रकार, हम निम्नलिखित प्राप्त करते हैं: व्यवस्था:

यहां आप दूसरे समीकरण को 3 और . से गुणा कर सकते हैं पहले समीकरण पद से दूसरे को पद द्वारा घटाएं. लेकिन यह भाग्य है - व्यवहार में, सिस्टम अक्सर उपहार में नहीं होते हैं, और ऐसे मामलों में यह बचाता है क्रैमर की विधि:
, इसलिए सिस्टम के पास एक अनूठा समाधान है।

चलो एक चेक करते हैं। मैं समझता हूं कि मैं नहीं करना चाहता, लेकिन गलतियों को क्यों छोड़ें जहां आप उन्हें बिल्कुल याद नहीं कर सकते? सिस्टम के प्रत्येक समीकरण के बाईं ओर पाए गए समाधान को प्रतिस्थापित करें:

संबंधित समीकरणों के सही हिस्से प्राप्त होते हैं, जिसका अर्थ है कि सिस्टम सही ढंग से हल हो गया है।

इस प्रकार, वांछित सन्निकटन फलन: - from सभी रैखिक कार्यप्रयोगात्मक डेटा इसके द्वारा सबसे अच्छा अनुमानित है।

भिन्न सीधा अपने क्षेत्र पर स्टोर के कारोबार की निर्भरता, मिली निर्भरता है उल्टा (सिद्धांत "अधिक - कम"), और यह तथ्य तुरंत नकारात्मक द्वारा प्रकट होता है कोणीय गुणांक. समारोह हमें सूचित करता है कि एक निश्चित संकेतक में 1 इकाई की वृद्धि के साथ, आश्रित संकेतक का मूल्य घट जाता है औसत 0.65 इकाइयों द्वारा। जैसा कि वे कहते हैं, एक प्रकार का अनाज की कीमत जितनी अधिक होगी, उतना ही कम बेचा जाएगा।

सन्निकटन फलन को आलेखित करने के लिए, हमें इसके दो मान मिलते हैं:

और ड्राइंग निष्पादित करें:


निर्मित रेखा कहलाती है प्रवृत्ति रेखा (अर्थात्, एक रेखीय प्रवृत्ति रेखा, अर्थात सामान्य स्थिति में, एक प्रवृत्ति आवश्यक रूप से एक सीधी रेखा नहीं होती है). हर कोई "प्रवृत्ति में होना" अभिव्यक्ति से परिचित है, और मुझे लगता है कि इस शब्द को अतिरिक्त टिप्पणियों की आवश्यकता नहीं है।

वर्ग विचलन के योग की गणना करें अनुभवजन्य और सैद्धांतिक मूल्यों के बीच। ज्यामितीय रूप से, यह "क्रिमसन" खंडों की लंबाई के वर्गों का योग है (जिनमें से दो इतने छोटे हैं कि आप उन्हें देख भी नहीं सकते).

आइए एक तालिका में गणनाओं को संक्षेप में प्रस्तुत करें:


उन्हें फिर से मैन्युअल रूप से किया जा सकता है, बस अगर मैं पहले बिंदु के लिए एक उदाहरण दूंगा:

लेकिन यह पहले से ज्ञात तरीके से करने के लिए और अधिक कुशल है:

आइए दोहराएं: परिणाम का अर्थ क्या है?से सभी रैखिक कार्यसमारोह घातांक सबसे छोटा है, अर्थात यह अपने परिवार में सबसे अच्छा सन्निकटन है। और यहाँ, वैसे, समस्या का अंतिम प्रश्न आकस्मिक नहीं है: क्या होगा यदि प्रस्तावित घातीय कार्य क्या प्रायोगिक बिंदुओं का अनुमान लगाना बेहतर होगा?

आइए वर्ग विचलन के संगत योग का पता लगाएं - उन्हें अलग करने के लिए, मैं उन्हें "एप्सिलॉन" अक्षर से नामित करूंगा। तकनीक बिल्कुल समान है:


और फिर से 1 बिंदु के लिए हर आग की गणना के लिए:

एक्सेल में, हम मानक फ़ंक्शन का उपयोग करते हैं ऍक्स्प (सिंटेक्स एक्सेल सहायता में पाया जा सकता है).

निष्कर्ष: , इसलिए घातांकीय फलन सीधी रेखा से भी बदतर प्रयोगात्मक बिंदुओं का अनुमान लगाता है .

लेकिन यहां यह ध्यान दिया जाना चाहिए कि "बदतर" है इसका मतलब अभी तक नहीं है, गलत क्या है। अब मैंने इस एक्सपोनेंशियल फंक्शन का एक ग्राफ बनाया - और यह पॉइंट्स के करीब भी जाता है - इतना अधिक कि एक विश्लेषणात्मक अध्ययन के बिना यह कहना मुश्किल है कि कौन सा कार्य अधिक सटीक है।

यह समाधान को पूरा करता है, और मैं तर्क के प्राकृतिक मूल्यों के प्रश्न पर लौटता हूं। विभिन्न अध्ययनों में, एक नियम के रूप में, आर्थिक या सामाजिक, महीनों, वर्षों या अन्य समान समय अंतरालों को प्राकृतिक "X" के साथ गिना जाता है। उदाहरण के लिए, ऐसी समस्या पर विचार करें।

कम से कम वर्ग विधि (ओएलएस, इंजी। साधारण कम वर्ग, ओएलएस)- हल करने के लिए प्रयुक्त गणितीय विधि विभिन्न कार्य, आवश्यक चरों से कुछ कार्यों के वर्ग विचलन के योग को न्यूनतम करने पर आधारित है। इसका उपयोग समीकरणों की अतिनिर्धारित प्रणालियों को "हल" करने के लिए किया जा सकता है (जब समीकरणों की संख्या अज्ञात की संख्या से अधिक हो जाती है), सामान्य (अतिनिर्धारित नहीं) समीकरणों के गैर-रेखीय सिस्टम के मामले में समाधान खोजने के लिए, बिंदु मानों को अनुमानित करने के लिए। एक निश्चित समारोह के। ओएलएस नमूना डेटा से प्रतिगमन मॉडल के अज्ञात मापदंडों का अनुमान लगाने के लिए प्रतिगमन विश्लेषण के बुनियादी तरीकों में से एक है।

विश्वकोश YouTube

    1 / 5

    कम से कम वर्ग विधि। विषय

    ✪ कम से कम वर्ग, पाठ 1/2। रैखिक प्रकार्य

    अर्थमिति। व्याख्यान 5. कम से कम वर्ग विधि

    Mitin I. V. - भौतिक के परिणामों को संसाधित करना। प्रयोग - कम से कम वर्ग विधि (व्याख्यान 4)

    अर्थमिति: कम से कम वर्गों की विधि का सार #2

    उपशीर्षक

कहानी

XIX सदी की शुरुआत तक। वैज्ञानिकों के पास समीकरणों की एक प्रणाली को हल करने के लिए कुछ नियम नहीं थे जिसमें अज्ञात की संख्या समीकरणों की संख्या से कम हो; उस समय तक, समीकरणों के प्रकार और कैलकुलेटर की सरलता के आधार पर, विशेष विधियों का उपयोग किया जाता था, और इसलिए एक ही अवलोकन डेटा से शुरू होने वाले विभिन्न कैलकुलेटर अलग-अलग निष्कर्ष पर आते थे। गॉस (1795) को विधि के पहले आवेदन का श्रेय दिया जाता है, और लीजेंड्रे (1805) ने स्वतंत्र रूप से इसे अपने आधुनिक नाम (fr। मेथोड डेस मोइन्ड्रेस क्वारेस) . लाप्लास ने इस विधि को प्रायिकता के सिद्धांत से जोड़ा और अमेरिकी गणितज्ञ एड्रेन (1808) ने इसके संभाव्य अनुप्रयोगों पर विचार किया। Encke, Bessel, Hansen और अन्य द्वारा आगे के शोध द्वारा विधि व्यापक और बेहतर है।

कम से कम वर्गों की विधि का सार

होने देना x (\displaystyle x)- किट n (\displaystyle n)अज्ञात चर (पैरामीटर), एफ मैं (एक्स) (\displaystyle f_(i)(x)), , एम > एन (\displaystyle एम>एन)- चर के इस सेट से कार्यों का सेट। समस्या ऐसे मूल्यों को चुनने की है x (\displaystyle x)ताकि इन कार्यों के मूल्य कुछ मूल्यों के जितना करीब हो सके y मैं (\displaystyle y_(i)). संक्षेप में, हम समीकरणों की अतिनिर्धारित प्रणाली के "समाधान" के बारे में बात कर रहे हैं f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 ,… , m (\displaystyle i=1,\ldots ,m)संकेतित अर्थ में, सिस्टम के बाएँ और दाएँ भागों की अधिकतम निकटता। एलएसएम का सार "निकटता के माप" के रूप में बाएं और दाएं भागों के वर्ग विचलन के योग को चुनना है | एफ मैं (एक्स) - वाई मैं | (\displaystyle |f_(i)(x)-y_(i)|). इस प्रकार, एलएसएम का सार निम्नानुसार व्यक्त किया जा सकता है:

∑ i e i 2 = ∑ i (y i - f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

यदि समीकरणों की प्रणाली में एक समाधान है, तो वर्गों का न्यूनतम योग शून्य के बराबर होगा और समीकरणों की प्रणाली के सटीक समाधान विश्लेषणात्मक रूप से या, उदाहरण के लिए, विभिन्न संख्यात्मक अनुकूलन विधियों द्वारा पाए जा सकते हैं। यदि सिस्टम अतिनिर्धारित है, अर्थात, स्वतंत्र रूप से, स्वतंत्र समीकरणों की संख्या अधिक मात्राअज्ञात चर, तो सिस्टम के पास सटीक समाधान नहीं होता है और कम से कम वर्ग विधि हमें कुछ "इष्टतम" वेक्टर खोजने की अनुमति देती है x (\displaystyle x)वैक्टर की अधिकतम निकटता के अर्थ में y (\displaystyle y)तथा f (x) (\displaystyle f(x))या विचलन वेक्टर की अधिकतम निकटता ई (\ डिस्प्लेस्टाइल ई)शून्य से (निकटता को यूक्लिडियन दूरी के अर्थ में समझा जाता है)।

उदाहरण - रैखिक समीकरणों का निकाय

विशेष रूप से, कम से कम वर्ग विधि का उपयोग रैखिक समीकरणों की प्रणाली को "हल" करने के लिए किया जा सकता है

A x = b (\displaystyle Ax=b),

कहाँ पे ए (\ डिस्प्लेस्टाइल ए) आयताकार मैट्रिक्सआकार m × n , m > n (\displaystyle m\times n,m>n)(अर्थात मैट्रिक्स A की पंक्तियों की संख्या आवश्यक चरों की संख्या से अधिक है)।

समीकरणों की ऐसी प्रणाली का आमतौर पर कोई हल नहीं होता है। इसलिए, इस प्रणाली को केवल ऐसे वेक्टर को चुनने के अर्थ में "हल" किया जा सकता है x (\displaystyle x)वैक्टर के बीच "दूरी" को कम करने के लिए एक एक्स (\displaystyle कुल्हाड़ी)तथा बी (\ डिस्प्लेस्टाइल बी). ऐसा करने के लिए, आप सिस्टम के समीकरणों के बाएँ और दाएँ भागों के वर्ग अंतरों के योग को न्यूनतम करने के लिए मानदंड लागू कर सकते हैं, अर्थात् (A x - b) T (A x - b) → मिनट (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min ). यह दिखाना आसान है कि इस न्यूनीकरण समस्या का समाधान समीकरणों की निम्नलिखित प्रणाली के समाधान की ओर ले जाता है

ए टी ए एक्स = ए टी बी ⇒ एक्स = (ए टी ए) - 1 ए टी बी (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (टी)बी).

प्रतिगमन विश्लेषण में OLS (डेटा सन्निकटन)

उसको रहनो दो n (\displaystyle n)कुछ चर के मान y (\displaystyle y)(यह टिप्पणियों, प्रयोगों आदि के परिणाम हो सकते हैं) और संबंधित चर x (\displaystyle x). के बीच संबंध बनाने की चुनौती है y (\displaystyle y)तथा x (\displaystyle x)कुछ अज्ञात पैरामीटर तक ज्ञात कुछ फ़ंक्शन द्वारा अनुमानित बी (\ डिस्प्लेस्टाइल बी), अर्थात, वास्तव में मापदंडों के सर्वोत्तम मूल्यों का पता लगाएं बी (\ डिस्प्लेस्टाइल बी), मूल्यों का अधिकतम अनुमान लगाना f (x , b) (\displaystyle f(x,b))वास्तविक मूल्यों के लिए y (\displaystyle y). वास्तव में, यह समीकरणों की एक अतिनिर्धारित प्रणाली के "समाधान" के मामले में कम हो जाता है बी (\ डिस्प्लेस्टाइल बी):

F (x t , b) = y t , t = 1 ,… , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

प्रतिगमन विश्लेषण में, और विशेष रूप से अर्थमिति में, चर के बीच संबंध के संभाव्य मॉडल का उपयोग किया जाता है।

वाई टी = एफ (एक्स टी, बी) + ε टी (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

कहाँ पे टी (\displaystyle \varepsilon _(t))- तथाकथित यादृच्छिक त्रुटियांमॉडल।

तदनुसार, प्रेक्षित मानों का विचलन y (\displaystyle y)मॉडल से f (x , b) (\displaystyle f(x,b))पहले से ही मॉडल में ही माना जाता है। एलएसएम (साधारण, शास्त्रीय) का सार ऐसे मापदंडों को खोजना है बी (\ डिस्प्लेस्टाइल बी), जिस पर वर्ग विचलन का योग (त्रुटियों, प्रतिगमन मॉडल के लिए उन्हें अक्सर प्रतिगमन अवशिष्ट कहा जाता है) ई टी (\displaystyle ई_(टी))न्यूनतम होगा:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

कहाँ पे आर एस एस (\displaystyle आरएसएस)- अंग्रेज़ी। वर्गों के अवशिष्ट योग को इस प्रकार परिभाषित किया गया है:

आर एस एस (बी) = ई टी ई = ∑ टी = 1 एन ई टी 2 = ∑ टी = 1 एन (वाई टी - एफ (एक्स टी, बी)) 2 (\displaystyle आरएसएस(बी)=ई^(टी)ई=\sum _ (t=1)^(n)e_(t)^(2)=\sum _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

सामान्य स्थिति में, इस समस्या को अनुकूलन (न्यूनतमीकरण) के संख्यात्मक तरीकों से हल किया जा सकता है। इस मामले में, कोई बोलता है अरेखीय कम से कम वर्ग(एनएलएस या एनएलएलएस - इंजी। गैर-रैखिक कम से कम वर्ग)। कई मामलों में, एक विश्लेषणात्मक समाधान प्राप्त किया जा सकता है। न्यूनीकरण समस्या को हल करने के लिए, फ़ंक्शन के स्थिर बिंदुओं को खोजना आवश्यक है आर एस एस (बी) (\displaystyle आरएसएस(बी)), अज्ञात मापदंडों के संबंध में इसे अलग करना बी (\ डिस्प्लेस्टाइल बी), व्युत्पन्न को शून्य के बराबर करना और समीकरणों की परिणामी प्रणाली को हल करना:

t = 1 n (y t - f (x t , b)) ∂ f (x t , b) b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_) (टी),बी))(\frac (\आंशिक f(x_(t),b))(\partial b))=0).

रैखिक (प्रतिगमन) के मामले में एलएसएम

प्रतिगमन निर्भरता को रैखिक होने दें:

y t = ∑ j = 1 k b j x t j + ε = x t T b + t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

होने देना आपचर के प्रेक्षणों का स्तंभ वेक्टर समझाया जा रहा है, और एक्स (\डिस्प्लेस्टाइल एक्स)- ये है (n × k) (\displaystyle ((n\times k)))- कारकों की टिप्पणियों का मैट्रिक्स (मैट्रिक्स की पंक्तियाँ - किसी दिए गए अवलोकन में कारक मूल्यों के वैक्टर, स्तंभों द्वारा - सभी टिप्पणियों में दिए गए कारक के मूल्यों के वेक्टर)। रैखिक मॉडल के मैट्रिक्स-प्रतिनिधित्व का रूप है:

y = Xb + (\displaystyle y=Xb+\varepsilon ).

फिर समझाया गया चर के अनुमानों का वेक्टर और प्रतिगमन अवशिष्ट के वेक्टर के बराबर होगा

y ^ = X b , e = y - y ^ = y - X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

तदनुसार, प्रतिगमन अवशेषों के वर्गों का योग बराबर होगा

आर एस एस = ई टी ई = (वाई - एक्स बी) टी (वाई - एक्स बी) (\displaystyle आरएसएस=ई^(टी)ई=(y-Xb)^(T)(y-Xb)).

पैरामीटर वेक्टर के संबंध में इस फ़ंक्शन को अलग करना बी (\ डिस्प्लेस्टाइल बी)और डेरिवेटिव को शून्य के बराबर करते हुए, हम समीकरणों की एक प्रणाली प्राप्त करते हैं (मैट्रिक्स रूप में):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

गूढ़ मैट्रिक्स रूप में, समीकरणों की यह प्रणाली इस तरह दिखती है:

(∑ एक्स टी 1 2 ∑ एक्स टी 1 एक्स टी 2 ∑ एक्स टी 1 एक्स टी 3 … ∑ एक्स टी 1 एक्स टी के ∑ एक्स टी 2 एक्स टी 1 ∑ एक्स टी 2 2 ∑ एक्स टी 2 एक्स टी 3 … ∑ एक्स टी 2 एक्स टी के ∑ एक्स टी 3 एक्स टी 1 ∑ एक्स टी एक्स टी 3 2 … x t 3 x t k x t k x t 1 x t k x t 2 ∑ x t k x t 3 … x t k 2) (b 1 b 2 b 3 b k) = (∑ x t 1 y x प्रदर्शन शैली 3 y t y t) (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\योग x_(t3)x_(t1)&\sum x_(t3)x_(t2)&\sum x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t )\\\vdots \\\योग x_(tk)y_(t)\\\end(pmatrix)))जहां सभी रकम सभी पर ले ली जाती है अनुमत मान टी (\ डिस्प्लेस्टाइल टी).

यदि मॉडल में एक स्थिरांक शामिल है (हमेशा की तरह), तो एक्स टी 1 = 1 (\displaystyle x_(t1)=1)सभी के लिए टी (\ डिस्प्लेस्टाइल टी), इसलिए, समीकरणों की प्रणाली के मैट्रिक्स के ऊपरी बाएं कोने में अवलोकनों की संख्या है n (\displaystyle n), और पहली पंक्ति और पहले कॉलम के शेष तत्वों में - चर के मूल्यों का योग: x t j (\displaystyle \sum x_(tj))और सिस्टम के दायीं ओर का पहला तत्व - y t (\displaystyle \sum y_(t)).

समीकरणों की इस प्रणाली का समाधान रैखिक मॉडल के लिए कम से कम वर्ग अनुमानों के लिए सामान्य सूत्र देता है:

बी ^ ओ एल एस = (एक्स टी एक्स) - 1 एक्स टी वाई = (1 एन एक्स टी एक्स) - 1 1 एन एक्स टी वाई = वी एक्स - 1 सी एक्स वाई (\displaystyle (\hat (बी))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n) ))X^(T)y=V_(x)^(-1)C_(xy)).

विश्लेषणात्मक उद्देश्यों के लिए, इस सूत्र का अंतिम निरूपण उपयोगी साबित होता है (समीकरणों की प्रणाली में जब n से विभाजित किया जाता है, तो अंकगणितीय साधन योग के बजाय दिखाई देते हैं)। यदि प्रतिगमन मॉडल में डेटा केंद्रित, तो इस निरूपण में पहले मैट्रिक्स में कारकों के नमूना सहप्रसरण मैट्रिक्स का अर्थ है, और दूसरा एक आश्रित चर वाले कारकों के सहप्रसरणों का वेक्टर है। यदि, इसके अतिरिक्त, डेटा भी है सामान्यीकृत SKO पर (अर्थात, अंततः मानकीकृत), तो पहले मैट्रिक्स में कारकों के नमूना सहसंबंध मैट्रिक्स का अर्थ है, दूसरा वेक्टर - आश्रित चर के साथ कारकों के नमूना सहसंबंधों का वेक्टर।

मॉडल के लिए एलएलएस अनुमानों की एक महत्वपूर्ण संपत्ति स्थिरांक के साथ- निर्मित प्रतिगमन की रेखा नमूना डेटा के गुरुत्वाकर्षण के केंद्र से होकर गुजरती है, अर्थात समानता पूरी होती है:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\टोपी (बी))_(जे)(\बार (एक्स))_(जे)).

विशेष रूप से, चरम मामले में, जब एकमात्र प्रतिगामी स्थिर होता है, तो हम पाते हैं कि एकल पैरामीटर (स्थिर स्वयं) का ओएलएस अनुमान चर के औसत मूल्य के बराबर है। अर्थात्, बड़ी संख्याओं के नियमों से अपने अच्छे गुणों के लिए जाना जाने वाला अंकगणितीय माध्य भी एक न्यूनतम वर्ग अनुमान है - यह इससे वर्ग विचलन के न्यूनतम योग के मानदंड को पूरा करता है।

सबसे सरल विशेष मामले

जोड़ीदार रैखिक प्रतिगमन के मामले में y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t))जब मूल्यांकन किया गया रैखिक निर्भरताएक चर दूसरे से, गणना सूत्र सरलीकृत होते हैं (आप मैट्रिक्स बीजगणित के बिना कर सकते हैं)। समीकरणों की प्रणाली का रूप है:

(1 x ¯ x ¯ x 2 ) (a b) = (y ¯ x y ) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar) (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

यहाँ से गुणांकों का अनुमान लगाना आसान है:

( b ^ = Cov (x , y) Var ⁡ (x) = x y - x y ¯ x 2 ¯ - x ¯ 2 , a ^ = y ¯ - b x । (\displaystyle (\begin(cases)) (\ Hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \टोपी (ए))=(\bar (y))-b(\bar (x)).\end(cases)))

इस तथ्य के बावजूद कि, सामान्य तौर पर, स्थिरांक वाले मॉडल बेहतर होते हैं, कुछ मामलों में सैद्धांतिक विचारों से यह ज्ञात होता है कि स्थिरांक ए (\ डिस्प्लेस्टाइल ए)शून्य के बराबर होना चाहिए। उदाहरण के लिए, भौतिकी में, वोल्टेज और करंट के बीच संबंध का रूप है U = I R (\displaystyle U=I\cdot R); वोल्टेज और करंट को मापने के लिए, प्रतिरोध का अनुमान लगाना आवश्यक है। इस मामले में, हम एक मॉडल के बारे में बात कर रहे हैं y = b x (\displaystyle y=bx). इस मामले में, समीकरणों की एक प्रणाली के बजाय, हमारे पास एक ही समीकरण है

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

इसलिए, एकल गुणांक के आकलन के सूत्र का रूप है

बी ^ = ∑ टी = 1 एन एक्स टी वाई टी ∑ टी = 1 एन एक्स टी 2 = एक्स वाई एक्स 2 ¯ (\displaystyle (\टोपी (बी))=(\frac (\sum _(t=1)^(n)x_(टी) )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

एक बहुपद मॉडल का मामला

यदि डेटा को एक चर के बहुपद प्रतिगमन फ़ंक्शन द्वारा फिट किया जाता है f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), फिर, डिग्री समझना x i (\displaystyle x^(i))प्रत्येक के लिए स्वतंत्र कारकों के रूप में मैं (\displaystyle मैं)रैखिक मॉडल के मापदंडों के आकलन के लिए सामान्य सूत्र के आधार पर मॉडल के मापदंडों का अनुमान लगाना संभव है। ऐसा करने के लिए, सामान्य सूत्र को ध्यान में रखना पर्याप्त है कि इस तरह की व्याख्या के साथ x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j))तथा x t j t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). इसलिए, इस मामले में मैट्रिक्स समीकरण रूप लेंगे:

(एन एन एक्स टी ... ∑ एन एक्स टी के ∑ एन एक्स टी ∑ एन एक्स टी 2 ... एन एक्स टी के + 1 एन एक्स टी के एन एक्स टी के + 1 ... ∑ एन एक्स टी 2 के) [बी 0 बी 1 ⋮ बी के] = [∑ एन वाई एन एक्स टी वाई टी ⋮ एन एक्स टी के वाई टी]। (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ योग \सीमा _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix))।)

ओएलएस अनुमानों के सांख्यिकीय गुण

सबसे पहले, हम ध्यान दें कि रैखिक मॉडल के लिए, कम से कम वर्ग अनुमान रैखिक अनुमान हैं, जैसा कि उपरोक्त सूत्र से निम्नानुसार है। कम से कम वर्गों के अनुमानों की निष्पक्षता के लिए, प्रतिगमन विश्लेषण की सबसे महत्वपूर्ण शर्त को पूरा करना आवश्यक और पर्याप्त है: कारकों पर सशर्त यादृच्छिक त्रुटि की गणितीय अपेक्षा शून्य के बराबर होनी चाहिए। यह शर्त संतुष्ट है, विशेष रूप से, यदि

  1. यादृच्छिक त्रुटियों की गणितीय अपेक्षा शून्य है, और
  2. कारक और यादृच्छिक त्रुटियां स्वतंत्र-यादृच्छिक-मान हैं।

दूसरी शर्त - बहिर्जात कारकों की स्थिति - मौलिक है। यदि यह संपत्ति संतुष्ट नहीं है, तो हम मान सकते हैं कि लगभग कोई भी अनुमान बेहद असंतोषजनक होगा: वे सुसंगत भी नहीं होंगे (अर्थात, बहुत बड़ी मात्रा में डेटा भी इस मामले में गुणात्मक अनुमान प्राप्त करने की अनुमति नहीं देता है)। शास्त्रीय मामले में, एक यादृच्छिक त्रुटि के विपरीत, कारकों के नियतत्ववाद के बारे में एक मजबूत धारणा बनाई जाती है, जिसका स्वचालित रूप से मतलब है कि बहिर्जात स्थिति संतुष्ट है। सामान्य मामले में, अनुमानों की स्थिरता के लिए, मैट्रिक्स के अभिसरण के साथ-साथ बहिर्जात स्थिति को संतुष्ट करने के लिए पर्याप्त है वी एक्स (\displaystyle वी_(एक्स))कुछ nondegenerate मैट्रिक्स के लिए नमूना आकार अनंत तक बढ़ जाता है।

निरंतरता और निष्पक्षता के अलावा, (सामान्य) कम से कम वर्गों के अनुमान भी प्रभावी होने के लिए (रैखिक निष्पक्ष अनुमानों के वर्ग में सर्वश्रेष्ठ), यादृच्छिक त्रुटि के अतिरिक्त गुणों को पूरा करना आवश्यक है:

इन मान्यताओं को यादृच्छिक त्रुटियों के वेक्टर के सहप्रसरण (मैट्रिक्स) के लिए तैयार किया जा सकता है वी (ε) = σ 2 मैं (\displaystyle वी(\varepsilon)=\sigma ^(2)I).

एक रैखिक मॉडल जो इन शर्तों को पूरा करता है, कहलाता है क्लासिक. शास्त्रीय रैखिक प्रतिगमन के लिए ओएलएस अनुमान सभी रैखिक निष्पक्ष अनुमानों के वर्ग में निष्पक्ष, सुसंगत और सबसे कुशल अनुमान हैं (अंग्रेजी साहित्य में, संक्षेप में कभी-कभी उपयोग किया जाता है नीला (सर्वश्रेष्ठ रैखिक निष्पक्ष अनुमानक) सबसे अच्छा रैखिक निष्पक्ष अनुमान है; घरेलू साहित्य में, गाऊसी-  मार्कोव प्रमेय को अधिक बार उद्धृत किया जाता है)। जैसा कि यह दिखाना आसान है, गुणांक अनुमान वेक्टर का सहप्रसरण मैट्रिक्स इसके बराबर होगा:

वी (बी ^ ओ एल एस) = σ 2 (एक्स टी एक्स) − 1 (\displaystyle वी((\टोपी (बी))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

दक्षता का अर्थ है कि यह सहप्रसरण मैट्रिक्स "न्यूनतम" है (गुणांक का कोई भी रैखिक संयोजन, और विशेष रूप से स्वयं गुणांक, एक न्यूनतम विचरण है), यानी रैखिक निष्पक्ष अनुमानों के वर्ग में, ओएलएस अनुमान सबसे अच्छे हैं। इस मैट्रिक्स के विकर्ण तत्व - गुणांक के अनुमानों के भिन्न - प्राप्त अनुमानों की गुणवत्ता के महत्वपूर्ण पैरामीटर हैं। हालाँकि, सहप्रसरण मैट्रिक्स की गणना करना संभव नहीं है क्योंकि यादृच्छिक त्रुटि विचरण अज्ञात है। यह साबित किया जा सकता है कि यादृच्छिक त्रुटियों के विचरण का निष्पक्ष और सुसंगत (शास्त्रीय रैखिक मॉडल के लिए) अनुमान मूल्य है:

एस 2 = आर एस एस / (एन - के) (\displaystyle s^(2)=RSS/(n-k)).

स्थानापन्न दिया गया मूल्यसहप्रसरण मैट्रिक्स के सूत्र में और सहप्रसरण मैट्रिक्स का अनुमान प्राप्त करें। परिणामी अनुमान भी निष्पक्ष और सुसंगत हैं। यह भी महत्वपूर्ण है कि त्रुटि विचरण का अनुमान (और इसलिए गुणांकों के प्रसरण) और मॉडल मापदंडों के अनुमान स्वतंत्र यादृच्छिक चर हैं, जो मॉडल गुणांक के बारे में परिकल्पना के परीक्षण के लिए परीक्षण के आंकड़े प्राप्त करना संभव बनाता है।

यह ध्यान दिया जाना चाहिए कि यदि शास्त्रीय मान्यताओं को पूरा नहीं किया जाता है, तो कम से कम वर्ग पैरामीटर अनुमान सबसे कुशल नहीं होते हैं और जहां डब्ल्यू (\ डिस्प्लेस्टाइल डब्ल्यू)कुछ सममित धनात्मक निश्चित भार मैट्रिक्स है। साधारण कम से कम वर्ग इस दृष्टिकोण का एक विशेष मामला है, जब वजन मैट्रिक्स पहचान मैट्रिक्स के समानुपाती होता है। जैसा कि ज्ञात है, सममित मैट्रिक्स (या ऑपरेटरों) के लिए एक अपघटन होता है W = P T P (\displaystyle W=P^(T)P). इसलिए, इस कार्यात्मक को निम्नानुसार दर्शाया जा सकता है e T P T P e = (P e) T P e = e T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), अर्थात्, इस कार्यात्मक को कुछ रूपांतरित "अवशिष्ट" के वर्गों के योग के रूप में दर्शाया जा सकता है। इस प्रकार, हम कम से कम वर्ग विधियों के एक वर्ग को अलग कर सकते हैं - एलएस-विधियां (कम से कम वर्ग)।

यह साबित होता है (ऐटकेन का प्रमेय) कि एक सामान्यीकृत रैखिक प्रतिगमन मॉडल के लिए (जिसमें यादृच्छिक त्रुटियों के सहप्रसरण मैट्रिक्स पर कोई प्रतिबंध नहीं लगाया जाता है), सबसे प्रभावी (रैखिक निष्पक्ष अनुमानों के वर्ग में) तथाकथित के अनुमान हैं। सामान्यीकृत ओएलएस (ओएमएनके, जीएलएस - सामान्यीकृत कम वर्ग)- यादृच्छिक त्रुटियों के व्युत्क्रम सहप्रसरण मैट्रिक्स के बराबर भार मैट्रिक्स के साथ एलएस-विधि: डब्ल्यू = वी ε - 1 (\displaystyle W=V_(\varepsilon )^(-1)).

यह दिखाया जा सकता है कि रैखिक मॉडल के मापदंडों के जीएलएस-अनुमानों के सूत्र का रूप है

बी ^ जी एल एस = (एक्स टी वी - 1 एक्स) - 1 एक्स टी वी - 1 y (\displaystyle (\टोपी (बी))_(जीएलएस)=(X^(T)V^(-1)X)^(-1) एक्स^(टी)वी^(-1)y).

इन अनुमानों का सहप्रसरण मैट्रिक्स, क्रमशः, के बराबर होगा

वी (बी ^ जी एल एस) = (एक्स टी वी - 1 एक्स) - 1 (\displaystyle वी((\टोपी (बी))_(जीएलएस))=(X^(T)V^(-1)X)^(- एक)).

वास्तव में, ओएलएस का सार मूल डेटा के एक निश्चित (रैखिक) परिवर्तन (पी) और रूपांतरित डेटा के लिए सामान्य न्यूनतम वर्गों के अनुप्रयोग में निहित है। इस परिवर्तन का उद्देश्य यह है कि रूपांतरित डेटा के लिए, यादृच्छिक त्रुटियां पहले से ही शास्त्रीय मान्यताओं को संतुष्ट करती हैं।

भारित न्यूनतम वर्ग

एक विकर्ण भार मैट्रिक्स (और इसलिए यादृच्छिक त्रुटियों के सहप्रसरण मैट्रिक्स) के मामले में, हमारे पास तथाकथित भारित न्यूनतम वर्ग (WLS - भारित कम से कम वर्ग) हैं। इस मामले में, मॉडल के अवशेषों के वर्गों का भारित योग कम से कम होता है, अर्थात, प्रत्येक अवलोकन को एक "वजन" प्राप्त होता है जो इस अवलोकन में यादृच्छिक त्रुटि के विचरण के विपरीत आनुपातिक होता है: e T W e = ∑ t = 1 n e t 2 t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ सिग्मा _(टी)^(2)))). वास्तव में, डेटा को प्रेक्षणों को भारित करके (यादृच्छिक त्रुटियों के कल्पित मानक विचलन के अनुपात में विभाजित करके) रूपांतरित किया जाता है, और भारित डेटा पर सामान्य न्यूनतम वर्ग लागू होते हैं।

आईएसबीएन 978-5-7749-0473-0।

  • अर्थमिति। पाठ्यपुस्तक / एड। एलिसेवा आई। आई। - दूसरा संस्करण। - एम।: वित्त और सांख्यिकी, 2006. - 576 पी। - आईएसबीएन 5-279-02786-3।
  • अलेक्जेंड्रोवा एन.वी.गणितीय शब्दों, अवधारणाओं, पदनामों का इतिहास: एक शब्दकोश-संदर्भ पुस्तक। - तीसरा संस्करण। - एम।: एलकेआई, 2008। - 248 पी। - आईएसबीएन 978-5-382-00839-4।आई.वी. मितिन, रुसाकोव वी.एस. प्रयोगात्मक डेटा का विश्लेषण और प्रसंस्करण - 5 वां संस्करण - 24p।
  • कम से कम वर्गों की विधि (एलएसएम) आपको यादृच्छिक त्रुटियों वाले कई मापों के परिणामों का उपयोग करके विभिन्न मात्राओं का अनुमान लगाने की अनुमति देती है।

    विशेषता बहुराष्ट्रीय कंपनी

    मुख्य विचार यह विधिइस तथ्य में शामिल है कि समस्या के समाधान की सटीकता के लिए एक मानदंड के रूप में, चुकता त्रुटियों का योग माना जाता है, जिसे कम करने की मांग की जाती है। इस पद्धति का उपयोग करते समय, संख्यात्मक और विश्लेषणात्मक दोनों दृष्टिकोणों को लागू किया जा सकता है।

    विशेष रूप से, एक संख्यात्मक कार्यान्वयन के रूप में, कम से कम वर्ग विधि का अर्थ है जितना संभव हो उतना करना अधिकअज्ञात की माप अनियमित चर. इसके अलावा, जितनी अधिक गणना होगी, समाधान उतना ही सटीक होगा। गणना के इस सेट (प्रारंभिक डेटा) पर, प्रस्तावित समाधानों का एक और सेट प्राप्त किया जाता है, जिसमें से सबसे अच्छा चुना जाता है। यदि समाधान के सेट को पैरामीट्रिज किया जाता है, तो पैरामीटर के इष्टतम मूल्य को खोजने के लिए कम से कम वर्ग विधि को कम किया जाएगा।

    प्रारंभिक डेटा (माप) और समाधानों के प्रस्तावित सेट पर एलएसएम के कार्यान्वयन के लिए एक विश्लेषणात्मक दृष्टिकोण के रूप में, कुछ (कार्यात्मक) को परिभाषित किया गया है, जिसे एक निश्चित परिकल्पना के रूप में प्राप्त सूत्र द्वारा व्यक्त किया जा सकता है जिसे पुष्टि करने की आवश्यकता है। इस मामले में, प्रारंभिक डेटा की चुकता त्रुटियों के सेट पर इस कार्यात्मक के न्यूनतम को खोजने के लिए कम से कम वर्ग विधि को कम किया जाता है।

    ध्यान दें कि त्रुटियां स्वयं नहीं, बल्कि त्रुटियों के वर्ग हैं। क्यों? तथ्य यह है कि अक्सर सटीक मूल्य से माप के विचलन सकारात्मक और नकारात्मक दोनों होते हैं। औसत का निर्धारण करते समय, सरल योग अनुमान की गुणवत्ता के बारे में गलत निष्कर्ष निकाल सकता है, क्योंकि सकारात्मक और के पारस्परिक रद्दीकरण के बाद से नकारात्मक मानमाप के सेट की नमूना शक्ति कम कर देगा। और, परिणामस्वरूप, मूल्यांकन की सटीकता।

    ऐसा होने से रोकने के लिए, वर्ग विचलन को सारांशित किया जाता है। इससे भी अधिक, मापे गए मान के आयाम और अंतिम अनुमान को बराबर करने के लिए, चुकता त्रुटियों का योग निकालने के लिए उपयोग किया जाता है

    बहुराष्ट्रीय कंपनियों के कुछ अनुप्रयोग

    MNC का व्यापक रूप से विभिन्न क्षेत्रों में उपयोग किया जाता है। उदाहरण के लिए, संभाव्यता सिद्धांत और गणितीय आंकड़ों में, एक यादृच्छिक चर की ऐसी विशेषता को मानक विचलन के रूप में निर्धारित करने के लिए विधि का उपयोग किया जाता है, जो यादृच्छिक चर के मानों की सीमा की चौड़ाई निर्धारित करता है।

    संबंधित प्रकाशन