छंटनी की गई प्रतिगमन - इन - stata - विदेशी मुद्रा


सूचना: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस में फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और सृजन की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि उन्हें अब बनाए रखा नहीं जाएगा हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च एंड एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है उपहार देने के लिए स्टेट कंट्रोलिंग ग्रुप द्वारा सहायता प्रदान कर सकते हैं स्टेटा डेटा विश्लेषण उदाहरणों का काटकरित प्रतिगमन संस्करण जानकारी: इस पृष्ठ का कोड स्टैटा 12 में परीक्षण किया गया था। ट्रिंकेट किए गए प्रतिगमन को निर्भर चर मॉडल के लिए प्रयोग किया जाता है जिसके लिए आश्रित चर के मूल्य की वजह से टिप्पणियों को विश्लेषण में शामिल नहीं किया गया है। कृपया ध्यान दें: इस पृष्ठ का उद्देश्य यह दिखाना है कि विभिन्न डेटा विश्लेषण आदेशों का उपयोग कैसे करें। इसमें अनुसंधान प्रक्रिया के सभी पहलुओं को शामिल नहीं किया जाता है जो शोधकर्ताओं को करना अपेक्षित है। विशेष रूप से, इसमें डेटा की सफाई और जांच, मान्यताओं का सत्यापन, मॉडल निदान या संभावित अनुवर्ती विश्लेषण शामिल नहीं हैं छांटित प्रतिगमन के उदाहरण उदाहरण 1। विशेष गेट (प्रतिभाशाली और प्रतिभाशाली शिक्षा) कार्यक्रम में छात्रों का अध्ययन भाषा कौशल की एक समारोह और उस कार्यक्रम के प्रकार के रूप में मॉडल उपलब्धि की इच्छा करता है जिसमें छात्र वर्तमान में नामांकित है। एक प्रमुख चिंता यह है कि विशेष कार्यक्रम में प्रवेश करने के लिए छात्रों को 40 के न्यूनतम उपलब्धि स्कोर की आवश्यकता होती है। इस प्रकार, नमूना 40 की एक उपलब्धि स्कोर पर छोटा कर दिया जाता है। उदाहरण 2. एक शोधकर्ता में अमेरिकियों के नमूने के लिए डेटा है जिनकी आय गरीबी रेखा से ऊपर है। इसलिए, आय वितरण के निचले हिस्से को छोटा कर दिया गया है। अगर शोधकर्ता में अमेरिकियों का एक नमूना था, जिनकी आय गरीबी रेखा के नीचे या नीचे थी, तो आय वितरण के ऊपरी भाग को छोटा कर दिया जाएगा। दूसरे शब्दों में, कटौती परिणाम चर के वितरण का केवल एक हिस्सा नमूने का परिणाम है। डेटा का विवरण ऊपर से 1 उदाहरण का पीछा करने देता है हमारे पास एक काल्पनिक डेटा फ़ाइल है, truncreg. dta 178 टिप्पणियों के साथ परिणाम परिवर्तक को achiv कहा जाता है और भाषा का परीक्षण स्कोर चर लैंगसोर कहा जाता है वेरिएबल प्रोग्राम तीन स्तरों के साथ एक स्पष्ट भविष्यवक्ता चर है जो कार्यक्रम के प्रकार को दर्शाता है जिसमें छात्रों को नामांकित किया गया था। आइए देखें डेटा पर वर्णनात्मक आंकड़ों के साथ शुरू करना हमेशा एक अच्छा विचार है जिन विश्लेषण विधियों पर आप विचार कर सकते हैं, वे नीचे दिए गए कुछ विश्लेषण विधियों की एक सूची है जिनका आप सामना कर सकते हैं। सूचीबद्ध कुछ विधियां काफी उचित हैं, जबकि अन्य ने या तो पक्षपात से बाहर हो या सीमाएं हैं ओएलएस प्रतिगमन - आप ओएलएस प्रतिगमन का उपयोग कर इन आंकड़ों का विश्लेषण कर सकते हैं। ओएलएस प्रतिगमन गुणांक के अनुमान को समायोजित नहीं करने के लिए 40 में नमूना को कम करने के प्रभाव को ध्यान में रखेगा, और गुणांक गंभीर रूप से पक्षपाती हो सकता है यह मॉडल विनिर्देश त्रुटि (हेकमन, 1 9 7 9) के रूप में अवधारणात्मक हो सकता है छंटनी हुई प्रतिगमन - छंटनी हुई डेटा के साथ ओएलएस प्रतिगमन का उपयोग करते समय छंटनी हुई रिग्रेसन की शुरुआत पूर्वाग्रह ध्यान दें कि कटौती किए गए प्रतिगमन के साथ, परिणाम चर का भिन्नता वितरण की तुलना में कम हो जाता है जो कि छोटा नहीं है। इसके अलावा, अगर वितरण के निचले हिस्से को छोटा किया जाता है, तो कटौती किए गए चर का मतलब असंतुलित चर से माध्य से अधिक होगा यदि ट्रांस्केक्शन ऊपर से है, तो ट्रांस्केटेड वैरिएबल का मतलब असंबद्ध चर से कम होगा। इन प्रकार के मॉडलों को हेक्मैन चयन मॉडल के रूप में भी अवधारणा के रूप में देखा जा सकता है, जो चयन पूर्वाग्रह के नमूने के लिए सही हैं। सेंसर किए गए प्रतिगमन - कभी-कभी ट्रांस्केशन और सेंसरिंग की अवधारणाएं भ्रमित हैं। सेंसर किए गए डेटा के साथ हमारे पास सभी टिप्पणियां हैं, लेकिन हम उनमें से कुछ के वास्तविक मूल्यों को नहीं जानते हैं। ट्रांस्केशन के साथ, कुछ अवलोकनों को विश्लेषण में शामिल नहीं किया जाता है क्योंकि परिणाम चर के मूल्य की वजह से। सेंसर किए गए प्रतिगमन मॉडल का उपयोग करते हुए हमारे उदाहरणों में डेटा का विश्लेषण करने के लिए यह अनुचित होगा। कटौती किए गए प्रतिगमन नीचे हम एक छांटित प्रतिगमन मॉडल का अनुमान लगाने के लिए truncreg आदेश का उपयोग करें। मैं इससे पहले कि ठेला इंगित करता है कि यह एक कारक वैरिएबल (यानि स्पष्ट वैरिएबल) है, और यह मॉडल में सूचक चर की एक श्रृंखला के रूप में शामिल किया जाना चाहिए। ट्रंकक्रग कमान में एल () विकल्प उस मूल्य को इंगित करता है जिस पर बायां टांकने लगते हैं। इस दाहिनी कटौती के मूल्य को इंगित करने के लिए एक उल () विकल्प भी है, जो इस उदाहरण में आवश्यक नहीं था। आउटपुट एक नोट के साथ शुरू होता है, जो दर्शाता है कि शून्य टिप्पणियों को छोटा किया गया था। इसका कारण यह है कि हमारे नमूने में उपलब्धियों के लिए 40 से कम मूल्यों वाला डेटा नहीं था। नोट पुनरावृत्ती लॉग के बाद किया जाता है, जो किसी मॉडल के साथ शुरू होने वाले लॉग संभावनाओं के मान देता है जिसमें कोई अनुमान नहीं होता है। लॉग में अंतिम मान लॉग संभावना का अंतिम मान है और नीचे दोहराया गया है। हैडर सूचना अगले प्रदान की जाती है। बाएं हाथ की ओर कटौती की निचली और ऊपरी सीमा होती है और अंतिम लॉग संभावना की दोहराई होती है। दाएं हाथ पर इस्तेमाल की गई टिप्पणियों की संख्या (178) दी गई है, वाल्ड ची-स्क्वायर के साथ-साथ तीन डिग्री स्वतंत्रता के साथ। वॉल्ड ची-स्क्वायर आपको प्राप्त होता है यदि आप टेस्ट कमांड का इस्तेमाल मॉडल के आकलन के बाद करते हैं, तो यह जांचने के लिए कि सभी गुणांक शून्य हैं। अंत में, ची-स्क्वायर टेस्ट के लिए एक पी-वेल्यू है। संपूर्ण रूप से, यह मॉडल सांख्यिकीय रूप से महत्वपूर्ण है। गुणांकों की मेजबानी में, हमारे पास काटे हुए प्रतिगमन गुणांक है, गुणांक की मानक त्रुटि, वाल्ड जेड-टेस्ट (गुणांक), और प्रत्येक z - परीक्षण से जुड़े पी-वैल्यू। डिफ़ॉल्ट रूप से, हम गुणांक के लिए 95 विश्वास अंतराल भी प्राप्त करते हैं। स्तर () विकल्प के साथ आप एक अलग विश्वास अंतराल का अनुरोध कर सकते हैं। सहायक आंकड़ा सिग्मा ओएलएस प्रतिगमन में अनुमान के मानक त्रुटि के बराबर है। 8.76 के मान की तुलना सिद्धि के मानक विचलन से की जा सकती है जो 8.96 था। यह एक मामूली कमी को दर्शाता है आउटपुट में सिग्मा की मानक त्रुटि का अनुमान भी है, साथ ही इस मूल्य के लिए 95 विश्वास अंतराल भी शामिल है। भाषा के स्कोर और कार्यक्रम के प्रकार की उपलब्धि का अनुमानित छोटा प्रतिगमन मॉडल सांख्यिकीय रूप से महत्वपूर्ण था (ची-स्क्वायर 54.76, डीएफ 3, पीआईएफ, आप छांटित प्रतिगमन मॉडल की तुलना करना चाहते हैं, आप लॉग संभावना, एआईसी और बीआईसी प्राप्त करने के लिए एस्टाट आईसी कमांड जारी कर सकते हैं ट्रंकक्रग आउटपुट में न तो कोई आर 2 और न ही एक छद्म-आर 2 है। आप अनुमान लगाए गए मूल्य के साथ achiv को सम्बन्ध करके और नतीजा को चुकाने के द्वारा संघ की डिग्री का मोटे अनुमान की गणना कर सकते हैं। .31 की गणना मूल्य का अनुमानित अनुमान है आर 2 आपको एक ओएलएस प्रतिगमन में मिलेगा। मनाया गया और भविष्यवाणी की गई शैक्षणिक योग्यता मानों के बीच स्क्वायर सहसंबंध, लगभग 0.31 है, यह दर्शाता है कि इन भविष्यवाणियों ने परिणाम चर में 30 से अधिक परिवर्तनशीलता के लिए जिम्मेदार है। Statas truncreg कमांड पर विचार करने के लिए आलेख बनाया गया है काम करने के लिए जब ट्रांस्केक्शन मॉडल में परिणाम वेरिएबल पर होता है। एक या दो से अधिक भविष्यवक्ताओं के आधार पर नमूने को कम करना संभव है। उदाहरण के लिए, मोड उच्च विद्यालय जीपीए (एचएसजीपीए) और एसएटी स्कोर के एक समारोह के रूप में लिग कॉलेज जीपीए में एक नमूना शामिल है जो भविष्यवाणियों के आधार पर छोटा होता है, यानी उच्चतर एचएसजीपीए और सैट स्कोर वाले छात्रों को कॉलेज में भर्ती कराया जाता है। आपको सावधानी बरतने की आवश्यकता है कि ट्रांस्केक्शन मान के रूप में किस मूल्य का उपयोग किया जाता है, क्योंकि यह गुणांक और मानक त्रुटियों के आकलन को प्रभावित करता है ऊपर दिए गए उदाहरण में, अगर हम (39) के बजाय एल (40) का इस्तेमाल करते थे परिणाम थोड़ा अलग होता। यह कोई फर्क नहीं पड़ता कि हमारे नमूने में 40 के कोई मूल्य नहीं थे। संदर्भ ग्रीन, डब्ल्यू। एच। (2003)। अर्थमित्र विश्लेषण, पांचवें संस्करण अपर सैडल नदी, एनजे: प्रेंटिस हॉल हेकमन, जे जे (1 9 7 9) नमूना चयन में स्पेसिफ़िकेशन त्रुटि के तौर पर पक्षपात है। इकोनोमेट्रिटिका खंड 47, संख्या 1, पृष्ठ 153 - 161. लांग, जे एस (1 99 7)। श्रेणीबद्ध और सीमित निर्भर चर के लिए प्रतिगमन मॉडल हजार ओक्स, सीए: ऋषि प्रकाशन इस वेब साइट की सामग्री को कैलिफ़ोर्निया यूनिवर्सिटी द्वारा किसी विशेष वेब साइट, किताब या सॉफ़्टवेयर उत्पाद का समर्थन नहीं माना जाना चाहिए। ओएलएस प्रतिगमन एक व्यापक रूप से लागू तकनीक है, और शास्त्रीय प्रतिगमन के कई रूप मौजूद हैं। उनमें से, दबंग और छंटनी हुई रिग्रेसन हैं उनका उपयोग तब किया जाता है जब निर्भर (वाई) चर कुछ मायनों में विवश हो जाता है दोनों एक आम सुविधा है Y चर को देखा गया चर के बजाय अव्यक्त चर (निरूपित वाई) के रूप में माना जाता है यह क्लासिकल ओएलएस की तुलना में कई जटिलताओं को जन्म देती है। मैंने इस विषय को कवर करने का फैसला किया क्योंकि मैंने अपने पत्र में जीएसएस वर्डॉम परीक्षा में काले-सफेद स्कोर परिवर्तन पर इस तरह के विश्लेषण को लागू किया है। ये तकनीक SPSS में उपलब्ध नहीं हैं एक कारण यह हो सकता है कि इन तकनीकों को मुख्यतः अर्थशास्त्रियों द्वारा उपयोग किया जाता है (जो मुख्य रूप से स्टेटा का उपयोग करते हैं) नहीं, मनोवैज्ञानिकों द्वारा (जो मुख्य रूप से एसपीएसएस का उपयोग करते हैं और शायद इन तकनीकों से अवगत नहीं हो) हालांकि, डेटा सेंसरिंग और डेटा कटौती द्वारा उठाई गई समस्या मनोविज्ञान के क्षेत्र में भी प्रासंगिक है। नीचे के अंत में या इसके वितरण के ऊपरी छोर पर सेंसर किए गए किसी आश्रित चर के लिए तन्य (या सेंसर) प्रतिगमन का प्रस्ताव है। अथवा दोनों। सेंसरिंग अनिवार्य रूप से फर्श और छत के प्रभाव की समस्या है। उदाहरण के लिए, कुछ व्यक्ति एक निश्चित दहलीज मूल्य () पर स्टैक्ड होते हैं क्योंकि वे चर पर उच्च या निम्न स्कोर नहीं कर सकते हैं यह अंतर के कारण हो सकता है कारण परीक्षा बहुत आसान या बहुत मुश्किल हो सकती है लेकिन सेंसरिंग एक अन्य रूप पर ले जा सकता है। एक आय वैरिएबल को श्रेणियों में कोडित किया जा सकता है, उदा। 10,000-20,0000, आदि 8230, लेकिन बहुत अंत में, हमारी पिछली श्रेणी 8220100000 और 8221 जैसी कुछ हो सकती है। इस स्थिति में, चर ऊपरी छोर पर सेंसर है। जैसा कि पहले उल्लेख किया गया है, दोनों के अंत में सेंसर करने के लिए संभव है, और इस मामले में, हम दो-सीमा पर चलने वाली प्रतिगमन (लोअर और ऊपरी सेंसर किए गए मानों के मान को सेट करके) निर्दिष्ट कर रहे हैं लांग (1997, पीपी। 212) -213) एक विकास के लिए उदाहरण के लिए, बीमा कवरेज में, न्यूनतम कवरेज, अधिकतम कवरेज, और बीच में मूल्य है। एक पृथक चर के लिए छांटित प्रतिगमन प्रस्तावित है जिसके लिए इसका वितरण पूरी जनसंख्या का प्रतिनिधि नहीं है। कटौती अनिवार्य रूप से सीमा प्रतिबंध की समस्या है (हालांकि यह रेंज प्रतिबंध के साथ छिद्रण को बराबर करने के लिए गलत है)। उदाहरण के लिए, टिकाऊ सामान खरीदने वाले लोगों के लिए डेटा एकत्र किया जा सकता है। लेकिन जिन लोगों ने इन सामानों को खरीद नहीं किया है, उदा। इस प्रकार उनकी कीमत के स्तर को नीचे (ऊपर की बजाय) से छोटा किया जाना कहा जाता है। यह कहना नहीं है कि ओएलएस पक्षपातपूर्ण है। यह विश्लेषण के लक्ष्य पर निर्भर करता है यदि हम पूरी जनसंख्या के लिए वाई के मूल्य में रुचि रखते हैं, तो ओएलएस पक्षपाती है लेकिन अगर हम केवल हमारे नम्रता में दिलचस्पी रखते हैं, तो ओएलएस (स्टाटा मैनुअल देखें) पर्याप्त है। हालांकि, हमें यह अवश्य पता होना चाहिए कि जब हम इस तरह से डेटा के एक हिस्से को छोड़ देते हैं, तो टकराया हुआ डेटा अंक यादृच्छिक नहीं होते हैं (क्योंकि वांछित और असंतुलित टिप्पणियों के लिए वाई का मूल्य अलग है)। सेंसरिंग और कटौती का एक चित्रमय प्रतिनिधित्व लांग (1 99 7) द्वारा दिया गया है: पैनल ए में 8220latent8221 वेरिएबल Y है जो कि गिरावट और छींटे हुए रिग्रेसन अनुमान लगाने की कोशिश कर रहे हैं (स्वतंत्र चर के सेट के आधार पर)। सेंसर करने पर, टिप्पणियों को सेंसर किया जाता है और शून्य पर स्टैक्ड होता है 1। लेकिन, कटौती के लिए, जब वे नीचे (या उसके बराबर) थ्रेशोल्ड वैल्यू हैं तो वस्तुतः गायब हो जाते हैं। दोनों तकनीकों का अनुमान लगाने के लिए अधिकतम संभावना (एमएल) का उपयोग होता है अपेक्षित (यानी 8220potential8221) आश्रित चर (वाई) के मूल्य पर एक गौसी (सामान्य तौर पर) वितरण के कारण स्वतंत्र चर (एक्स) में परिवर्तन क्योंकि निर्भर चर का अनुमानित मूल्य अव्यक्त (यानी मनाया नहीं गया), मानकीकृत गुणांक प्राप्त करना संभव नहीं है, जब तक कि हम एक विशेष प्रक्रिया (लांग, 1 99 7, पीपी 207-208) लागू नहीं करते। अवशेष के रूप में, तकनीक दो हिस्सों में अव्यक्त वाई (यानी, दफ़्ती गुणांक) पर एक्स के प्रभाव के अपघटन की अनुमति देता है सेंसर किए गए मूल्य के ऊपर होने की संभावना में बदलाव, यदि ऊपर की तरफ से अपेक्षित मान से गुणा किया जाता है, तो सेंसर किए गए मान के ऊपर स्थित मामलों के लिए अपेक्षित वाई में बदलाव के कारण सेंसर किए गए मान (मैकडॉनल्ड्स एमओपीट, 1 9 80) से ऊपर की संभावना )। गणितीय, tobit मॉडल में अव्यक्त वाई चर द्वारा दिया गया है: आइक्सी एफ (जेड) एक्स (आइक्सी) आइ एक्स (एफ (जेड) क्सी) जहां एफ (जेड) थ्रेसहोल्ड से ऊपर स्थित मामलों (यानी संभावना) का अनुपात है, आइक्सी एक स्वतंत्र चर के साथ जुड़े दहलीज के ऊपर स्थित मामलों के लिए वाई के अपेक्षित मूल्य में परिवर्तन है, एफ (जेड) Xi एक स्वतंत्र चर से जुड़े दहलीज से ऊपर होने की संभावना में बदलाव है। लांग (1997, पी। 1 9 6) सूत्र को अधिक सहज तरीके से प्रस्तुत करता है: ई (वाई) पी (बिना सेंसर) x ई (यैग) प्रा (सेंसर) एक्स ई (yy y) संभाव्यता के लिए पी, अपेक्षित ई (वाई) y, और y पर सशर्त के लिए y, और y y का मान है यदि y सेंसर है (कम से कम) Long8217 की पुस्तक में (पृष्ठ देखें) 1 99 7)। यदि हम केवल अव्यक्त वाई पर एक्स के परिवर्तनों में दिलचस्पी रखते हैं, तो थकाऊ प्रतिगमन से प्राप्त गुणांक उसी तरह व्याख्या किए जा सकते हैं जैसे ओएलएस प्रतिगमन (रॉन्क, 1 99 2) से प्राप्त किए गए। छांटित प्रतिगमन के लिए सूत्र लांग (1997, पी। 1 9 4) में पाया जा सकता है और स्टंट मैनुअल में ट्राइनक्रग फ़ंक्शन के लिए। हम Haven8217t के एक विस्तृत जवाब प्रदान करते हैं कि क्यों वांछित आंकड़ों के साथ असंगत क्यों है जब हमारी रुचि जनसंख्या अनुमानों पर केंद्रित है। ओएलएस प्रतिगमन की एक महत्वपूर्ण धारणा यह है कि त्रुटियों की स्वतंत्रता (अवशिष्ट) अवशिष्टों का मतलब शून्य होना चाहिए और सभी स्पष्टीकरण चर के साथ असुरित होना चाहिए। यहां समस्या यह है कि छांटे गए डेटा का कारण नमूना चयन (ओं) को त्रुटि शब्द (यू) के साथ सहसंबंधित करता है। वूल्रिडिज (2012, पीपी। 616-617) एक चयन संकेतक के साथ एक उदाहरण प्रदान करता है, अर्थात s1 यदि हम सभी डेटा या अन्यथा एसई को देखते हैं, जहां एस 1 अगर Y टोट कम या थ्रेसहोल्ड के बराबर है ऊपर से छोटा किया गया है)। समतुल्य रूप से, यदि 1-X है, जहां एक्स 0 1X1 2X2, 8230 के लिए एक लबादा है। इसका मतलब यह है कि यू के साथ covaries के मूल्य लांग (1 99 7), चित्रा 7.2 के साथ गैलेक्सी एसोसिएशन के लिए सेंसरिंग और ट्रांसीकेशन के परिणामों को दर्शाता है। ठोस रेखा YS के OLS अनुमान द्वारा दी जाती है जो सेंसर नहीं है। लंबे समय से धराशायी रेखा, सेंसर किए गए डेटा के साथ ओएलएस, कम अवरोधन और एक ढलान ढलान है, क्योंकि कई मानों को शून्य (त्रिकोण के रूप में दिखाया गया है) के कारण, थ्रेसहोल्ड क्षैतिज रेखा 1 के नीचे, जो कि लंबे समय तक धराशायी की बाईं ओर खींचती है लाइन। संक्षिप्त डैश लाइन एक ओएलएस अनुमान द्वारा दिया जाता है, 1 अंक के नीचे डेटा अंक के साथ सेंसर किए जाने के बजाय काट दिया गया (यानी निकाला गया) और उच्च अवरोधन और छोटे ढलान दिखाता है। चित्रा 7.7 (पृष्ठ 202) भी एक बहुत ही सरल तरीके से सेंसर करने और कटौती के प्रभाव से पता चलता है। यहां अंतर यह है कि सेंसरिंग डेटा अंक नीचे से होने के बजाय सीमा के बराबर हैं। थ्रेशोल्ड 2 के नीचे दिए गए बिन्दुओं को डेटा अंक छोटा किया जाता है। ठोस रेखा में ई (वाईएक्स) सही अनुमान है। ई (yygt2x) लंबी धराशायी लाइन द्वारा दी गई है। हम देखते हैं कि लंबे समय से धराशायी रेखा ठोस पक्ष से अलग-अलग नहीं है क्योंकि हम दायीं ओर की तरफ जाते हैं, लेकिन लंबे समय तक धराशायी रेखा ठोस रेखा के ऊपर होती है क्योंकि हम बाईं तरफ जाते हैं। ऐसा इसलिए है क्योंकि दाएं (बाएं) तरफ कम कर दिए गए कुछ (बहुत से) डेटा बिंदु हैं। लंबे समय तक धराशायी रेखा करीब-करीब करीब आ जाती है जब हम बाएं ओर जाते हैं हम यह भी देखते हैं कि क्षैतिज रेखा 2 के साथ मंडल हैं। ये डेटा अंक सेंसर कर रहे हैं। ई (वाईएक्स) द्वारा दिखाया गया छोटा धराशायी रेखा एक्स अक्ष के बाईं ओर लंबे समय तक धराशायी रेखा से थोड़ा नीचे है, क्योंकि सेंसर वाले मामलों को समाप्त नहीं किया गया था। दोनों प्रकार की प्रतिगमन सामान्यता और अवशेषों के homoscedastic की आवश्यकता होती है, यहां तक ​​कि tobit के मामले में जो हमेशा से सेंसर वितरण गैर सामान्य माना जाता है। लेकिन जब वाई वैरिएबल एक नमूदार नहीं है, तो हम वाई वमन वाई टोट के कारण हमारे अवशिष्ट चर को नहीं प्राप्त कर सकते हैं क्योंकि हमें वाई के बजाय वाई का उपयोग करना पड़ता है। थोड़ी सी प्रतिगमन में, सामान्यीकृत अवशिष्ट और आचरण पाने के लिए एक जटिल प्रक्रिया लागू की जानी चाहिए सामान्यता की परीक्षा (कैमरन amp त्रिवेदी, 200 9, पीपी 535-538) इन प्रकार के प्रतिगमन की एक विशेष विशेषता यह है कि मानकीकृत गुणांक आमतौर पर सांख्यिकीय सॉफ्टवेयर में नहीं बताया जाता है क्योंकि इसकी गणना सरल नहीं है आम तौर पर, पूरी तरह से मानकीकृत गुणांक ऑपरेशन कॉफ़ (एक्स) एसडी (वाई) एसडी (एक्स) के साथ प्राप्त होते हैं। दबंग प्रतिगमन के मामले में, रॉन्सेक (1 99 2, पृष्ठ 506) दर्शाता है कि मानकीकृत कागज़ गुणांक कोफ (एक्स) एफ (जेड) सिग्मा द्वारा प्राप्त किया जा सकता है। एफ (जेड) इकाई सामान्य घनत्व है (मेरी राय में) फार्मूला प्रस्तुत करने का एक जटिल तरीका क्योंकि एक को अधिक सहज ज्ञान युक्त संकेतन एसडी (एक्स) द्वारा अस्पष्ट च (जेड) में बदल सकता था। 8220 सिग्मा 8221 थैली प्रतिगमन मॉडल की अनुमानित मानक त्रुटि है (आमतौर पर सॉफ़्टवेयर द्वारा रिपोर्ट किया गया है) और अनुमानित रूट के साथ तुलनीय है ओएलएस प्रतिगमन में चुकता त्रुटि। लेकिन चूंकि सिग्मा वाई के वैरिएबल के सेट पर सशर्त वाई का विचरण है और यह बिना शर्त Y के बराबर नहीं होने की जरूरत है, जो हमें जरूरी है, लांग (1997, पीपी। 207-208) का तर्क है कि वाई के बिना शर्त विचरण चाहिए द्विघात रूप से गणना की जा सकती है: जहां Var (x) x8217 के बीच का अनुमानित सह-मैट्रिक्स है और इसके विचलन का एमएल अनुमान है। इस प्रकार, लंबे समय से पता चलता है कि हम फॉर्मूला कोफ (एक्स) एसडी (एक्स) वाई का उपयोग करते हैं हालांकि मानकीकृत गुणांकों को आमतौर पर मनोवैज्ञानिकों द्वारा पसंद किया जाता है, अर्थशास्त्रियों (और विशेषकर अर्थमिति) मानकीकृत गुणांकों को नापसंद करते हैं और संभवत: 8217t इसके उपयोग की सिफारिश करते हैं अंत में, यह ध्यान दिया जाना चाहिए कि ओएलएस नमूना चयन वाले डेटा के साथ असंगत नहीं है (वूल्रिज, 2012, पीपी। 615-616) हम उनके नमूने चयन के सूचक के उदाहरण का पुनः प्रयोग करेंगे। यदि नमूना चयन (एस) अर्थ में यादृच्छिक है कि एस एक्स और यू से स्वतंत्र है, तो OLS निष्पक्ष है। लेकिन ओएलएस निष्पक्ष बनी हुई है, भले ही एस स्पष्टीकरण एक्स वेरिएबल पर निर्भर करता है और अतिरिक्त यादृच्छिक शब्दों जो एक्स और यू से स्वतंत्र हैं। यदि IQ एक महत्वपूर्ण सूचक है, लेकिन कुछ लोगों के लिए गुम है, जैसे IQV और s0 अगर IQV और s0 अगर IQltv, जहां v एक अप्रतिबंधित यादृच्छिक चर है जो IQ, u और अन्य एक्स चर से स्वतंत्र है, फिर, एस अभी भी स्वतंत्र है यू। यह एक आवश्यकता नहीं है कि एस एक्स स्वतंत्र चर के साथ असुरक्षित है, इस शर्त पर कि एक्स चर यू के साथ असंगत हैं क्योंकि इसका अर्थ है कि एस और एक्स के उत्पाद को अवशेषों के साथ असंगठित होना चाहिए u. NOTICE: आईडीईआर सांख्यिकीय सलाहकार समूह नई सामग्री के रखरखाव और सृजन की सुविधा के लिए फरवरी में वेबसाइट को WordPress सीएमएस में माइग्रेट करना होगा। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि उन्हें अब बनाए रखा नहीं जाएगा हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है उपहार देने के लिए स्टेट कंसल्टिंग ग्रुप द्वारा सहायता करें Stata Annotated Output Truncated Regression यह पेज आउटपुट को बताते हुए फूटनोट्स के साथ छांटित प्रतिगमन विश्लेषण का एक उदाहरण दिखाता है। एक छोटा हुआ प्रतिगमन मॉडल इसके वितरण के एक छोटा नमूना नमूने के लिए प्रतिबंधित परिणाम भविष्यवाणी की भविष्यवाणी करता है। उदाहरण के लिए, अगर हम ड्राइविंग की आदतों से लाइसेंस वाले मोटर चालकों की उम्र का अनुमान लगाने की इच्छा रखते हैं, तो हमारा परिणाम चर 16 (यू.एस. में कानूनी ड्राइविंग युग) पर छोटा होता है। जबकि उम्र की आबादी 16 से नीचे हो जाती है, लेकिन जनसंख्या का हमारा नमूना नहीं है। छांटे गए और सेंसर किए गए डेटा के बीच अंतर को ध्यान में रखना महत्वपूर्ण है सेंसर किए गए आंकड़ों के मामले में, माप के पैमाने पर सीमाएं हैं जो हमें इसके कुछ माप के बावजूद निर्भर चर के सही मूल्य जानने से रोकती हैं। कार में स्पीडोमीटर को देखें स्पीडोमीटर गति को 120 मील प्रति घंटे तक माप सकता है, लेकिन 120 मील प्रति घंटे के बराबर या उससे अधिक की गति को 120 मील प्रति घंटे के रूप में पढ़ा जाएगा। इस प्रकार, यदि स्पीडोमीटर गति को 120 मील प्रति घंटे के लिए मापता है, तो कार 120 मील प्रति घंटे या किसी भी अधिक गति से यात्रा कर सकती है - हमें जानने का कोई तरीका नहीं है सेंसर किए गए डेटा परिणाम चर की माप पैमाने पर सीमाओं का सुझाव देते हैं, जबकि छेड़छाड़ किए गए डेटा ब्याज के नमूने में परिणाम चर पर सीमा का सुझाव देते हैं। इस उदाहरण में, हम एक विशेष गेट (प्रतिभाशाली और प्रतिभावान शिक्षा) कार्यक्रम में छात्रों के अध्ययन पर गौर करेंगे। हम लिंग, भाषा कौशल और गणित कौशल (डेटासेट में महिला लैंगसोर और गणित) के एक समारोह के रूप में मॉडल उपलब्धि (अचिव) करना चाहते हैं। एक बड़ी चिंता यह है कि छात्रों को विशेष कार्यक्रम में प्रवेश करने के लिए 40 के न्यूनतम उपलब्धि स्कोर की आवश्यकता होती है। इस प्रकार, नमूना 39 की एक उपलब्धि स्कोर पर छोटा हो गया है। पहले, हम डेटा की जांच कर सकते हैं। अब, हम स्टंट में ट्रिनक्रग कमांड का उपयोग करके एक काटा हुआ प्रतिगमन मॉडल उत्पन्न कर सकते हैं। हम पहले परिणाम चर, फिर भविष्यवाणियों और निचले ऊपरी सीमा को सूचीबद्ध करते हैं। हमारे डेटा को केवल छोड़े गए हैं, इसलिए हम केवल एक निचली सीमा को इंगित करेंगे, ll (40)। कटौती प्रतिगमन आउटपुट ए। (ध्यान दें: 0 श्रृंखलित कटौती) - यह इंगित करता है कि मॉडल में कितने अवलोकन फ़ंक्शन कॉल में दर्शाई गई ऊपरी सीमा से नीचे की सीमा के नीचे या इसके बाद के संस्करण के वैरिएबल मानों का परिणाम था। इस उदाहरण में, यह अवलोकनों की संख्या है जहां एचीव एलटी 40. डेटा सारांश में सूचीबद्ध ऐच्छिव का न्यूनतम मूल्य 41 था, इसलिए शून्य छानबीन काट दिया गया था। ख। फिटिंग पूर्ण मॉडल - यह छोटा कॉपरेट्रेशन मॉडल का पुनरावृत्ति इतिहास है। यह प्रत्येक चलना पर लॉग संभावनाओं को सूचीबद्ध करता है काट दिया प्रतिगमन अधिकतम संभावना अनुमान का उपयोग करता है, जो एक पुनरावृत्ति प्रक्रिया है। पहला पुनरावृत्ति (जिसे Iteration 0 कहा जाता है) लॉगनलॉट या कोटमेपक्वाट मॉडल की संभावना है जो कि कोई मॉडल नहीं है। अगले पुनरावृत्ति (Iteration 1 कहा जाता है) पर, निर्दिष्ट प्रक्षेपक मॉडल में शामिल किए गए हैं। इस उदाहरण में, भविष्यवक्ता महिलाएं, लैंगस्कोर और गणित प्रत्येक पुनरावृत्ति में, लॉग की संभावना बढ़ जाती है क्योंकि लक्ष्य लॉग संभावना को अधिकतम करना है जब लगातार पुनरावृत्तियों के बीच का अंतर बहुत छोटा होता है, तो मॉडल को उद्धृत कर दिया जाता है और पुनरावृत्त बंद हो जाता है। बाइनरी परिणामों के लिए इस प्रक्रिया के बारे में अधिक जानकारी के लिए, जे स्कॉट लांग (पृष्ठ 52-61) द्वारा स्पष्ट और सीमित निर्भर चर के लिए प्रतिगमन मॉडल देखें। सी। कम - यह आउटपुट वेरिएबल के लिए निर्धारित निम्न सीमा इंगित करता है। इस उदाहरण में, निचली सीमा 40 है। घ। ऊपरी - यह परिणाम चर के लिए निर्दिष्ट ऊपरी सीमा को इंगित करता है। इस उदाहरण में, हमने ऊपरी सीमा निर्दिष्ट नहीं की है, इसलिए इसे अनन्त माना जाता है ई। लॉग संभावना - फिट मॉडल की यह लॉग संभावना है यह प्रयोगात्मक अनुपात ची-स्क्वायर परीक्षा में प्रयोग किया जाता है कि क्या मॉडल में सभी भविष्यवाणियों के प्रतिगमन गुणांक एक साथ शून्य हैं। च। Obs की संख्या - यह डेटासेट में अवलोकनों की संख्या है, जहां परिणाम और भविष्यवक्ता चर के सभी में अनुपलब्ध मूल्य हैं। जी। वाल्ड ची 2 (3) - यह वाल्ड ची-स्क्वायर आंकड़े हैं यह परिकल्पना का परीक्षण करने के लिए प्रयोग किया जाता है कि कम से कम एक भविष्यवक्ता प्रतिगमन गुणांक शून्य के बराबर नहीं है। कोष्ठकों में से संख्या ची-स्क्वायर वितरण की आजादी की डिग्री को वाल्ड ची-स्क्वायर आंकड़े का परीक्षण करने के लिए इंगित करती है और मॉडल (3) में भविष्यवाणियों की संख्या से परिभाषित किया गया है। एच। प्रो जीटी ची -2 - रिक्त परिकल्पना के तहत मनाया आंकड़ों की तुलना में वॉल्ड टेस्ट आँकड़ों को चरम के रूप में या उससे अधिक के रूप में प्राप्त करने की संभावना है, शून्य अवधारणा यह है कि दोनों मॉडलों में सभी प्रतिगमन गुणांक एक साथ शून्य के बराबर हैं। दूसरे शब्दों में, यह ची-स्क्वायर आंकड़ा (89.85) प्राप्त करने की संभावना है या फिर एक चरम है अगर वास्तव में भविष्यवक्ता चर का कोई प्रभाव नहीं है। यह पी-मान एक निर्दिष्ट अल्फा स्तर की तुलना में की जाती है, एक प्रकार की त्रुटि को स्वीकार करने की हमारी इच्छा, जो आमतौर पर 0.05 या 0.01 पर सेट है। परीक्षण, एलटी0.0001 से छोटे पी-मान, हमें यह निष्कर्ष निकालना होगा कि मॉडल में कम से कम एक प्रतिगमन गुणांक शून्य के बराबर नहीं है। शून्य परिकल्पना का परीक्षण करने के लिए इस्तेमाल की जाने वाली ची-स्क्वायर वितरण का पैरामीटर, पूर्व पंक्ति में स्वतंत्रता की डिग्री, ची 2 (3) द्वारा परिभाषित किया गया है। मैं। एचीव - यह मॉडल द्वारा पूर्वानुमानित परिणाम चर की भविष्यवाणी है। ञ। Coef। - ये प्रतिगमन गुणांक हैं ओएलएस प्रतिगमन गुणांक के रूप में उन्हें उसी तरीके से व्याख्या किया जाता है: प्रक्षेपक चर में एक इकाई वृद्धि के लिए, प्रतिगमन गुणांक के द्वारा परिणाम परिवर्तनशील परिवर्तनों की अपेक्षित मूल्य, मॉडल में अन्य प्रक्रमक चर को दिया जाता है, निरंतर रखा जाता है। मादा - एक मादा छात्र के लिए अपेक्षित उपलब्धि स्कोर 2,0 9 9 33 इकाइयों को एक नर छात्र के लिए अपेक्षित उपलब्धि स्कोर की तुलना में कम है जबकि मॉडल निरंतर में अन्य सभी पहलुओं को रखते हुए। दूसरे शब्दों में, यदि दो छात्रों, एक महिला और एक पुरुष की समान भाषा और गणित के स्कोर हैं, तो पुरुष की अनुमानित उपलब्धि स्कोर 2.2 9 9 33 इकाइयों की होगी जो महिला छात्र की अनुमानित उपलब्धि स्कोर से अधिक है। लैंगसोर - लैंगसोर में एक यूनिट की वृद्धि के लिए यह अनुमानित प्रतिगमन अनुमान है। दिए गए अन्य चर मॉडल में स्थिर बनाए गए हैं। अगर एक छात्र एक बिंदु से अपने लिंग को बढ़ाने के लिए था, तो उसकी भविष्यवाणी की गई उपलब्धि के स्कोर 5.064698 इकाइयों से बढ़ेगा, जबकि मॉडल स्थिरांक में अन्य पहलुओं को पकड़ते हुए। इस प्रकार, उच्च भाषा के स्कोर वाले छात्रों के पास उच्च परिभाषा प्राप्त करने वाले अंकों की तुलना में कम भाषा के स्कोर वाले छात्रों की तुलना में, अन्य चर निरंतर बनाएंगे। गणित - यह गणित के क्षेत्र में एक इकाई वृद्धि के अनुमानित प्रतिगमन अनुमान है। दिए गए अन्य चर मॉडल में स्थिर बनाए गए हैं। अगर एक छात्र एक अंक से अपने गणित को बढ़ाता है, तो उसकी भविष्यवाणी की उपलब्धि स्कोर 5.004054 इकाइयों से बढ़ेगा, जबकि मॉडल स्थिरांक में अन्य चर को रखते हुए। इस प्रकार, उच्च गणित के स्कोर वाले छात्रों के पास कम गणित के स्कोर वाले छात्रों की तुलना में उपलब्ध उच्च स्तर की भविष्यवाणी की जाएगी, अन्य चर स्थिरता रखने वाले विपक्ष - यह प्रतिगमन अनुमान है जब मॉडल में सभी चर शून्य पर मूल्यांकन किए जाते हैं। लैंगसोर और शून्य के गणित के साथ पुरुष छात्र (शून्य पर मूल्यांकन किए गए चर वाली महिला) के लिए, अनुमानित उपलब्धि स्कोर -0.24 9 4747 है। ध्यान दें कि शून्य पर लैंगसोर और गणित के मूल्यांकन के लिए प्रशंसनीय टेस्ट स्कोर की श्रेणी से बाहर है। कश्मीर। कक्षा। अरे। - ये व्यक्तिगत प्रतिगमन सहगुणकों की मानक त्रुटियां हैं। वे z परीक्षण आंकड़े, सुपरस्क्रिप्ट एल और प्रतिगमन गुणांक के आत्मविश्वास अंतराल, सुपरस्क्रिप्ट n दोनों की गणना में उपयोग किया जाता है। एल। z - परीक्षण आंकड़े z कोइफ़ का अनुपात है। कक्षा में अरे। संबंधित भविष्यवक्ता का Z मान एक मानक सामान्य वितरण का अनुसरण करता है जिसका प्रयोग दो तरफा वैकल्पिक परिकल्पनाओं के खिलाफ परीक्षण करने के लिए किया जाता है जो कोइफ़। शून्य के बराबर नहीं है मीटर। पीजीटीज़ - यह संभावना है कि जेड टेस्ट आँकड़े (या अधिक चरम परीक्षण आँकड़े) को नल परिकल्पना के तहत देखा जायेगा जो कि एक विशेष पूर्वानुमानकर्ता प्रतिगमन गुणांक शून्य है, बशर्ते बाकी प्रक्षेपक मॉडल में हैं। किसी दिए गए अल्फा स्तर के लिए, पीजीटीज़ यह निर्धारित करती है कि रिक्त परिकल्पना को खारिज किया जा सकता है या नहीं। यदि Pgtz अल्फा से कम है, तो शून्य अवधारणा को अस्वीकार कर दिया जा सकता है और पैरामीटर अनुमान उस अल्फा स्तर पर सांख्यिकीय रूप से महत्वपूर्ण माना जाता है। महिला - 0.124 के संबद्ध पी-मान के साथ भविष्यवक्ता महिला के लिए z परीक्षण आंकड़े (-2.2 9 0 9 31.4 9 0333) -1.54 हैं। यदि हम अपने अल्फा स्तर को 0.05 में सेट करते हैं, तो हम नल अवधारणा को अस्वीकार करने में विफल होंगे और यह निष्कर्ष निकालना होगा कि महिला के लिए प्रतिगमन गुणांक शून्य से लैंगसोर और गणित के आंकड़ों से सांख्यिकीय रूप से अलग नहीं पाया गया है। लैंगसकोर - एलटी0.001 के संबद्ध पी-वैल के साथ प्रक्षेपक लैंगस्कोर के लिए z परीक्षण आंकड़े (5.0646981.037769) 4.88 हैं। यदि हम अपने अल्फा स्तर को 0.05 में सेट करते हैं, तो हम नल की अवधारणा को अस्वीकार करते हैं और निष्कर्ष निकालते हैं कि लैंगसोर के लिए प्रतिगमन गुणांक शून्य से दी गई महिला और गणितों से सांख्यिकीय रूप से अलग पाया गया है मॉडल में हैं। गणित - Lt0.001 के संबद्ध पी-मान के साथ predictor mathscore (5.0040540.9555717) 5.24 के लिए z परीक्षण आंकड़े। यदि हम अपने अल्फा स्तर को 0.05 में सेट करते हैं, तो हम नल परिकल्पना को अस्वीकार कर देंगे और यह निष्कर्ष निकालना चाहते हैं कि गणित के लिए प्रतिगमन गुणांक शून्य से दी गई मादा से सांख्यिकीय रूप से भिन्न हो पाया है और लैंगसोर मॉडल में हैं। cons - अवरोधन, विपक्ष के लिए z परीक्षण आंकड़े 0.962 के संबद्ध पी-मान के साथ (-0.29400476.204858) -0.05 है। यदि हम 0.05 पर हमारा अल्फा स्तर निर्धारित करते हैं, तो हम नल की अवधारणा को अस्वीकार करने में असफल रहेंगे और निष्कर्ष निकालना होगा कि विरूद्ध शून्य दे दी महिला से सांख्यिकीय रूप से अलग नहीं पाया गया है। लैंगसोर और मैथ्सकोर मॉडल में हैं और शून्य पर मूल्यांकन किया गया है। एन। 95 Conf अंतराल - यह एक व्यक्तिगत गुणांक के लिए आत्मविश्वास अंतराल (सीआई) है, जो कि अन्य प्रोजेक्टर मॉडल में हैं। 95 आत्मविश्वास के स्तर के साथ दिए गए भविष्यवक्ता के लिए, विद्वान का कहना है कि हम 95 भरोसेमंद हैं कि अंतराल के निचले और ऊपरी सीमा के बीच में क्वाटट्रूक्वोट गुणांक निहित है। यह कोइफ़ के रूप में गणना की जाती है (जेड 9 452) (एसटीडी। एआरआर), जहां z 9 452 मानक सामान्य वितरण पर एक महत्वपूर्ण मूल्य है। सीआई Z परीक्षण आंकड़ों के समतुल्य है: यदि सीआई में शून्य शामिल है, तो विहीन अशक्त अवधारणा को अस्वीकार करने में असफल होता है कि एक विशेष प्रतिगमन गुणांक शून्य है, अन्य प्रोजेक्टर्स मॉडल में हैं। सीआई का एक फायदा यह है कि यह एक उदाहरण प्रदान करता है, जहां यह क्वाटट्रूक्वाट पैरामीटर हो सकता है। ओ। सिग्मा - यह प्रतिगमन के अनुमानित मानक त्रुटि है इस उदाहरण में, मान, 7.73 9 53, मूल अर्थ स्क्वेर एरर के बराबर है जो एक ओएलएस प्रतिगमन में प्राप्त किया जाएगा। अगर हम एक ही परिणाम और भविष्यवाणियों के साथ एक ओएलएस प्रतिगमन चलाते हैं, तो हमारे आरएमएसई 6.8549 होगा। इसका संकेत यह है कि अनुमानित मूल्य से कितना परिणाम भिन्न होता है। सिग्मा काट की गई प्रतिगमन के लिए इस मात्रा का अनुमान लगाया गया है। इस वेब साइट की सामग्री को कैलिफ़ोर्निया यूनिवर्सिटी द्वारा किसी विशेष वेब साइट, किताब या सॉफ़्टवेयर उत्पाद का समर्थन नहीं माना जाना चाहिए। ओएलएस प्रतिगमन एक व्यापक रूप से लागू तकनीक है, और शास्त्रीय प्रतिगमन के कई रूप मौजूद हैं। उनमें से, दबंग और छंटनी हुई रिग्रेसन हैं उनका उपयोग तब किया जाता है जब निर्भर (वाई) चर कुछ मायनों में विवश हो जाता है दोनों एक आम सुविधा है वाई चर को देखा गया चर के बजाय अव्यक्त चर (निरूपित वाई) के रूप में माना जाता है यह क्लासिकल ओएलएस की तुलना में कई जटिलताओं को जन्म देती है। मैंने इस विषय को कवर करने का फैसला किया क्योंकि मैंने अपने पत्र में जीएसएस वर्डॉम परीक्षा में काले-सफेद स्कोर परिवर्तन पर इस तरह के विश्लेषण को लागू किया है। ये तकनीक SPSS में उपलब्ध नहीं हैं एक कारण यह हो सकता है कि इन तकनीकों को मुख्यतः अर्थशास्त्रियों द्वारा उपयोग किया जाता है (जो मुख्य रूप से स्टेटा का उपयोग करते हैं) नहीं, मनोवैज्ञानिकों द्वारा (जो मुख्य रूप से एसपीएसएस का उपयोग करते हैं और शायद इन तकनीकों से अवगत नहीं हो) हालांकि, डेटा सेंसरिंग और डेटा कटौती द्वारा उठाई गई समस्या मनोविज्ञान के क्षेत्र में भी प्रासंगिक है। नीचे के अंत में या इसके वितरण के ऊपरी छोर पर सेंसर किए गए किसी आश्रित चर के लिए तन्य (या सेंसर) प्रतिगमन का प्रस्ताव है। अथवा दोनों। सेंसरिंग अनिवार्य रूप से फर्श और छत के प्रभाव की समस्या है। उदाहरण के लिए, कुछ व्यक्ति एक निश्चित दहलीज मूल्य () पर स्टैक्ड होते हैं क्योंकि वे चर पर उच्च या निम्न स्कोर नहीं कर सकते हैं यह अंतर के कारण हो सकता है कारण परीक्षा बहुत आसान या बहुत मुश्किल हो सकती है लेकिन सेंसरिंग एक अन्य रूप पर ले जा सकता है। एक आय वैरिएबल को श्रेणियों में कोडित किया जा सकता है, उदा। 10,000-20,0000, आदि 8230, लेकिन बहुत अंत में, हमारी पिछली श्रेणी 8220100000 और 8221 जैसी कुछ हो सकती है। इस स्थिति में, चर ऊपरी छोर पर सेंसर है। जैसा कि पहले उल्लेख किया गया है, दोनों के अंत में सेंसर करने के लिए संभव है, और इस मामले में, हम दो-सीमा पर चलने वाली प्रतिगमन (लोअर और ऊपरी सेंसर किए गए मानों के मान को सेट करके) निर्दिष्ट कर रहे हैं लांग (1997, पीपी। 212) -213) एक विकास के लिए उदाहरण के लिए, बीमा कवरेज में, न्यूनतम कवरेज, अधिकतम कवरेज, और बीच में मूल्य है। एक पृथक चर के लिए छांटित प्रतिगमन प्रस्तावित है जिसके लिए इसका वितरण पूरी जनसंख्या का प्रतिनिधि नहीं है। कटौती अनिवार्य रूप से सीमा प्रतिबंध की समस्या है (हालांकि यह रेंज प्रतिबंध के साथ छिद्रण को बराबर करने के लिए गलत है)। उदाहरण के लिए, टिकाऊ सामान खरीदने वाले लोगों के लिए डेटा एकत्र किया जा सकता है। लेकिन जिन लोगों ने इन सामानों को खरीद नहीं किया है, उदा। इस प्रकार उनकी कीमत के स्तर को नीचे (ऊपर की बजाय) से छोटा किया जाना कहा जाता है। यह कहना नहीं है कि ओएलएस पक्षपातपूर्ण है। यह विश्लेषण के लक्ष्य पर निर्भर करता है अगर हम पूरी जनसंख्या के लिए वाई के मूल्य में रुचि रखते हैं, तो ओएलएस पक्षपाती है लेकिन अगर हम केवल हमारे नम्रता में दिलचस्पी रखते हैं, तो ओएलएस (स्टाटा मैनुअल देखें) पर्याप्त है। However, we must be aware that when we omit a portion of the data in this manner, the truncated data points are also missing not at random (because the value of Y for truncated and untruncated observations is different). A graphical representation of censoring and truncation is given by Long (1997) : In Panel A is the 8220latent8221 variable Y that tobit and truncated regressions are trying to estimate (based on the set of independent variables). In censoring, the observations are censored and stacked at zero when 1. But, for truncation, the obervations literally disappear when they are below (or equal to) the threshold value 1. Both techniques use maximum likelihood (ML) to estimate the effect of the changes in independent variables (Xs) on the expected (i. e. 8220potential8221) value of the dependent variable (Y) given a gaussian (i. e. normal) distribution. Because the expected value of the dependent variable is latent (i. e. not observed), it is not possible to obtain standardized coefficients, unless we apply a special procedure (Long, 1997, pp. 207-208). As for tobit, the technique allows a decomposition of the effect of X on the latent Y (i. e. the tobit coefficient) into two parts. the change in the probability of being above the censored value multiplied by the expected value of Y if above plus the change in the expected Y for the cases above the censored value multiplied by the probability of being above the censored value (McDonald amp Moffitt, 1980). Mathematically, the latent Y variable in tobit model is given by : EyXi F(z) x (EyXi) Ey x (F(z)Xi) where F(z) is the proportion of cases (i. e. probability) being above the threshold, EyXi is the change in the expected value of Y for cases above the threshold associated with an independent variable, F(z)Xi is the change in the probability of being above the threshold associated with an independent variable. Long (1997, p. 196) presents the formula in a more intuitive way : E(y) Pr(Uncensored) x E(yygt) Pr(Censored) x E(yy y ) Pr for probability, E(y) for expected y, and ygt for conditional on y above , and y is the value of y if y is censored (in Long8217s book (see p.197) at least). If we are only interested in the changes of the Xs on the latent Y, the coefficients obtained from tobit regression can be interpreted in the same way as those obtained from OLS regression (Roncek, 1992). The formula for truncated regression can be found in Long (1997, p. 194) and in the Stata manual for truncreg function. We haven8217t provided a detailed answer of why OLS is inconsistent with truncated data when our interest focuses on the population estimates. One crucial assumption of OLS regression is the independence of the errors (residuals). The residuals must have mean zero and be uncorrelated with all explanatory variables. The problem here is that truncated data causes the sample selection (s) to be correlated with the error term (u). Wooldridge (2012, pp. 616-617) provides an example with a selection indicator s, i. e. s1 if we observe all of the data or s0 otherwise, where s1 if the Y hat is lower or equal to the threshold (considering that the data is truncated from above). Equivalently, s1 if u-X, where X is a shorthand for 0 1X1 2X2, 8230. This means that the value of s covaries with u. Long (1997) illustrates the consequences of censoring and truncation for OLS estimation with Figure 7.2. The solid line is given by the OLS estimate of Y that is not censored. The long dashed line, OLS with censored data, has a lower intercept and a steeper slope because of the many values set at zero (shown as triangles), just below the threshold horizontal line 1, that pull down the left side of the long dashed line. The short dashed line is given by an OLS estimate with data points below 1 being truncated (i. e. removed) instead of being censored and shows a higher intercept and smaller slope. Figure 7.7 (page 202) also shows in a very simple manner the effects of censoring and truncation. The difference here is that the censoring data points are equal to the threshold rather than being below it. The dots below the threshold 2 are truncated data points. E(yx) in the solid line is the correct estimate. E(yygt2x) is given by the long dashed line. We see that the long dashed line is indistinguishable from the solid line as we move toward the right side, but the long dashed line is above the solid line as we move to the left side. This is because there are few (many) data points truncated at the right (left) side. The long dashed line becomes closer and closer to as we move to the left. We also see there are circles along the horizontal line 2. These are censored data points. The short dashed line represented by E(yx) is slightly below the long dashed line at the left side of the x axis, because the censored cases were not eliminated. Both types of regression require normality and homoscedastic of residuals, even in the case of tobit which always considers a censored distribution to be non-normal. But since the Y variable is not an observable one, we cannot get our residual variable by doing Y minus Y hat because we have to use Y instead of Y. In tobit regression, a complex procedure must be applied to get the generalized residuals and conduct the test of normality (Cameron amp Trivedi, 2009, pp. 535-538). A particular feature of these kinds of regressions is that a standardized coefficient is usually not reported in statistical softwares because its calculation is not straightforward. Normally, the fully standardized coefficients are obtained with the operation coeff(X)SD(Y)SD(X). In the case of tobit regression, Roncek (1992, p. 506) shows that the standardized tobit coefficient can be obtained by coeff(X)f(z)sigma. f(z) is the unit normal density this is (in my opinion) a complicated way of presenting the formula because one could have replaced the ambiguous f(z) by the more intuitive notation SD(X). 8220Sigma8221 is the estimated standard error of the tobit regression model (usually reported by the software) and is comparable with the estimated root mean squared error in OLS regression. But since sigma is the variance of Y conditional on the set of X variables and that it needs not be equal to the unconditional Y which is what we need, Long (1997, pp. 207-208) argues that the unconditional variance of Y should be computed with the quadratic form : where Var(x) is the estimated covariance matrix among the x8217s and is the ML estimate of the variance of . Thus, Long suggests we use the formula coeff(X)SD(X) y . Even though the standardized coefficients seem usually preferred by psychologists, the economists (and particularly econometricians) dislike standardized coefficients and probably won8217t recommend its use. Finally, it should be noted that OLS is not always inconsistent with data having sample selection (Wooldridge, 2012, pp. 615-616). We will re-use his example of the s indicator of sample selection. If sample selection (s) is random in the sense that s is independent of X and u, the OLS is unbiased. But OLS remains unbiased even if s depends on explanatory X variables and additional random terms that are independent of X and u. If IQ is an important predictor but is missing for some people, such that s1 if IQv and s0 if IQltv, where v is an unobserved random variable that is independent of IQ, u and the other X variables, then, s is still independent of u. It is not a requirement that s is uncorrelated with X independent variables, on the condition that X variables are uncorrelated with u because it implies that the product of s and X must also be uncorrelated with the residuals u.

Comments

Popular posts from this blog

साम्राज्य - थिएटर - bowral - सत्र - बार - विदेशी मुद्रा

औसत दैनिक दूरी - विदेशी मुद्रा - जोड़े -2014- जीएमसी

परिभाषा - परवलयिक - सर - विदेशी मुद्रा