Section author: Danielle J. Navarro and David R. Foxcroft

மாதிரி சோதனை

இந்த பிரிவின் முக்கிய கவனம் ** பின்னடைவு கண்டறிதல் ** ஆகும், இது உங்கள் பின்னடைவு மாதிரியின் அனுமானங்கள் நிறைவு செய்யப்பட்டுள்ளதா, அனுமானங்கள் மீறப்பட்டால் மாதிரியை எவ்வாறு சரிசெய்வது என்பதைக் கண்டுபிடிப்பது, பொதுவாகச் சரிபார்க்கும் கலையை குறிக்கிறது “வேடிக்கையானது” எதுவும் நடக்காது என்பதை சரிபார்க்கவும். இதை நான் நல்ல காரணத்துடன் மாதிரி சோதனையின் “கலை” என்று குறிப்பிடுகிறேன். இது எளிதானது அல்ல, மேலும் உங்கள் மாதிரியைக் கண்டறியவும், குணப்படுத்தவும் நீங்கள் பயன்படுத்தக்கூடிய நிறைய தரப்படுத்தப்பட்ட கருவிகள் உள்ளன (ஏதேனும் இருந்தால், அதாவது!), நீங்கள் உண்மையில் ஒரு குறிப்பிட்ட தொகையை உடற்பயிற்சி செய்ய வேண்டும் இதைச் செய்யும்போது தீர்ப்பு. இந்த விசயத்தை அல்லது அந்த விசயத்தை சரிபார்க்கும் அனைத்து விவரங்களிலும் தொலைந்து போவது எளிதானது, மேலும் எல்லா வித்தியாசமான விசயங்களும் என்ன என்பதை நினைவில் வைக்க முயற்சிப்பது மிகவும் சோர்வாக இருக்கிறது. * அனைத்து * கருவிகளையும் கற்றுக்கொள்ள முயற்சிக்கும்போது நிறைய பேர் விரக்தியடைவார்கள், எனவே அதற்கு பதிலாக அவர்கள் * எந்த * மாதிரி சரிபார்ப்பையும் செய்ய வேண்டாம் என்று முடிவு செய்கிறார்கள். இது கொஞ்சம் கவலை!

இந்த பிரிவில், உங்கள் பின்னடைவு மாதிரி என்ன செய்ய வேண்டும் என்பதைச் சரிபார்க்க நீங்கள் செய்யக்கூடிய பல்வேறு விசயங்களை நான் விவரிக்கிறேன். இது நீங்கள் செய்யக்கூடிய விசயங்களின் முழு இடத்தையும் மறைக்காது, ஆனால் நடைமுறையில் நிறைய பேர் செய்வதை நான் காணுவதை விட இது இன்னும் விரிவானது, மேலும் எனது அறிமுக புள்ளிவிவர வகுப்பிலும் இவை அனைத்தையும் நான் வழக்கமாக மறைக்க மாட்டேன். இருப்பினும், உங்கள் வசம் என்ன கருவிகள் உள்ளன என்பதைப் புரிந்துகொள்வது முதன்மை என்று நான் நினைக்கிறேன், எனவே அவற்றில் ஒரு சிலவற்றை இங்கே அறிமுகப்படுத்த முயற்சிக்கிறேன். இறுதியாக, இந்த பிரிவு மிகவும் பெரிதும் ஈர்க்கிறது என்பதை நான் கவனிக்க வேண்டும்: ref: ஃபாக்ச் மற்றும் வெயிச்பெர்க் (2011) <fox_2011>, ஆர். பின்னடைவு கண்டறிதலுக்கான சில சிறந்த கருவிகளை வழங்குவதில் கார் தொகுப்பு குறிப்பிடத்தக்கது, மேலும் புத்தகமே அவற்றைப் பற்றி ஒரு தெளிவான பாணியில் பேசுகிறது. நான் இதைப் பற்றி அதிகம் ஒலிக்க விரும்பவில்லை, ஆனால் நான் நினைக்கிறேன்: குறிப்பு: ஃபாக்ச் மற்றும் வெயிச்பெர்க் (2011) <fox_2011> சில மேம்பட்ட கண்டறியும் நுட்பங்கள் ஆர் மற்றும் ஆர் மற்றும் ஆர் மற்றும் ஆர் மற்றும் மற்றும் வாசிப்பு மதிப்புக்குரியது என்றாலும் கூட சமோவி அல்ல.

மூன்று வகையான எச்சங்கள்

பின்னடைவு கண்டறிதல்கள் பெரும்பாலானவை எச்சங்களைப் பார்ப்பதைச் சுற்றி வருகின்றன, இப்போது நீங்கள் புள்ளிவிவரங்களின் போதுமான அவநம்பிக்கையான கோட்பாட்டை உருவாக்கியிருக்கலாம், அதை யூகிக்க முடியும், துல்லியமாக * ஏனெனில் * எஞ்சியதைப் பற்றி நாங்கள் அதிகம் அக்கறை காட்டுகிறோம், அங்கு, நாம் கருத்தில் கொள்ளக்கூடிய பல்வேறு வகையான எஞ்சியவை. குறிப்பாக, பின்வரும் மூன்று வகையான எச்சங்கள் இந்த பிரிவில் குறிப்பிடப்படுகின்றன: “சாதாரண எச்சங்கள்”, “தரப்படுத்தப்பட்ட எச்சங்கள்” மற்றும் “மாணவர் எஞ்சியவை”. சில புள்ளிவிவரங்களில் நீங்கள் குறிப்பிடப்படும் நான்காவது வகை உள்ளது, அதுதான் “பியர்சன் எஞ்சியவை”. இருப்பினும், இந்த அத்தியாயத்தில் நாம் பேசும் மாதிரிகளுக்கு, பியர்சன் எச்சம் சாதாரண எச்சத்திற்கு ஒத்ததாக இருக்கிறது.

நாங்கள் அக்கறை கொள்ளும் முதல் மற்றும் எளிமையான எச்சங்கள் ** சாதாரண எச்சங்கள் **. இந்த அத்தியாயம் முழுவதும் நான் பேசிக் கொண்டிருந்த உண்மையான மூல எச்சங்கள் இவை. சாதாரண எச்சம் பொருத்தப்பட்ட மதிப்புக்கு இடையேயான வேறுபாடு *ŷ *: துணை: நான் மற்றும் கவனிக்கப்பட்ட மதிப்பு *y *: sub:` i`. நான் ε : sub: நான் நான் `ஐ-வது சாதாரண எச்சத்தைக் குறிப்பிடுகிறேன், கம் மூலம் நான் அதனுடன் ஒட்டிக்கொள்ளப் போகிறேன். இதைக் கருத்தில் கொண்டு, நம்மிடம் மிகவும் எளிமையான சமன்பாடு உள்ளது:

ε_i = Y_i - Ŷ_i

இது நிச்சயமாக நாங்கள் முன்பு பார்த்தது, வேறு சில வகையான எஞ்சியவற்றைக் குறிப்பிடாவிட்டால், இதுதான் நான் பேசுகிறேன். எனவே இங்கே புதிதாக எதுவும் இல்லை. நான் என்னை மீண்டும் செய்ய விரும்பினேன். சாதாரண எச்சங்களைப் பயன்படுத்துவதில் ஒரு குறைபாடு என்னவென்றால், அவை எப்போதும் வேறு அளவில் இருக்கும், விளைவு மாறி என்றால் என்ன, பின்னடைவு மாதிரி எவ்வளவு நல்லது என்பதைப் பொறுத்து. அதாவது, இடைமறிப்பு காலப்படி இல்லாமல் பின்னடைவு மாதிரியை இயக்க நீங்கள் முடிவு செய்தாலொழிய, சாதாரண எச்சங்கள் சராசரி 0 ஐக் கொண்டிருக்கும், ஆனால் ஒவ்வொரு பின்னடைவுக்கும் மாறுபாடு வேறுபட்டது. நிறைய சூழல்களில், குறிப்பாக நீங்கள் எச்சங்களின்*வடிவத்தில் மட்டுமே ஆர்வமாக உள்ளீர்கள், அவற்றின் உண்மையான மதிப்புகள் அல்ல, ** தரப்படுத்தப்பட்ட எச்சங்கள் ** ஐ மதிப்பிடுவது வசதியானது, அவை தரமானதாக இருக்கும் வகையில் இயல்பாக்கப்படுகின்றன விலகல் 1.

இவற்றைக் கணக்கிடும் வழி, இந்த எச்சங்களின் (மக்கள் தொகை) நிலையான விலகலின் மதிப்பீட்டால் சாதாரண எச்சத்தை பிரிப்பதாகும். தொழில்நுட்ப காரணங்களுக்காக, முணுமுணுப்பு முணுமுணுப்பு, இதற்கான சூத்திரம்:

ε_i' = \(\frac{\epsilon_i}{\hat{\sigma} \sqrt{1-h_i}}\)

எங்கே: கணிதம்: தொப்பி சிக்மா இந்த சூழலில் சாதாரண எச்சங்களின் மதிப்பிடப்பட்ட மக்கள்தொகை நிலையான விலகல், மற்றும் h : துணை:` நான் *i *-th அவதானிப்பின் “தொப்பி மதிப்பு”. நான் இன்னும் தொப்பி மதிப்புகளை உங்களுக்கு விளக்கவில்லை (ஆனால் அச்சம் இல்லை, [#] _ இது விரைவில் வருகிறது), எனவே இது நிறைய அர்த்தத்தை ஏற்படுத்தாது. இப்போதைக்கு, தரப்படுத்தப்பட்ட எச்சங்களை நாம் சாதாரண எச்சங்களை *z *-ச்கோர்களாக மாற்றுவது போல விளக்கினால் போதும். உண்மையில், இது உண்மையை அதிகமாகவோ அல்லது குறைவாகவோ இல்லை, நாங்கள் கொஞ்சம் ஆர்வமாக இருக்கிறோம்.

மூன்றாவது வகையான எச்சங்கள் ** மாணவர்களின் எச்சங்கள் ** (“சாக்னிஃப்ட் எஞ்சியவர்கள்” என்றும் அழைக்கப்படுகின்றன) மற்றும் அவை தரப்படுத்தப்பட்ட எச்சங்களை விட ஆர்வமாக உள்ளன. மீண்டும், மீதமுள்ள சில தரப்படுத்தப்பட்ட கருத்தை மதிப்பிடுவதற்காக சாதாரண எஞ்சியவற்றை எடுத்து அதை ஓரளவு பிரிக்க வேண்டும் என்பதே சிந்தனை.

இந்த நேரத்தில் கணக்கீடுகளைச் செய்வதற்கான தேற்றம் நுட்பமாக வேறுபட்டது

\[\epsilon_{i}^* = \frac{\epsilon_i}{\hat{\sigma}_{(-i)} \sqrt{1-h_i}}\]

இங்கே நிலையான விலகல் பற்றிய எங்கள் மதிப்பீடு எழுதப்பட்டிருப்பதைக் கவனியுங்கள்: கணிதம்: தொப்பி {சிக்மா} _ {(-i)}. தரவுத் தொகுப்பிலிருந்து i th அவதானிப்பை நீக்கியால், நீங்கள் பெற்றிருக்கும் மீதமுள்ள நிலையான விலகலின் மதிப்பீடு இது. இது கணக்கிட ஒரு கனவாக இருக்கும், ஏனெனில் நீங்கள் * n * புதிய பின்னடைவு மாதிரிகளை இயக்க வேண்டும் என்று கூறுவதாகத் தெரிகிறது (ஒரு நவீன கணினி கூட கொஞ்சம் முணுமுணுக்கக்கூடும், குறிப்பாக உங்களுக்கு கிடைத்திருந்தால் ஒரு பெரிய தரவு தொகுப்பு). அதிர்ச்டவசமாக, சில பயங்கரமான புத்திசாலித்தனமான நபர் இந்த நிலையான விலகல் மதிப்பீடு உண்மையில் பின்வரும் சமன்பாட்டால் வழங்கப்படுகிறது என்பதைக் காட்டியுள்ளார்:

\[\hat\sigma_{(-i)} = \hat{\sigma} \ \sqrt{\frac{N-K-1 - {\epsilon_{i}^\prime}^2}{N-K-2}}\]

அது ஒரு குழாய் இல்லையா?

நகர்வதற்கு முன், இந்த எச்சங்களை நீங்கள் அடிக்கடி பெற வேண்டிய அவசியமில்லை என்பதை நான் சுட்டிக்காட்ட வேண்டும், அவை கிட்டத்தட்ட எல்லா பின்னடைவு கண்டறியும் இதயத்திலும் இருந்தாலும். கண்டறியும் அல்லது அனுமான சோதனைகளை வழங்கும் பல்வேறு விருப்பங்கள் உங்களுக்காக இந்த கணக்கீடுகளை கவனித்துக்கொள்ளும். அப்படியிருந்தும், நீங்கள் எப்போதாவது தரமற்ற ஒன்றைச் செய்ய வேண்டியிருந்தால், இந்த விசயங்களை எவ்வாறு நீங்களே வைத்திருப்பது என்பதை அறிந்து கொள்வது எப்போதுமே மகிழ்ச்சியாக இருக்கிறது.

மூன்று வகையான ஒழுங்கற்ற தரவு

நேரியல் பின்னடைவு மாதிரிகளுடன் நீங்கள் இயக்கக்கூடிய ஒரு இடர் என்னவென்றால், உங்கள் பகுப்பாய்வு ஒரு சிறிய எண்ணிக்கையிலான “அசாதாரண” அல்லது “முரண்பாடான” அவதானிப்புகளுக்கு விகிதாசாரமாக உணர்திறன் கொண்டதாக இருக்கலாம். இந்த யோசனையை நான் முன்பு உட்பிரிவில் விவாதித்தேன்: ren: வெளியீட்டாளர்களைக் கண்டறிய பெட்டி அடுக்குகளைப் பயன்படுத்துதல் <box_plots_detect_outliers> `` ஆய்வு` `` `` `` `` `` பெட்டி சதி`` விருப்பத்தால் தானாக அடையாளம் காணப்படும் வெளிநாட்டினரைப் பற்றி விவாதிக்கும் சூழலில் விளக்கங்கள்``, ஆனால் இந்த நேரத்தில் நாம் மிகவும் துல்லியமாக இருக்க வேண்டும். நேரியல் பின்னடைவின் சூழலில், ஒரு அவதானிப்பு "முரண்பாடு" என்று அழைக்கப்படும் மூன்று கருத்தியல் ரீதியாக வேறுபட்ட வழிகள் உள்ளன. மூன்றும் சுவாரச்யமானவை, ஆனால் அவை உங்கள் பகுப்பாய்விற்கு வேறுபட்ட தாக்கங்களைக் கொண்டுள்ளன.

முதல் வகையான அசாதாரண அவதானிப்பு ஒரு ** வெளிநாட்டவர் **. ஒரு வெளிநாட்டவரின் வரையறை (இந்த சூழலில்) பின்னடைவு மாதிரி கணித்ததிலிருந்து மிகவும் வேறுபட்ட ஒரு அவதானிப்பாகும். ஒரு எடுத்துக்காட்டு இதில் காட்டப்பட்டுள்ளது: NumRef: Fig-outlier. நடைமுறையில், ஒரு வெளிநாட்டவர் என்பது மிகப் பெரிய மாணவர் எஞ்சியிருக்கும் ஒரு அவதானிப்பு என்று கூறி இந்த கருத்தை நாங்கள் செயல்படுத்துகிறோம், ε : துணை: நான் : sup:`*. வெளியீட்டாளர்கள் சுவாரச்யமானவர்கள்: ஒரு பெரிய வெளிநாட்டவர் * குப்பை தரவுகளுடன் ஒத்திருக்கலாம், எ.கா., தரவுத் தொகுப்பில் மாறிகள் தவறாக பதிவு செய்யப்பட்டிருக்கலாம் அல்லது வேறு சில குறைபாடுகள் கண்டறியப்படலாம். இது ஒரு வெளிநாட்டவர் என்பதால் நீங்கள் ஒரு கவனிப்பை தூக்கி எறியக்கூடாது என்பதை நினைவில் கொள்க. ஆனால் இது ஒரு வெளிநாட்டவர் என்பது பெரும்பாலும் அந்த விசயத்தை மிகவும் நெருக்கமாகப் பார்த்து, அது ஏன் மிகவும் வித்தியாசமானது என்பதைக் கண்டுபிடிக்க முயற்சிப்பது பெரும்பாலும் ஒரு குறிப்பாகும்.

வெளிநாட்டவர்கள் மற்றும் அவற்றின் விளைவு — Fig. 122 வெளியீட்டாளர்களின் விளக்கம்: புள்ளியிடப்பட்ட கோடுகள் சேர்க்கப்பட்ட ஒழுங்கற்ற கண்காணிப்பு இல்லாமல் மதிப்பிடப்பட்ட பின்னடைவு கோட்டை சூழ்ச்சி செய்கின்றன, மேலும் அதனுடன் தொடர்புடைய எஞ்சியவை (அதாவது, மாணவர் எஞ்சியவை). திடமான வரி சேர்க்கப்பட்ட முரண்பாடான கண்காணிப்புடன் பின்னடைவு கோட்டைக் காட்டுகிறது. வெளிநாட்டவர் விளைவு (y அச்சு இருப்பிடம்) மீது அசாதாரண மதிப்பைக் கொண்டுள்ளது, ஆனால் முன்கணிப்பு (x அச்சு இருப்பிடம்) அல்ல, மேலும் பின்னடைவு வரியிலிருந்து நீண்ட தூரம் உள்ளது.

அதிக அந்நிய புள்ளிகள் மற்றும் அவற்றின் விளைவு — Fig. 123 உயர் அந்நியச் செலாவணி புள்ளிகளின் விளக்கம்: இந்த விசயத்தில் முரண்பாடான அவதானிப்பு முன்கணிப்பு (x அச்சு) மற்றும் விளைவு (y அச்சு) ஆகியவற்றின் அடிப்படையில் அசாதாரணமானது, ஆனால் இந்த அசாதாரணமானது மற்ற அவதானிப்புகளிடையே இருக்கும் தொடர்புகளின் வடிவத்துடன் மிகவும் ஒத்துப்போகிறது. அவதானிப்பு பின்னடைவு கோட்டிற்கு மிக அருகில் விழுந்து அதை சிதைக்காது.

ஒரு அவதானிப்பு அசாதாரணமானதாக இருக்கக்கூடிய இரண்டாவது வழி, அது அதிக ** அந்நியச் செலாவணி ** ஐக் கொண்டிருந்தால், மற்ற எல்லா அவதானிப்புகளிலிருந்தும் அவதானிப்பு மிகவும் வித்தியாசமாக இருக்கும்போது நிகழ்கிறது. இது ஒரு பெரிய எச்சத்துடன் ஒத்துப்போக வேண்டிய அவசியமில்லை. எல்லா மாறிகளிலும் துல்லியமாக அதே வழியில் அவதானிப்பு அசாதாரணமானது என்றால், அது உண்மையில் பின்னடைவு வரிக்கு மிக நெருக்கமாக இருக்கும். இதற்கு ஒரு எடுத்துக்காட்டு இதில் காட்டப்பட்டுள்ளது: NumRef: Fig-leverage. ஒரு அவதானிப்பின் அந்நியச் செலாவணி அதன் *தொப்பி மதிப்பின் அடிப்படையில் செயல்படுத்தப்படுகிறது, பொதுவாக எழுதப்பட்ட h : துணை: i. தொப்பி மதிப்பிற்கான தேற்றம் மிகவும் சிக்கலானது, [#] _ ஆனால் அது விளக்கம் இல்லை: H : துணை: `நான் *i *-th அவதானிப்பு எந்த அளவிற்கு“ கட்டுப்பாட்டில் ”உள்ளது என்பதற்கான ஒரு அளவீடு பின்னடைவு வரி செல்லும் இடத்தில்.

பொதுவாக, முன்கணிப்பு மாறிகள் அடிப்படையில் ஒரு அவதானிப்பு மற்றவற்றிலிருந்து வெகு தொலைவில் இருந்தால், அது ஒரு பெரிய தொப்பி மதிப்பைக் கொண்டிருக்கும் (ஒரு கடினமான வழிகாட்டியாக, தொப்பி மதிப்பு சராசரியை விட 2 - 3 மடங்கு அதிகமாக இருக்கும்போது அதிக அந்நியச் செலாவணி; தொப்பி மதிப்புகளின் தொகை * k * + 1 க்கு சமமாக இருக்க வேண்டும் என்பதை நினைவில் கொள்க). அதிக அந்நியச் செலாவணி புள்ளிகளும் இன்னும் விரிவாகப் பார்க்க வேண்டியவை, ஆனால் அவை வெளிநாட்டவர்களாக இல்லாவிட்டால் அவை கவலைக்கு ஒரு காரணமாக இருப்பதற்கான வாய்ப்புகள் மிகக் குறைவு.

அதிக செல்வாக்கு புள்ளிகள் மற்றும் அவற்றின் விளைவு — Fig. 124 அதிக செல்வாக்கு புள்ளிகளின் விளக்கம்: இந்த விசயத்தில், முன்கணிப்பு மாறியில் (எக்ச் அச்சு) முரண்பாடான அவதானிப்பு மிகவும் அசாதாரணமானது, மேலும் பின்னடைவு வரியிலிருந்து நீண்ட தூரம் விழுகிறது. இதன் விளைவாக, பின்னடைவு வரி மிகவும் சிதைந்துவிட்டது, (இந்த விசயத்தில்) முரண்பாடான அவதானிப்பு விளைவு மாறியின் (Y அச்சு) அடிப்படையில் முற்றிலும் பொதுவானது.

இது எங்கள் மூன்றாவது சிறப்பான, ஒரு அவதானிப்பின் ** செல்வாக்கு ** க்கு நம்மை அழைத்துச் செல்கிறது. அதிக செல்வாக்கு கண்காணிப்பு என்பது அதிக அந்நியச் செலாவணியைக் கொண்ட ஒரு வெளிநாட்டவர். அதாவது, இது ஒரு அவதானிப்பாகும், இது மற்ற எல்லா இடங்களுக்கும் மிகவும் வித்தியாசமானது, மேலும் பின்னடைவு வரியிலிருந்து நீண்ட தூரம் உள்ளது. இது இதில் விளக்கப்பட்டுள்ளது: NumRef: Fig-CONFLUENCE. முந்தைய இரண்டு புள்ளிவிவரங்களுக்கு மாறுபாட்டைக் கவனியுங்கள். வெளியீட்டாளர்கள் பின்னடைவு வரியை அதிகம் நகர்த்த மாட்டார்கள், மேலும் அதிக அந்நியச் செலாவணி புள்ளிகள் இல்லை. ஆனால் ஒரு வெளிநாட்டவர் மற்றும் அதிக அந்நியச் செலாவணி ஆகியவற்றைக் கொண்ட ஒன்று, இது பின்னடைவு வரியில் ஒரு பெரிய விளைவைக் கொண்டுள்ளது. அதனால்தான் இந்த புள்ளிகள் அதிக செல்வாக்கு என்று நாங்கள் அழைக்கிறோம், அதனால்தான் அவை மிகப்பெரிய கவலை. ** குக்கின் தூரம் ** எனப்படும் ஒரு நடவடிக்கையின் அடிப்படையில் நாங்கள் செல்வாக்கை செயல்படுத்துகிறோம்.

\[D_i = \frac{{\epsilon_i^*}^2 }{K+1} \times \frac{h_i}{1-h_i}\]

இது அவதானிப்பின் வெளிநாட்டவர் (இடதுபுறத்தில் பிட்) அளவிடும் ஒன்றின் பெருக்கம் என்பதைக் கவனியுங்கள், மேலும் அவதானிப்பின் திறனை அளவிடும் ஒன்று (வலதுபுறத்தில் பிட்).

ஒரு பெரிய சமையல்காரரின் தூரம் இருக்க ஒரு அவதானிப்பு மிகவும் கணிசமான வெளிநாட்டவராக இருக்க வேண்டும் * மற்றும் * அதிக அந்நியச் செலாவணியைக் கொண்டிருக்க வேண்டும். ஒரு கடினமான வழிகாட்டியாக, குக்கின் தூரம் 1 ஐ விட அதிகமாக பெரியதாகக் கருதப்படுகிறது (இதுதான் நான் பொதுவாக விரைவான மற்றும் அழுக்கான விதியாகப் பயன்படுத்துகிறேன்).

சாமோவியில், `` அனுமான காசோலைகள்` `` தரவு சுருக்கம்`` விருப்பங்களில் `` சமையல்காரரின் தூரம்`` தேர்வுப்பெட்டியைக் சொடுக்கு செய்வதன் மூலம் குக்கின் தூரத்தைப் பற்றிய தகவல்களைக் கணக்கிட முடியும். நீங்கள் இதைச் செய்யும்போது, இந்த அத்தியாயத்தில் நாங்கள் ஒரு எடுத்துக்காட்டு எனப் பயன்படுத்திக் கொண்டிருக்கும் பல பின்னடைவு மாதிரிக்கு, காட்டப்பட்டுள்ளபடி முடிவுகளைப் பெறுவீர்கள்: numref: fig-reg4 .

Fig. 125 குக்கின் தூர புள்ளிவிவரங்களுக்கான அட்டவணையைக் காட்டும் சாமோவி வெளியீடு

இந்த எடுத்துக்காட்டில், சராசரி சமையல்காரரின் தூர மதிப்பு 0.01, மற்றும் வரம்பு 0.00000262 முதல் 0.11 வரை இருப்பதை நீங்கள் காணலாம், எனவே இது ஒரு சமையல்காரரின் தூரம் 1 ஐ விட பெரியதாகக் கருதப்படுகிறது.

அடுத்து கேட்க ஒரு வெளிப்படையான கேள்வி என்னவென்றால், உங்களிடம் குக்கின் தூரத்தின் பெரிய மதிப்புகள் இருந்தால் நீங்கள் என்ன செய்ய வேண்டும்? எப்போதும் போல, கடினமான மற்றும் வேகமான விதி இல்லை. மிகப் பெரிய சமையல்காரரின் தூரத்துடன் வெளிப்புற நபருடன் பின்னடைவை இயக்க முயற்சிப்பது [#] _ விலக்கப்பட்டு, மாதிரி செயல்திறனுக்கும் பின்னடைவு குணகங்களுக்கும் என்ன நடக்கிறது என்பதைப் பாருங்கள். அவை உண்மையிலேயே கணிசமாக வேறுபட்டவை என்றால், உங்கள் தரவுத் தொகுப்பைத் தோண்டத் தொடங்குவதற்கான நேரம் இது மற்றும் உங்கள் குறிப்புகள் உங்கள் ஆய்வை இயக்கியதால் நீங்கள் எழுதுகிறீர்கள் என்பதில் சந்தேகமில்லை. * ஏன் * புள்ளி மிகவும் வித்தியாசமானது என்பதைக் கண்டுபிடிக்க முயற்சி செய்யுங்கள். இந்த ஒரு தரவு புள்ளி உங்கள் முடிவுகளை மோசமாக சிதைக்கிறது என்று நீங்கள் உறுதியாக நம்பத் தொடங்கினால், அதைத் தவிர்ப்பதை நீங்கள் கருத்தில் கொள்ளலாம், ஆனால் இந்த குறிப்பிட்ட வழக்கு ஏன் மற்றவர்களிடமிருந்து தர ரீதியாக வேறுபட்டது என்பதற்கு உங்களுக்கு உறுதியான விளக்கம் இல்லாவிட்டால் அது இலட்சியத்தை விடக் குறைவானது, எனவே இருக்க தகுதியானது தனித்தனியாக கையாளப்படுகிறது.

எச்சங்களின் இயல்பான தன்மையை சரிபார்க்கிறது

இந்த புத்தகத்தில் நாங்கள் விவாதித்த பல புள்ளிவிவர கருவிகளைப் போலவே, பின்னடைவு மாதிரிகள் ஒரு இயல்பான அனுமானத்தை நம்பியுள்ளன. இந்த வழக்கில், எச்சங்கள் பொதுவாக விநியோகிக்கப்படுகின்றன என்று நாங்கள் கருதுகிறோம். நாம் செய்யக்கூடிய முதல் சேதி `` அனுமான காசோலைகள்` `` Q-Q எச்சங்கள் `விருப்பத்தின் வழியாக QQ- அடுக்கை வரைய வேண்டும்.

வெளியீடு இதில் காட்டப்பட்டுள்ளது: NUMREF: Fig-reg5, பின்னடைவு மாதிரியின் படி அவற்றின் தத்துவார்த்த அளவுகளின் செயல்பாடாக திட்டமிடப்பட்ட தரப்படுத்தப்பட்ட எச்சங்களை காட்டுகிறது.

தரப்படுத்தப்பட்ட எச்சங்களுக்கு எதிரான மாதிரியின் படி அளவுகள் — Fig. 126 சமோவியில் விளைவாக்கம் செய்யப்படும் தரப்படுத்தப்பட்ட எச்சங்களின் அளவுகளுக்கு எதிராக, மாதிரியின் படி தத்துவார்த்த அளவுகளின் சூழ்ச்சி

நாம் சரிபார்க்க வேண்டிய மற்றொரு சேதி, பொருத்தப்பட்ட மதிப்புகளுக்கும் எச்சங்களுக்கும் இடையிலான உறவு. ஒவ்வொரு முன்கணிப்பு மாறி, விளைவு மாறி மற்றும் எஞ்சியவர்களுக்கு எதிராக பொருத்தப்பட்ட மதிப்புகள் ஆகியவற்றிற்கும் ஒரு சிதறல் பிளாட் வழங்கும் `` எச்சங்கள் அடுக்கு` விருப்பத்தைப் பயன்படுத்தி இதைச் செய்ய சாமோவியைப் பெறலாம், பார்க்க: எண்: Fig-reg6. இந்த அடுக்குகளில், “புள்ளிகளின்” தெளிவான கொத்து அல்லது வடிவமைத்தல் இல்லாமல், “புள்ளிகளின்” ஒரே மாதிரியான விநியோகத்தை நாங்கள் தேடுகிறோம். இந்த அடுக்குகளைப் பார்க்கும்போது, புள்ளிகள் முழு சதித்திட்டத்திலும் மிகவும் சமமாக பரவுவதால் குறிப்பாக கவலைப்படவில்லை. வலது பேனலில் சீரான தன்மை இல்லாதது கொஞ்சம் இருக்கலாம், ஆனால் இது ஒரு வலுவான விலகல் அல்ல, அதைப் பற்றி கவலைப்படத் தகுதியற்றது.

Fig. 127 சமோவியில் விளைவாக்கம் செய்யப்படும் எஞ்சிய இடங்கள்

நாங்கள் கவலைப்பட்டால், பல சந்தர்ப்பங்களில் இந்த சிக்கலுக்கான தீர்வு (மற்றும் பலர்) ஒன்று அல்லது அதற்கு மேற்பட்ட மாறிகளை மாற்றுவதாகும். பிரிவுகளில் மாறி மாற்றத்தின் அடிப்படைகளை நாங்கள் விவாதித்தோம்: டாக்: ../ ch06/ch06_datahandling_3 மற்றும்: டாக்:` ../ ch06/ch06_datahandling_4` டி முழுமையாக விளக்குகிறது: பாக்ச்-காக்ச் உருமாற்றம்.

பாக்ச்-காக்ச் செயல்பாடு மிகவும் எளிமையானது, இது மிகவும் பரவலாகப் பயன்படுத்தப்படுகிறது.

\[f(x,\lambda) = \frac{x^\lambda - 1}{\lambda}\]

λ = 0 தவிர of இன் அனைத்து மதிப்புகளுக்கும். λ = 0 போது நாம் இயற்கையான மடக்கை எடுத்துக்கொள்கிறோம் (அதாவது, *ln *(x)).

சாமோவியில் உள்ள `` கம்ப்யூட்` மாறுபாடுகள் திரையில் `` பாக்ச் காக்ச்` செயல்பாட்டைப் பயன்படுத்தி அதைக் கணக்கிடலாம்.

COLINEARITY ஐ சரிபார்க்கிறது

இந்த அத்தியாயத்தில் நான் விவாதிக்கப் போகும் கடைசி வகையான பின்னடைவு நோயறிதல் ** மாறுபாடு பணவீக்க காரணிகள் ** (விஐஎஃப்எச்) ஐப் பயன்படுத்துவதாகும், அவை உங்கள் பின்னடைவு மாதிரியில் உள்ள முன்னறிவிப்பாளர்கள் மிகவும் தொடர்புபடுத்தப்பட்டுள்ளார்களா இல்லையா என்பதை தீர்மானிக்க பயனுள்ளதாக இருக்கும் ஒருவருக்கொருவர். ஒவ்வொரு முன்கணிப்பாளருடன் தொடர்புடைய மாறுபாடு பணவீக்க காரணி உள்ளது *x *: துணை: k மாதிரியில்.

K-TH VIF க்கான சூத்திரம்:

VIF_k = 1 / (1 - R²_(-k))

எங்கே *r *² : sub: (-k) என்பது *r *-squared மதிப்பைக் குறிக்கிறது *x *: துணை: k விளைவு மாறியாகவும், மற்றும் அனைத்தும் முன்னறிவிப்பாளர்களாக மற்ற * ஃச் * மாறிகள். இங்கே சிந்தனை என்னவென்றால், *r *² : துணை: (-k) என்பது *x *: துணை: k மாதிரியில் உள்ள மற்ற எல்லா மாறிகளுடனும் தொடர்புடையது என்பதற்கு ஒரு நல்ல நடவடிக்கையாகும் .

VIF இன் சதுர வேர் மிகவும் விளக்கக்கூடியது. தொடர்புடைய குணகத்திற்கான நம்பிக்கை இடைவெளி *பி *: துணை: கே என்பது, முன்னறிவிப்பாளர்கள் அனைவரும் நன்றாகவும் ஒருவருக்கொருவர் தொடர்பில்லாதவராகவும் இருந்தால் நீங்கள் எதிர்பார்த்ததை ஒப்பிடுகையில். உங்களுக்கு இரண்டு முன்னறிவிப்பாளர்கள் மட்டுமே கிடைத்தால், `` பின்னடைவு` `` அனுமான காசோலைகள்` என்ற விருப்பங்களில்` கோலைனீரிட்டி` தேர்வுப்பெட்டியைக் சொடுக்கு செய்தால், விஐஎஃப் மதிப்புகள் எப்போதுமே ஒரே மாதிரியாக இருக்கும். சாமோவியில். `` Dani.sleep`` மற்றும் `` baby.sleep`` ஆகிய இரண்டிற்கும் VIF 1.65 ஆகும். 1.65 சதுர வேர் 1.28 ஆக இருப்பதால், எங்கள் இரு முன்கணிப்பாளர்களுக்கிடையேயான தொடர்பு ஒரு பிரச்சினையை ஏற்படுத்தாது என்பதைக் காண்கிறோம்.

பெரிய கூட்டுறவு சிக்கல்களைக் கொண்ட ஒரு மாதிரியுடன் நாம் எவ்வாறு முடிவடையும் என்பதைப் புரிந்துகொள்ள, நான் மிகவும் குறைவான சுவையான பின்னடைவு மாதிரியை இயக்க வேண்டும் என்று வைத்துக்கொள்வோம், அதில் தரவு சேகரிக்கப்பட்ட `` நாள்`` கணிக்க முயற்சித்தேன், தரவு தொகுப்பில் உள்ள மற்ற அனைத்து மாறிகளின் செயல்பாடாக. இது ஏன் ஒரு சிக்கலாக இருக்கும் என்பதைப் பார்க்க, நான்கு மாறிகளுக்கும் தொடர்பு மேட்ரிக்சைப் பார்ப்போம்:

             dani.sleep  baby.sleep  dani.grump         day
dani.sleep   1.00000000  0.62794934 -0.90338404 -0.09840768
baby.sleep   0.62794934  1.00000000 -0.56596373 -0.01043394
dani.grump  -0.90338404 -0.56596373  1.00000000  0.07647926
day         -0.09840768 -0.01043394  0.07647926  1.00000000

எங்கள் முன்கணிப்பு மாறிகள் சில இடையே சில பெரிய தொடர்புகள் உள்ளன! நாம் பின்னடைவு மாதிரியை இயக்கி, VIF மதிப்புகளைப் பார்க்கும்போது, கோலினரிட்டி குணகங்களைப் பற்றி நிறைய நிச்சயமற்ற தன்மையை ஏற்படுத்துகிறது என்பதைக் காண்கிறோம். முதலில், பின்னடைவை இயக்கவும்: NumRef: Fig-reg7 மற்றும் VIF மதிப்புகளிலிருந்து நீங்கள் காணலாம், ஆமாம், அது அங்கு சில சிறந்த கூட்டுறவு.

Fig. 128 பல பின்னடைவுகளுக்கான கொலினரிட்டி புள்ளிவிவரங்கள், சாமோவியில் தயாரிக்கப்படுகின்றன

[2]

மீண்டும், நேரியல் இயற்கணித வெறியர்களுக்கு: “தொப்பி அணி” என்பது அந்த மேட்ரிக்ச் ** h ** என வரையறுக்கப்படுகிறது, இது கவனிக்கப்பட்ட மதிப்புகளின் திசையனை*y*பொருத்தப்பட்ட மதிப்புகளின் திசையனாக மாற்றுகிறது, அதாவது ŷ = ** h* *y *. இது “ *y *இல் ஒரு தொப்பியை வைக்கும் மேட்ரிக்ச் என்ற உண்மையிலிருந்து இந்த பெயர் வருகிறது. I-TH அவதானிப்பின் தொப்பி * மதிப்பு * இந்த மேட்ரிக்சின் I-TH மூலைவிட்டம் உறுப்பு ஆகும் (எனவே தொழில்நுட்ப ரீதியாக நான் அதை H : துணை: `II` என்று H : துணை:` I`) என்று எழுத வேண்டும். ஓ, நீங்கள் அக்கறை கொண்டிருந்தால், அது எவ்வாறு கணக்கிடப்பட்டது: * h ** = ** ஃச் ** (** ஃச் ** '** ஃச் ** ) : sup: -1 ** ஃச் ** '. அழகான, இல்லையா?

[3]

ஒவ்வொரு பங்கேற்பாளருக்கும் சமையல்காரரின் தூரத்தைப் பெறுவதற்காக, `` நேரியல் பின்னடைவு`` பகுப்பாய்வு விருப்பங்களுக்குள் கீழ்தோன்றும் மெனுவைத் திறந்து `` குக்கின் தூரம்` என்ற தேர்வுப்பெட்டியை அமைக்கவும். உங்கள் தரவு தொகுப்பின் முடிவில் குக்கின் தூரங்களைக் கொண்ட புதிய நெடுவரிசை சேர்க்கப்படும். அந்த மதிப்புகள் பின்னர் A: DOC: வடிகட்டி <../ CH06/CH06_DATAHANDLING_5> பங்கேற்பாளர்களைத் தேர்ந்தெடுக்க பயன்படுத்தலாம்.