Section author: Danielle J. Navarro and David R. Foxcroft
மாறுபாட்டின் நடவடிக்கைகள்
நாங்கள் இதுவரை விவாதித்த புள்ளிவிவரங்கள் அனைத்தும் மையப் போக்கு *உடன் தொடர்புடையவை. அதாவது, தரவுகளில் எந்த மதிப்புகள் “நடுவில்” அல்லது “பிரபலமானவை” என்பதைப் பற்றி அவர்கள் அனைவரும் பேசுகிறார்கள். எவ்வாறாயினும், நாம் கணக்கிட விரும்பும் சுருக்கமான புள்ளிவிவரத்தின் ஒரே வகை மையப் போக்கு அல்ல. நாம் உண்மையில் விரும்பும் இரண்டாவது சேதி தரவின் * மாறுபாடு ** இன் அளவீடு ஆகும். அதாவது, தரவு எவ்வளவு “பரவுகிறது”? அவதானிக்கப்பட்ட மதிப்புகள் சராசரி அல்லது சராசரியிலிருந்து எவ்வளவு “வெகு தொலைவில்” இருக்கும்? இப்போதைக்கு, தரவு இடைவெளி அல்லது விகித அளவுகோல் என்று வைத்துக் கொள்வோம், மேலும் `` afl.margins`` மாறியைப் பயன்படுத்துவோம். பரவலின் பல்வேறு நடவடிக்கைகளைப் பற்றி விவாதிக்க இந்தத் தரவைப் பயன்படுத்துவோம், ஒவ்வொன்றும் வெவ்வேறு பலங்கள் மற்றும் பலவீனங்களைக் கொண்டுள்ளன.
வீச்சு
ஒரு மாறியின் ** வரம்பு ** மிகவும் எளிது. இது மிகப் பெரிய மதிப்பு மிகச்சிறிய மதிப்பாகும். `` Afl.margins`` மாறுபாட்டிற்கு அதிகபட்ச மதிப்பு 116 மற்றும் குறைந்தபட்ச மதிப்பு 0 ஆகும். “மாறுபாடு” என்ற கருத்தை அளவிடுவதற்கான எளிய வழி வரம்பு என்றாலும், இது மிக மோசமான ஒன்றாகும். எங்கள் சுருக்கம் நடவடிக்கை வலுவாக இருக்க வேண்டும் என்ற சராசரி விவாதத்திலிருந்து நினைவுகூருங்கள். தரவுத் தொகுப்பில் ஒன்று அல்லது இரண்டு மோசமான மதிப்புகள் இருந்தால், எங்கள் புள்ளிவிவரங்கள் இந்த நிகழ்வுகளால் தேவையற்ற முறையில் பாதிக்கப்படக்கூடாது என்று நாங்கள் விரும்புகிறோம். எடுத்துக்காட்டாக, மிகவும் தீவிரமான வெளியீட்டாளர்களைக் கொண்ட ஒரு மாறியில்
-100, 2, 3, 4, 5, 6, 7, 8, 9, 10
வரம்பு வலுவானது அல்ல என்பது தெளிவாகிறது. இந்த மாறி 110 வரம்பைக் கொண்டுள்ளது, ஆனால் வெளிநாட்டவர் அகற்றப்பட்டால் எங்களுக்கு 8 மட்டுமே இருக்கும்.
இடைநிலை வரம்பு
** இடைநிலை வரம்பு ** (IQR) வரம்பு போன்றது, ஆனால் மிகப்பெரிய மற்றும் மிகச்சிறிய மதிப்புக்கு இடையிலான வேறுபாட்டிற்கு பதிலாக 25 வது சதவிகிதத்திற்கும் 75 வது சதவிகிதத்திற்கும் இடையிலான வேறுபாடு எடுக்கப்படுகிறது. ** விழுக்காடு ** என்றால் என்ன என்பது உங்களுக்குத் தெரியாவிட்டால், ஒரு தரவு தொகுப்பின் 10 வது சதவிகிதம்*x*என்ற மிகச்சிறிய எண்*x*ஆகும், அதாவது 10 % தரவு*x*ஐ விட குறைவாக உள்ளது. உண்மையில், நாங்கள் ஏற்கனவே இந்த யோசனையை கண்டிருக்கிறோம். தரவு தொகுப்பின் சராசரி அதன் 50 வது சதவிகிதம்! சாமோவியில் `` ஆய்வு` → விளக்கங்கள்` புள்ளிவிவரங்கள்````` புள்ளிவிவரங்கள்`` `` விளக்கங்கள்` `` விவரக்குறிப்புகள்` குவார்டைல்கள் என்பதைக் சொடுக்கு செய்வதன் மூலம் 25, 50 மற்றும் 75 வது சதவிகிதங்களை நீங்கள் எளிதாகக் குறிப்பிடலாம்.
Fig. 12 `` Afl.margins`` மாறுபாட்டிற்கான காலாண்டுகளைக் காட்டும் சாமோவியின் திரை காட்சி
ஆச்சரியப்படுவதற்கில்லை, இல்: NumRef: Fig-aflsmall_margins_iqr 50 வது சதவிகிதம் சராசரி மதிப்புக்கு சமம். மேலும்,. வரம்பை எவ்வாறு விளக்குவது என்பது தெளிவாகத் தெரிந்தாலும், IQR ஐ எவ்வாறு விளக்குவது என்பது கொஞ்சம் குறைவாகவே உள்ளது. இதைப் பற்றி சிந்திக்க எளிமையான வழி இது போன்றது: இடைநிலை வரம்பு என்பது தரவின் “நடுத்தர பாதி” மூலம் பரவியிருக்கும் வரம்பாகும். அதாவது, தரவின் கால் பகுதியினர் 25 வது சதவிகிதத்திற்கு கீழே விழுந்து, தரவின் கால் பகுதியினர் 75 வது சதவிகிதத்தை விட அதிகமாக உள்ளனர், இது தரவின் “நடுத்தர பாதி” இரண்டிற்கும் இடையில் உள்ளது. IQR என்பது அந்த நடுத்தர பாதியில் மூடப்பட்டிருக்கும் வரம்பு.
முழுமையான விலகல்
இதுவரை நாம் பார்த்த இரண்டு நடவடிக்கைகள், வரம்பு மற்றும் இடைநிலை வரம்பு, இரண்டும் தரவின் சதவீதங்களைப் பார்த்து தரவின் பரவலை அளவிட முடியும் என்ற கருத்தை நம்பியுள்ளன. இருப்பினும், பிரச்சினையைப் பற்றி சிந்திக்க ஒரே வழி இதுவல்ல. வேறுபட்ட அணுகுமுறை ஒரு அர்த்தமுள்ள குறிப்பு புள்ளியைத் தேர்ந்தெடுத்து (பொதுவாக சராசரி அல்லது சராசரி) பின்னர் அந்த குறிப்பு புள்ளியிலிருந்து “வழக்கமான” விலகல்களைப் புகாரளிப்பது. "வழக்கமான" விலகல் என்பதன் பொருள் என்ன? வழக்கமாக, இது இந்த விலகல்களின் சராசரி அல்லது சராசரி மதிப்பு. நடைமுறையில், இது இரண்டு வெவ்வேறு நடவடிக்கைகளுக்கு வழிவகுக்கிறது: “சராசரி முழுமையான விலகல்” (சராசரியிலிருந்து) மற்றும் “சராசரி முழுமையான விலகல்” (சராசரி இருந்து). நான் படித்ததிலிருந்து, சராசரியை அடிப்படையாகக் கொண்ட நடவடிக்கை புள்ளிவிவரங்களில் பயன்படுத்தப்படுவதாகத் தெரிகிறது மற்றும் இரண்டில் சிறந்தது என்று தெரிகிறது. ஆனால் உண்மையைச் சொல்வதானால், இது உளவியலில் அதிகம் பயன்படுத்துவதை நான் பார்த்ததாக நான் நினைக்கவில்லை. சராசரியை அடிப்படையாகக் கொண்ட நடவடிக்கை எப்போதாவது உளவியலில் காட்டப்படும். இந்த பிரிவில் நான் முதல் ஒன்றைப் பற்றி பேசுவேன், பின்னர் இரண்டாவது ஒன்றைப் பற்றி பேச வருவேன்.
முந்தைய பத்தி கொஞ்சம் சுருக்கமாக இருப்பதால், ** சராசரி முழுமையான விலகல் ** வழியாக சராசரியிலிருந்து இன்னும் கொஞ்சம் மெதுவாக செல்லலாம். இந்த அளவீட்டைப் பற்றிய ஒரு பயனுள்ள சேதி என்னவென்றால், அதை எவ்வாறு கணக்கிடுவது என்பதை பெயர் உண்மையில் உங்களுக்குக் கூறுகிறது. எங்கள் ஏ.எஃப்.எல் வென்ற விளிம்பு தரவைப் பற்றி யோசிப்போம், மொத்தம் 5 ஆட்டங்கள் மட்டுமே உள்ளன என்று நடிப்பதன் மூலம் மீண்டும் தொடங்குவோம், 56, 31, 56, 8 மற்றும் 32 என்ற வித்தியாசத்தில் வென்றது. எங்கள் கணக்கீடுகள் ஒரு பரிசோதனையை நம்பியுள்ளன, ஏனெனில் சில குறிப்பு புள்ளியிலிருந்து விலகல் (இந்த விசயத்தில் சராசரி), நாம் கணக்கிட வேண்டிய முதல் சேதி சராசரி, *x̄ *. இந்த ஐந்து அவதானிப்புகளுக்கு, எங்கள் சராசரி * x̄ * = 36.6. அடுத்த கட்டம் எங்கள் ஒவ்வொரு அவதானிப்புகளையும் *x *: துணை: நான் விலகல் மதிப்பெண்ணாக மாற்றுவது. கவனிப்புக்கு இடையிலான வேறுபாட்டைக் கணக்கிடுவதன் மூலம் இதைச் செய்கிறோம் *x *: துணை: `நான் மற்றும் சராசரி *x̄ *. அதாவது, விலகல் மதிப்பெண் *x *: துணை: i - *x̄ *என வரையறுக்கப்படுகிறது. எங்கள் மாதிரியில் முதல் கண்காணிப்புக்கு, இது 56 - 36.6 = 19.4 க்கு சமம். சரி, அது போதுமானது. செயல்பாட்டின் அடுத்த கட்டம் இந்த விலகல்களை முழுமையான விலகல்களாக மாற்றுவதாகும், மேலும் எந்த எதிர்மறை மதிப்புகளையும் நேர்மறையானதாக மாற்றுவதன் மூலம் இதைச் செய்கிறோம். கணித ரீதியாக, -3 இன் முழுமையான மதிப்பை | -3 | எனக் குறிப்போம், எனவே | -3 | = 3. நாங்கள் இங்கே முழுமையான மதிப்பைப் பயன்படுத்துகிறோம், ஏனென்றால் மதிப்பு சராசரியை விட அதிகமாக இருக்கிறதா அல்லது சராசரியை விடக் குறைவாக இருக்கிறதா என்று நாங்கள் உண்மையில் கவலைப்படவில்லை, இது சராசரிக்கு எவ்வளவு * மூடு * என்பதில் நாங்கள் ஆர்வமாக உள்ளோம். இந்த செயல்முறையை முடிந்தவரை வெளிப்படையாகச் செய்ய உதவ, கீழேயுள்ள அட்டவணை ஐந்து அவதானிப்புகளுக்கும் இந்த கணக்கீடுகளைக் காட்டுகிறது:
விளக்கம்: |
எந்த விளையாட்டு |
மதிப்பு |
சராசரியிலிருந்து விலகல் |
முழுமையான விலகல் |
|---|---|---|---|---|
குறியீடு: |
i |
Xi |
Xi - X̄ |
| Xi - X̄ | |
1 |
56 |
19.4 |
19.4 |
|
2 |
31 |
-5.6 |
5.6 |
|
3 |
56 |
19.4 |
19.4 |
|
4 |
8 |
-28.6 |
28.6 |
|
5 |
32 |
-4.6 |
4.6 |
தரவுத் தொகுப்பில் உள்ள ஒவ்வொரு அவதானிப்பிற்கும் முழுமையான விலகல் மதிப்பெண்ணை இப்போது கணக்கிட்டுள்ளோம், இந்த மதிப்பெண்களின் சராசரியைக் கணக்கிட நாம் செய்ய வேண்டியவை. அதைச் செய்வோம்:
நாங்கள் முடித்துவிட்டோம். இந்த ஐந்து மதிப்பெண்களுக்கான சராசரி முழுமையான விலகல் 15.52 ஆகும்.
எவ்வாறாயினும், இந்த சிறிய எடுத்துக்காட்டுக்கான எங்கள் கணக்கீடுகள் ஒரு முடிவில் இருக்கும்போது, பேசுவதற்கு எங்களிடம் இரண்டு விசயங்கள் உள்ளன. முதலில், சரியான கணித சூத்திரத்தை எழுத நாம் உண்மையில் முயற்சிக்க வேண்டும். ஆனால் இதைச் செய்ய எனக்கு சராசரி முழுமையான விலகலைக் குறிக்க சில கணிதக் குறியீடு தேவை. எரிச்சலூட்டும் விதமாக, “சராசரி முழுமையான விலகல்” மற்றும் “சராசரி முழுமையான விலகல்” ஆகியவை ஒரே சுருக்கத்தை (MAD) கொண்டுள்ளன, இது ஒரு குறிப்பிட்ட அளவு தெளிவற்ற தன்மைக்கு வழிவகுக்கிறது, எனவே சராசரி முழுமையான விலகலுக்கு வேறுபட்ட ஒன்றைக் கொண்டு வருவது நல்லது. பெருமூச்சு. நான் என்ன செய்வேன் என்பது அதற்கு பதிலாக AAD ஐப் பயன்படுத்துவது, * சராசரி * முழுமையான விலகலுக்கு குறுகியது. இப்போது எங்களிடம் சில தெளிவற்ற குறியீடு உள்ளது, நாங்கள் இப்போது கணக்கிட்டதை விவரிக்கும் தேற்றம் இங்கே:
மாறுபாட்டெண்
சராசரி முழுமையான விலகல் அளவீடு அதன் பயன்பாடுகளைக் கொண்டிருந்தாலும், இது பயன்படுத்துவதற்கான மாறுபாட்டின் சிறந்த அளவீடு அல்ல. முற்றிலும் கணித கண்ணோட்டத்தில் முழுமையான விலகல்களைக் காட்டிலும் சதுர விலகல்களை விரும்புவதற்கு சில உறுதியான காரணங்கள் உள்ளன. நாங்கள் அவ்வாறு செய்தால், ** மாறுபாடு ** எனப்படும் ஒரு அளவைப் பெறுகிறோம், இது நான் புறக்கணிக்கப் போகும் நிறைய நல்ல புள்ளிவிவர பண்புகளைக் கொண்டுள்ளது, [#] _ மற்றும் நான் செய்யப் போகும் ஒரு பெரிய உளவியல் குறைபாடு ஒரு கணத்தில் இருந்து ஒரு பெரிய ஒப்பந்தம். ஒரு தரவு தொகுப்பின் மாறுபாடு *x *சில நேரங்களில் var (x) என எழுதப்படுகிறது, ஆனால் இது பொதுவாக *S *² ² எனக் குறிக்கப்படுகிறது (இதற்கு காரணம் விரைவில் தெளிவாகிவிடும்).
அவதானிப்புகளின் தொகுப்பின் மாறுபாட்டைக் கணக்கிட நாம் பயன்படுத்தும் தேற்றம் பின்வருமாறு:
நீங்கள் பார்க்க முடியும் என, இது அடிப்படையில் சராசரி முழுமையான விலகலைக் கணக்கிட நாங்கள் பயன்படுத்திய அதே தேற்றம், “முழுமையான விலகல்களைப் பயன்படுத்துவதற்குப் பதிலாக“ ச்கொயர் விலகல்களை ”பயன்படுத்துகிறோம். இந்த காரணத்தினால்தான் மாறுபாடு சில நேரங்களில் “சராசரி சதுர விலகல்” என்று குறிப்பிடப்படுகிறது.
இப்போது எங்களுக்கு அடிப்படை சிந்தனை கிடைத்துள்ளதால், ஒரு உறுதியான உதாரணத்தைப் பார்ப்போம். மீண்டும், முதல் ஐந்து ஏ.எஃப்.எல் கேம்களை எங்கள் தரவாகப் பயன்படுத்துவோம். கடைசியாக நாங்கள் எடுத்த அதே அணுகுமுறையை நாங்கள் பின்பற்றினால், நாங்கள் பின்வரும் அட்டவணையுடன் முடிவடைகிறோம்:
விளக்கம்: |
எந்த விளையாட்டு |
மதிப்பு |
சராசரியிலிருந்து விலகல் |
ச்கொயர் விலகல் |
|---|---|---|---|---|
குறியீடு: |
i |
Xi |
Xi - X̄ |
(Xi - X̄)² |
1 |
56 |
19.4 |
376.36 |
|
2 |
31 |
-5.6 |
31.36 |
|
3 |
56 |
19.4 |
376.36 |
|
4 |
8 |
-28.6 |
817.96 |
|
5 |
32 |
-4.6 |
21.16 |
அந்த கடைசி நெடுவரிசையில் எங்கள் அனைத்து சதுர விலகல்களும் உள்ளன, எனவே நாம் செய்ய வேண்டியது எல்லாம் சராசரியாக மட்டுமே. நாங்கள் அதை கையால் செய்தால், அதாவது ஒரு கால்குலேட்டரைப் பயன்படுத்தி, நாங்கள் 324.64 மாறுபாட்டுடன் முடிவடைகிறோம். ஊக்கம், இல்லையா? இப்போதைக்கு, நீங்கள் அனைவரும் நினைக்கும் எரியும் கேள்வியை புறக்கணிப்போம் (அதாவது, 324.64 இன் மாறுபாடு உண்மையில் என்ன அர்த்தம்?) அதற்கு பதிலாக சாமோவியில் கணக்கீடுகளை எவ்வாறு செய்வது என்பது பற்றி இன்னும் கொஞ்சம் பேசுங்கள், ஏனெனில் இது வெளிப்படுத்தும் மிகவும் வித்தியாசமான ஒன்று. முதன்மையான பட்டியல் பொத்தானைக் சொடுக்கு செய்வதன் மூலம் (`` ☰``; மேல் இடது மூலையில்) `` புதிய`` என்பதைத் தேர்ந்தெடுப்பதன் மூலம் புதிய சாமோவி அமர்வைத் தொடங்கவும். இப்போது | aflsmall_margins | _ தரவு A (56, 31, 56, 8, 32) இல் அமைக்கப்பட்ட முதல் ஐந்து மதிப்புகளை தட்டச்சு செய்க. மாறி வகையை `` தொடர்ச்சியான`` ஆக மாற்றவும், `` விளக்கங்கள்`` இன் கீழ் `` மாறுபாடு`` செக் பாக்சைக் சொடுக்கு செய்து, நாங்கள் கையால் கணக்கிட்ட மாறுபாட்டிற்கான அதே மதிப்புகளைப் பெறுவீர்கள் (** 324.64 ). இல்லை, காத்திருங்கள், நீங்கள் முற்றிலும்*வித்தியாசமான*பதிலைப் பெறுவீர்கள் ( 405.80 **) - காண்க: எண்ரெஃப்: Fig -aflsmall_margins_variance1. அது வித்தியாசமானது. சாமோவி உடைந்துவிட்டதா? இது ஒரு எழுத்துப்பிழையா? நான் ஒரு முட்டாள்?
Fig. 13 `` Afl.margins`` மாறியின் முதல் 5 மதிப்புகளுக்கான மாறுபாட்டைக் காட்டும் சாமோவியின் திரை காட்சி
அது நிகழும்போது, பதில் இல்லை. [#] _ இது ஒரு எழுத்துப்பிழை அல்ல, சாமோவி தவறு செய்யவில்லை. உண்மையில், சமோவி இங்கே என்ன செய்கிறார் என்பதை விளக்குவது மிகவும் எளிது, ஆனால் விளக்குவது சற்று தந்திரமானது * ஏன் * சமோவி அதைச் செய்கிறார். எனவே “என்ன” உடன் ஆரம்பிக்கலாம். சாமோவி என்ன செய்கிறார் என்பது நான் மேலே காட்டியதை சற்று வித்தியாசமான சூத்திரத்தை மதிப்பிடுவதாகும். ச்கொயர் விலகல்களை சராசரியாகக் காட்டுவதற்குப் பதிலாக, *n *தரவு புள்ளிகளின் எண்ணிக்கையால் நீங்கள் பிரிக்க வேண்டும், சமோவி *n - 1 *ஆல் வகுக்கத் தேர்ந்தெடுத்துள்ளார்.
வேறு வார்த்தைகளில் கூறுவதானால், சாமோவி பயன்படுத்தும் தேற்றம் இதுதான்:
எனவே இதுதான் *என்ன *. உண்மையான கேள்வி என்னவென்றால், ஏன் *சாமோவி *n - 1 *ஆல் பிரிக்கிறது, ஆனால் *n *ஆல் அல்ல. எல்லாவற்றிற்கும் மேலாக, மாறுபாடு * சராசரி * ச்கொயர் விலகலாக இருக்க வேண்டும், இல்லையா? ஆகவே, மாதிரியில் உள்ள அவதானிப்புகளின் உண்மையான எண்ணிக்கையை *n *மூலம் நாம் பிரிக்க வேண்டாமா? சரி, ஆம், நாம் வேண்டும். எவ்வாறாயினும், அத்தியாயத்தில் விவாதிப்பதைப் போல: DOC: ../ ch08/ch08_estimation,“ ஒரு மாதிரியை விவரிப்பது ”மற்றும்“ மாதிரி வந்த மக்கள்தொகையைப் பற்றி யூகங்களை உருவாக்குதல் ”ஆகியவற்றுக்கு இடையே ஒரு நுட்பமான வேறுபாடு உள்ளது. இந்த கட்டம் வரை, இது ஒரு வேறுபாடு இல்லாமல் வேறுபாடு. நீங்கள் ஒரு மாதிரியை விவரிக்கிறீர்களா அல்லது மக்கள்தொகையைப் பற்றிய அனுமானங்களை வரைவீர்களா என்பதைப் பொருட்படுத்தாமல், சராசரி அதே வழியில் கணக்கிடப்படுகிறது. மாறுபாடு, அல்லது நிலையான விலகல் அல்லது பல நடவடிக்கைகளுக்கு அவ்வாறு இல்லை. ஆரம்பத்தில் நான் உங்களுக்கு கோடிட்டுக் காட்டியவை (அதாவது, உண்மையான சராசரியை எடுத்துக் கொள்ளுங்கள், இதனால் *n *ஆல் வகுக்கவும்) நீங்கள் மாதிரியின் மாறுபாட்டைக் கணக்கிட விரும்புகிறீர்கள் என்று கருதுகிறது. எவ்வாறாயினும், பெரும்பாலான நேரங்களில், நீங்கள் மாதிரியில் *மற்றும் தனக்குள்ளேயே *மிகவும் ஆர்வம் காட்டவில்லை. மாறாக, உலகத்தைப் பற்றி உங்களுக்கு ஏதாவது சொல்ல மாதிரி உள்ளது. அப்படியானால், நீங்கள் உண்மையில் ஒரு “மாதிரி புள்ளிவிவரத்தை” கணக்கிடுவதிலிருந்தும், “மக்கள்தொகை அளவுருவை” மதிப்பிடுவதற்கான யோசனையை நோக்கி நகரத் தொடங்குகிறீர்கள். இருப்பினும், நான் என்னை விட முன்னேறுகிறேன். இப்போதைக்கு, சாமோவிக்கு அது என்ன செய்கிறது என்பதை விசுவாசமாக எடுத்துக் கொள்ளலாம், மேலும் நாம் பேசும்போது கேள்வியை பின்னர் மறுபரிசீலனை செய்வோம்: டாக்: மதிப்பீடு <../ ch08/ch08_estimation>.
சரி, கடைசி சேதி. இந்த பகுதி இதுவரை ஒரு மர்ம நாவலைப் போல கொஞ்சம் படித்துள்ளது. மாறுபாட்டை எவ்வாறு கணக்கிடுவது என்பதை நான் உங்களுக்குக் காட்டியுள்ளேன், சமோவி செய்யும் வித்தியாசமான “n - 1” காரியத்தை விவரித்து, அது இருப்பதற்கான காரணத்தை சுட்டிக்காட்டியது, ஆனால் மிக முக்கியமான ஒரு விசயத்தை நான் குறிப்பிடவில்லை. மாறுபாட்டை நீங்கள் எவ்வாறு விளக்குகிறீர்கள்? விளக்க புள்ளிவிவரங்கள் விசயங்களை விவரிக்க வேண்டும், எல்லாவற்றிற்கும் மேலாக, இப்போது மாறுபாடு உண்மையில் ஒரு மோசமான எண். துரதிர்ச்டவசமாக, மாறுபாட்டின் மனித நட்பு விளக்கத்தை நான் உங்களுக்கு வழங்காததற்கான காரணம் என்னவென்றால், உண்மையில் ஒன்று இல்லை. மாறுபாட்டின் மிகவும் கடுமையான சிக்கல் இது. இது சில நேர்த்தியான கணித பண்புகளைக் கொண்டிருந்தாலும், இது மாறுபாட்டை வெளிப்படுத்துவதற்கான அடிப்படை அளவு என்று பரிந்துரைக்கும் என்றாலும், நீங்கள் ஒரு உண்மையான மனிதனுடன் தொடர்பு கொள்ள விரும்பினால் அது முற்றிலும் பயனற்றது. அசல் மாறியின் அடிப்படையில் மாறுபாடுகள் முற்றிலும் விளக்க முடியாதவை! எல்லா எண்களும் ச்கொயர் செய்யப்பட்டுள்ளன, அவை இனி எதையும் குறிக்காது. இது ஒரு பெரிய சிக்கல். உதாரணமாக, நான் முன்னர் வழங்கிய அட்டவணையின்படி, விளையாட்டு 1 இன் விளிம்பு “சராசரி விளிம்பை விட 376.36 புள்ளிகள்-சதுரத்திற்கு அதிகம்”. இது * சரியாக * முட்டாள்தனமானது, எனவே 324.64 இன் மாறுபாட்டைக் கணக்கிடும்போது நாங்கள் அதே சூழ்நிலையில் இருக்கிறோம். நான் நிறைய கால்பந்து விளையாட்டுகளைப் பார்த்திருக்கிறேன், எந்த நேரத்திலும் யாரும் “புள்ளிகள் சதுரத்தை” குறிப்பிடவில்லை. இது ஒரு உண்மையான அளவீட்டின் உண்மையான அலகு அல்ல, மேலும் இந்த அபத்தமான அலகு அடிப்படையில் மாறுபாடு வெளிப்படுத்தப்படுவதால், இது ஒரு மனிதனுக்கு முற்றிலும் அர்த்தமற்றது.
திட்டவிலக்கல், நியம விலகல்
சரி, நான் பேசாத அந்த நல்ல கணித பண்புகள் காரணமாக மாறுபாட்டைப் பயன்படுத்துவதற்கான யோசனையை நீங்கள் விரும்புகிறீர்கள் என்று வைத்துக்கொள்வோம், ஆனால் நீங்கள் ஒரு மனிதர் மற்றும் ஒரு ரோபோ அல்ல என்பதால் நீங்கள் வெளிப்படுத்தப்பட்ட ஒரு நடவடிக்கையை நீங்கள் விரும்புகிறீர்கள் தரவின் அதே அலகுகள் (அதாவது, புள்ளிகள், புள்ளிகள்-ச்கொயர் அல்ல). நீங்கள் என்ன செய்ய வேண்டும்? பிரச்சினைக்கு தீர்வு வெளிப்படையானது! ** நிலையான விலகல் ** என அழைக்கப்படும் மாறுபாட்டின் சதுர மூலத்தை எடுத்துக் கொள்ளுங்கள், இது “ரூட் சராசரி ச்கொயர் விலகல்” அல்லது ஆர்எம்எச்டி என்றும் அழைக்கப்படுகிறது. இது எங்கள் பிரச்சினையை மிகவும் நேர்த்தியாக தீர்க்கிறது. “324.68 புள்ளிகள்-சதுரத்தின் மாறுபாடு” உண்மையில் எதைக் குறிக்கிறது என்பதற்கான துப்பு யாருக்கும் இல்லை என்றாலும், அசல் அலகுகளில் வெளிப்படுத்தப்பட்டதால் “18.01 புள்ளிகளின் நிலையான விலகலை” புரிந்துகொள்வது மிகவும் எளிதானது. தரவுகளின் மாதிரியின் நிலையான விலகலை *கள் *எனக் குறிப்பிடுவது பாரம்பரியமானது, இருப்பினும் “எச்டி” மற்றும் “எச்.டி.டி தேவ்”. சில நேரங்களில் பயன்படுத்தப்படுகின்றன.
நிலையான விலகல் மாறுபாட்டின் சதுர மூலத்திற்கு சமமாக இருப்பதால், தேற்றம் இருப்பதைக் கண்டு நீங்கள் ஆச்சரியப்பட மாட்டீர்கள்:
சமோவியில் `` எச்.டி.டி.க்கு ஒரு தேர்வுப்பெட்டி உள்ளது. `` மாறுபாடு`` க்கான தேர்வுப்பெட்டிக்கு மேலே விலகல். இதைத் தேர்ந்தெடுப்பது நிலையான விலகலுக்கு ** 26.07 ** மதிப்பை அளிக்கிறது.
எவ்வாறாயினும், மாறுபாட்டைப் பற்றிய எங்கள் விவாதத்திலிருந்து நீங்கள் யூகித்திருக்கலாம், சமோவி உண்மையில் கணக்கிடுவது மேலே கொடுக்கப்பட்ட சூத்திரத்திற்கு சற்று வித்தியாசமானது. மாறுபாட்டுடன் நாம் பார்த்ததைப் போலவே, சாமோவி கணக்கிடுவதும் *n *ஐ விட *n - 1 *ஆல் வகுக்கும் ஒரு பதிப்பாகும்.
அத்தியாயத்தில் இந்த தலைப்புக்குத் திரும்பும்போது அர்த்தமுள்ள காரணங்களுக்காக: doc: ../ ch08/ch08_estimation இந்த புதிய அளவை நான் குறிப்பிடுவேன்: கணிதம்:` தொப்பி சிக்மா` (படிக்கவும்: “சிக்மா தொப்பி ”), மற்றும் இதற்கான சூத்திரம்:
நிலையான விலகல்களை விளக்குவது சற்று சிக்கலானது. நிலையான விலகல் மாறுபாட்டிலிருந்து பெறப்பட்டதால், மாறுபாடு என்பது மனிதர்களுக்குப் புரியாத எந்தவொரு அர்த்தமும் இல்லாத ஒரு அளவு என்பதால், நிலையான விலகலுக்கு எளிய விளக்கம் இல்லை. இதன் விளைவாக, நம்மில் பெரும்பாலோர் கட்டைவிரல் ஒரு எளிய விதியை நம்பியிருக்கிறோம். பொதுவாக, 68 % தரவு சராசரியின் 1 நிலையான விலகலுக்குள் வீழ்ச்சியடையும் என்று எதிர்பார்க்க வேண்டும், 95 % தரவு சராசரியின் 2 நிலையான விலகலுக்குள் குறையும், மற்றும் 99.7 % தரவு 3 தரத்திற்குள் குறையும் சராசரி விலகல்கள். இந்த விதி பெரும்பாலான நேரங்களில் நன்றாக வேலை செய்கிறது, ஆனால் அது துல்லியமாக இல்லை. இச்டோகிராம் சமச்சீர் மற்றும் “பெல் வடிவமானது” என்ற * அனுமானத்தின் அடிப்படையில் இது உண்மையில் கணக்கிடப்படுகிறது. எங்கள் தரவுகளில் சரியாக உண்மை! அப்படியிருந்தும், விதி தோராயமாக சரியானது. இது மாறிவிட்டால், AFL விளிம்புகளின் தரவுகளின் 65.3 % சராசரியின் ஒரு நிலையான விலகலுக்குள் வருகிறது. இது பார்வைக்கு காட்டப்பட்டுள்ளது: NumRef: Fig-aflsd.
Fig. 14 AFL வென்ற விளிம்பு தரவுகளிலிருந்து நிலையான விலகலின் விளக்கம். இச்டோகிராமில் நிழலாடிய பார்கள் சராசரியின் ஒரு நிலையான விலகலுக்குள் எவ்வளவு தரவு விழும் என்பதைக் காட்டுகிறது. இந்த வழக்கில், தரவுத் தொகுப்பில் 65.3 % இந்த வரம்பிற்குள் உள்ளது, இது முக்கிய உரையில் விவாதிக்கப்பட்ட “சுமார் 68 % விதி” உடன் மிகவும் ஒத்துப்போகிறது.
எந்த அளவைப் பயன்படுத்த வேண்டும்?
பரவலின் சில நடவடிக்கைகளை நாங்கள் விவாதித்தோம்: வரம்பு, IQR, சராசரி முழுமையான விலகல், மாறுபாடு மற்றும் நிலையான விலகல்; மற்றும் அவர்களின் வலிமை மற்றும் பலவீனங்களை சுட்டிக்காட்டியது. விரைவான சுருக்கம் இங்கே:
வரம்பு. தரவின் முழு பரவலையும் உங்களுக்கு வழங்குகிறது. இது வெளியீட்டாளர்களுக்கு மிகவும் பாதிக்கப்படக்கூடியது, இதன் விளைவாக தரவுகளில் உள்ள உச்சநிலையைப் பற்றி கவலைப்படுவதற்கு உங்களுக்கு நல்ல காரணங்கள் இல்லாவிட்டால் அது பெரும்பாலும் பயன்படுத்தப்படாது.
இடைநிலை வரம்பு. தரவின் “நடுத்தர பாதி” எங்கு அமர்ந்திருக்கிறது என்பதை உங்களுக்குக் கூறுகிறது. இது மிகவும் வலுவானது மற்றும் சராசரியை நன்றாக நிறைவு செய்கிறது. இது நிறைய பயன்படுத்தப்படுகிறது.
அர்த்தம் முழுமையான விலகல். அவதானிப்புகள் சராசரியாக எவ்வளவு தூரம் உள்ளன என்பதை உங்களுக்குக் கூறுகிறது. இது மிகவும் விளக்கக்கூடியது, ஆனால் சில சிறிய சிக்கல்களைக் கொண்டுள்ளது (இங்கே விவாதிக்கப்படவில்லை) இது நிலையான விலகலை விட புள்ளிவிவர நிபுணர்களுக்கு குறைந்த கவர்ச்சிகரமானதாக இருக்கும். சில நேரங்களில் பயன்படுத்தப்படுகிறது, ஆனால் பெரும்பாலும் இல்லை.
மாறுபாடு. சராசரியிலிருந்து சராசரி சதுர விலகலை உங்களுக்கு சொல்கிறது. இது கணித ரீதியாக நேர்த்தியானது மற்றும் சராசரியைச் சுற்றியுள்ள மாறுபாட்டை விவரிக்க “சரியான” வழியாகும், ஆனால் இது முற்றிலும் புரிந்துகொள்ள முடியாதது, ஏனெனில் இது தரவின் அதே அலகுகளைப் பயன்படுத்தாது. ஒரு கணிதக் கருவியாகத் தவிர வேறு ஒருபோதும் பயன்படுத்தப்படவில்லை, ஆனால் இது மிகப் பெரிய எண்ணிக்கையிலான புள்ளிவிவரக் கருவிகளால் “பேட்டைக்கு அடியில்” புதைக்கப்பட்டுள்ளது.
நிலையான விலகல். இது மாறுபாட்டின் சதுர வேர். இது கணித ரீதியாக மிகவும் நேர்த்தியானது, மேலும் இது தரவின் அதே அலகுகளில் வெளிப்படுத்தப்படுகிறது, எனவே இது நன்றாக விளக்கப்படலாம். சராசரி மையப் போக்கின் அளவைக் கொண்ட சூழ்நிலைகளில், இது இயல்புநிலை. இது இதுவரை மாறுபாட்டின் மிகவும் பிரபலமான நடவடிக்கையாகும்.
சுருக்கமாக, IQR மற்றும் நிலையான விலகல் ஆகியவை தரவின் மாறுபாட்டைப் புகாரளிக்கப் பயன்படுத்தப்படும் இரண்டு பொதுவான நடவடிக்கைகள். ஆனால் மற்றவர்கள் பயன்படுத்தப்படும் சூழ்நிலைகள் உள்ளன. இந்த புத்தகத்தில் அவை அனைத்தையும் நான் விவரித்தேன், ஏனென்றால் இவற்றில் பெரும்பாலானவற்றில் நீங்கள் எங்காவது ஓடுவதற்கு நியாயமான வாய்ப்பு உள்ளது.