Section author: Danielle J. Navarro and David R. Foxcroft

Χ² (சி-சதுர) நன்மை-பொருத்தமான சோதனை

Χ² நன்மை-பொருத்தம் சோதனை என்பது பழமையான கருதுகோள் சோதனைகளில் ஒன்றாகும். இது கண்டுபிடித்தது: குறிப்பு: கார்ல் பியர்சன் (1900) <பியர்சன்_1900>, பின்னர் சில திருத்தங்களுடன்: குறிப்பு: சர் ரொனால்ட் ஃபிசர் (1922 அ) <ஃபிசர்_1922 அ>. பெயரளவு மாறியின் கவனிக்கப்பட்ட அதிர்வெண் வழங்கல் | பெயரளவு | எதிர்பார்க்கப்படும் அதிர்வெண் விநியோகத்துடன் பொருந்துகிறது. எடுத்துக்காட்டாக, நோயாளிகளின் ஒரு குழு ஒரு சோதனை சிகிச்சையில் ஈடுபட்டுள்ளது என்றும், அவர்களின் உடல்நிலை மேம்பட்டதா, அப்படியே இருக்கிறதா அல்லது மோசமடைந்துள்ளதா என்பதைப் பார்க்க அவர்களின் உடல்நலம் மதிப்பீடு செய்யப்பட்டுள்ளது என்று வைத்துக்கொள்வோம். ஒவ்வொரு வகையிலும் உள்ள எண்கள் - மேம்பட்டவை, மாற்றமில்லை, மோசமடைந்துள்ளனவா என்பதை தீர்மானிக்க ஒரு நன்மை -பொருத்தமான சோதனை பயன்படுத்தப்படலாம் - நிலையான மருத்தீடு விருப்பத்தைக் கொண்டு எதிர்பார்க்கப்படும் எண்களுடன் பொருந்துகிறது. இதைப் பற்றி இன்னும் சில உளவியலுடன் சிந்திக்கலாம்.

கார்டுகள் தரவு

பல ஆண்டுகளாக மனிதர்கள் சீரற்ற தன்மையை உருவகப்படுத்துவது கடினம் என்பதைக் காட்டும் பல ஆய்வுகள் உள்ளன. சீரற்ற "செயல்பட" நாம் முயற்சி செய்யுங்கள், வடிவங்கள் மற்றும் கட்டமைப்பின் அடிப்படையில் நாங்கள் * சிந்திக்கிறோம், எனவே, "சீரற்ற முறையில் ஏதாவது செய்ய" கேட்கும்போது, மக்கள் உண்மையில் என்ன செய்கிறார்கள் என்பது சீரற்றது. இதன் விளைவாக, மனித சீரற்ற தன்மை (அல்லது சீரற்ற தன்மை அல்லாதது, அப்படி இருக்கலாம்) உலகத்தைப் பற்றி நாம் எப்படி சிந்திக்கிறோம் என்பது பற்றிய ஆழமான உளவியல் கேள்விகளைத் திறக்கிறது. இதைக் கருத்தில் கொண்டு, மிகவும் எளிமையான ஆய்வைக் கருத்தில் கொள்வோம். ஒரு மாற்றப்பட்ட அட்டைகளை கற்பனை செய்யும்படி நான் மக்களிடம் கேட்டேன், இந்த கற்பனை தளத்திலிருந்து ஒரு அட்டையை “சீரற்ற முறையில்” மனதளவில் தேர்ந்தெடுங்கள். அவர்கள் ஒரு அட்டையைத் தேர்ந்தெடுத்த பிறகு, இரண்டாவது ஒன்றை மனதளவில் தேர்ந்தெடுக்கும்படி நான் அவர்களிடம் கேட்கிறேன். இரண்டு தேர்வுகளுக்கும் நாம் பார்க்கப் போவது மக்கள் தேர்ந்தெடுத்த சூட் (இதயங்கள், கிளப்புகள், மண்வெட்டிகள் அல்லது வைரங்கள்). இதைச் செய்ய * n * = 200 பேர் கேட்ட பிறகு, தரவைப் பார்த்து, மக்கள் தேர்ந்தெடுப்பதாக நடித்த அட்டைகள் உண்மையில் சீரற்றதா இல்லையா என்பதைக் கண்டுபிடிக்க விரும்புகிறேன். தரவு | சீரற்ற தன்மை | _ தரவுகளில் உள்ளது, அதில் நீங்கள் அதை சாமோவியில் திறந்து விரிதாள் காட்சியைப் பார்க்கும்போது, நீங்கள் மூன்று மாறிகளைக் காண்பீர்கள். அவையாவன: ஒவ்வொரு பங்கேற்பாளருக்கும் ஒரு தனித்துவமான அடையாளங்காட்டியை வழங்கும் `` ஐடி`` மாறி, மற்றும் இரண்டு மாறிகள் `` சாய்ச்_1`` மற்றும் `` சாய்ச்_2`` ஆகியவை மக்கள் தேர்ந்தெடுத்த அட்டை பொருத்தங்களைக் குறிக்கின்றன.

இப்போதைக்கு, மக்கள் உருவாக்கிய முதல் தேர்வில் கவனம் செலுத்துவோம். ஒவ்வொரு வழக்கையும் மக்கள் தேர்ந்தெடுப்பதை நாங்கள் கவனித்த எண்ணிக்கையை கணக்கிட `` ஆய்வு`` விளக்கங்கள்` இன் கீழ்` அதிர்வெண் அட்டவணைகள் விருப்பத்தைப் பயன்படுத்துவோம். இதைத்தான் நமக்குக் பெறுகிறோம்:

clubs diamonds   hearts   spades
   35       51       64       50

அந்த சிறிய அதிர்வெண் அட்டவணை மிகவும் உதவியாக இருக்கும். அதைப் பார்க்கும்போது, மக்கள் * கிளப்புகளை விட இதயங்களைத் தேர்ந்தெடுப்பதற்கான வாய்ப்புகள் அதிகம் என்று கொஞ்சம் கொஞ்சமாக இருக்கிறது, ஆனால் அது உண்மையிலேயே உண்மையா, அல்லது இது வாய்ப்பு காரணமாக இருந்தால் அதைப் பார்ப்பதிலிருந்து இது முற்றிலும் தெளிவாகத் தெரியவில்லை. எனவே கண்டுபிடிக்க நாம் ஒருவித புள்ளிவிவர பகுப்பாய்வுகளைச் செய்ய வேண்டியிருக்கும், இதுதான் நான் அடுத்த பகுதியில் பேசப்போகிறேன்.

சிறந்த. இந்த கட்டத்தில் இருந்து, இந்த அட்டவணையை நாங்கள் பகுப்பாய்வு செய்ய விரும்பும் தரவுகளாக கருதுவோம். இருப்பினும், நான் இந்தத் தரவைப் பற்றி கணித அடிப்படையில் பேச வேண்டியிருக்கும் என்பதால் (மன்னிக்கவும்!) குறியீடு என்ன என்பது பற்றி தெளிவாக இருப்பது நல்ல யோசனையாக இருக்கலாம். கணிதக் குறியீட்டில், மனிதனால் படிக்கக்கூடிய வார்த்தையை “கவனித்த” என்ற எழுத்துக்கு *o *என்ற எழுத்துக்கு சுருக்கிக் கொள்கிறோம், மேலும் அவதானிப்பின் நிலையைக் குறிக்க சந்தாக்களைப் பயன்படுத்துகிறோம். எனவே எங்கள் அட்டவணையில் இரண்டாவது அவதானிப்பு *o *: Sub: 2 கணிதத்தில் எழுதப்பட்டுள்ளது. ஆங்கில விளக்கங்களுக்கும் கணித சின்னங்களுக்கும் இடையிலான உறவு கீழே விளக்கப்பட்டுள்ளது:

சிட்டை	குறியீட்டு, நான்	கணிதம். அடையாளம்	மதிப்பு
கிளப்புகள்	1	O₁	35
வைரங்கள் (♢)	2	O₂	51
hearts (♡)	3	O₃	64
spades (♠)	4	O₄	50

அது மிகவும் தெளிவாக உள்ளது என்று நம்புகிறேன். கணிதவியலாளர்கள் குறிப்பிட்ட விசயங்களை விட பொதுவானதைப் பற்றி பேச விரும்புகிறார்கள் என்பதையும் கவனத்தில் கொள்ள வேண்டும், எனவே *o *: துணை: i என்ற குறியீட்டையும் நீங்கள் காண்பீர்கள், இது *i *க்குள் வரும் அவதானிப்புகளின் எண்ணிக்கையைக் குறிக்கிறது -th வகை (எங்கே * i * 1, 2, 3 அல்லது 4 ஆக இருக்கலாம்). இறுதியாக, கவனிக்கப்பட்ட அனைத்து அதிர்வெண்களின் தொகுப்பையும் நாம் குறிப்பிட விரும்பினால், புள்ளிவிவர வல்லுநர்கள் அனைத்து மதிப்புகள் ஒரு திசையனாக, [#] _ நான் *o *எனக் குறிப்பிடுவேன்.

O = (O₁, O₂, O₃, O₄)

மீண்டும், இது புதியது அல்லது சுவாரச்யமானது அல்ல. இது வெறும் குறியீடு. * O * = (35, 51, 64, 50) நான் செய்வது எல்லாம் கவனிக்கப்பட்ட அதிர்வெண்களின் அட்டவணையை விவரிக்கிறது (அதாவது, `` கவனிக்கப்பட்டது``), ஆனால் கணிதக் குறியீட்டைப் பயன்படுத்தி அதைக் குறிப்பிடுகிறேன்.

சுழிய கருதுகோள் மற்றும் மாற்று கருதுகோள்

கடைசி பகுதி சுட்டிக்காட்டியபடி, எங்கள் ஆராய்ச்சி கருதுகோள் என்னவென்றால், “மக்கள் தோராயமாக அட்டைகளைத் தேர்வு செய்ய மாட்டார்கள்”. இப்போது நாம் செய்ய விரும்புவது இதை சில புள்ளிவிவர கருதுகோள்களாக மொழிபெயர்க்கிறது, பின்னர் அந்த கருதுகோள்களின் புள்ளிவிவர சோதனையை உருவாக்குகிறது. நான் உங்களுக்கு விவரிக்கப் போகும் சோதனை ** பியர்சனின் χ² (சி-சதுர) நன்மை-பொருத்தமான சோதனை ** ஆகும், மேலும் பெரும்பாலும் நம் சுழிய கருதுகோளை கவனமாக உருவாக்குவதன் மூலம் நாம் தொடங்க வேண்டும். இந்த விசயத்தில், இது மிகவும் எளிதானது. முதலில், சுழிய கருதுகோளை வார்த்தைகளில் குறிப்பிடலாம்:

H : துணை: 0: நான்கு வழக்குகளும் சம நிகழ்தகவுடன் தேர்ந்தெடுக்கப்படுகின்றன

இப்போது, இது புள்ளிவிவரங்கள் என்பதால், அதையே ஒரு கணித வழியில் சொல்ல முடியும். இதைச் செய்ய, j *-th வழக்கு தேர்ந்தெடுக்கப்பட்ட உண்மையான நிகழ்தகவைக் குறிக்க *p *: `j` என்ற குறியீட்டைப் பயன்படுத்துவோம். சுழிய கருதுகோள் உண்மையாக இருந்தால், நான்கு வழக்குகளில் ஒவ்வொன்றும் தேர்ந்தெடுக்க 25 % வாய்ப்பு உள்ளது. வேறு வார்த்தைகளில் கூறுவதானால், எங்கள் சுழிய கருதுகோள் *பி *: துணை: `1` = 0.25, *பி *: துணை:` 2` = 0.25, *பி *: துணை: `3` = 0.25 *பி: துணை: 4 = 0.25. எவ்வாறாயினும், முழு தரவுத் தொகுப்பையும் சுருக்கமாகக் கூறும் எங்கள் கவனிக்கப்பட்ட அதிர்வெண்களை ஒரு திசையன் * o * ஆகக் குழுவாகக் கொண்டிருக்கலாம், எங்கள் சுழிய கருதுகோளுடன் ஒத்த நிகழ்தகவுகளைக் குறிக்க * p * ஐப் பயன்படுத்தலாம். எனவே நான் திசையன் p = (p: sub: 1 ,*p*: துணை:` 2` ,*p*: துணை: 3 ,*p*: துணை: 4 ) எங்கள் சுழிய கருதுகோளை விவரிக்கும் நிகழ்தகவுகளின் சேகரிப்பைக் குறிப்பிடவும், பின்னர் நம்மிடம் உள்ளது:

H₀: P = (0.25, 0.25, 0.25, 0.25)

இந்த குறிப்பிட்ட சந்தர்ப்பத்தில், எங்கள் சுழிய கருதுகோள் நிகழ்தகவுகளின் திசையனுக்கு ஒத்திருக்கிறது * p *, இதில் அனைத்து நிகழ்தகவுகளும் ஒருவருக்கொருவர் சமம். ஆனால் இது அப்படி இருக்க வேண்டியதில்லை. உதாரணமாக, வேறு எந்த வழக்கையும் விட இரண்டு மடங்கு அதிகமான கிளப்புகளைக் கொண்ட ஒரு டெக்கிலிருந்து அவர்கள் வரைவதை மக்கள் கற்பனை செய்ய வேண்டும் என்றால், சுழிய கருதுகோள் * p * = (0.4, 0.2, 0.2, 0.2 போன்றவற்றுடன் ஒத்திருக்கும். ). நிகழ்தகவுகள் அனைத்தும் நேர்மறையான எண்களாக இருக்கும் வரை, அவை அனைத்தும் 1 ஆக இருக்கும் வரை, இது சுழிய கருதுகோளுக்கு முற்றிலும் முறையான தேர்வாகும். எவ்வாறாயினும், பொருத்தமான சோதனையின் மிகவும் பொதுவான பயன்பாடு, அனைத்து வகைகளும் சமமாக இருக்கக்கூடும் என்ற சுழிய கருதுகோளை சோதிப்பதாகும், எனவே எங்கள் எடுத்துக்காட்டுக்காக நாங்கள் அதை ஒட்டிக்கொள்வோம்.

எங்கள் மாற்று கருதுகோள் பற்றி, h : துணை: 1? சம்பந்தப்பட்ட நிகழ்தகவுகள் அனைத்தும் ஒரே மாதிரியானவை அல்ல என்பதை நாங்கள் உண்மையிலேயே ஆர்வமாக உள்ளோம் (அதாவது, மக்களின் தேர்வுகள் முற்றிலும் சீரற்றவை அல்ல). இதன் விளைவாக, எங்கள் கருதுகோள்களின் “மனித நட்பு” பதிப்புகள் இப்படி இருக்கும்:

H : துணை: 0: நான்கு வழக்குகளும் சம நிகழ்தகவுடன் தேர்ந்தெடுக்கப்படுகின்றன

H : துணை: 1: வழக்கு-தேர்வு நிகழ்தகவுகளில் குறைந்தபட்சம் ஒன்று * 0.25 அல்ல

மற்றும் “கணிதவியலாளர் நட்பு” பதிப்பு:

H₀: P = (0.25, 0.25, 0.25, 0.25)

H₁: P ≠ (0.25, 0.25, 0.25, 0.25)

"நன்மை-பொருத்தம்" சோதனை புள்ளிவிவரம்

இந்த கட்டத்தில், எங்களிடம் கவனிக்கப்பட்ட அதிர்வெண்கள் * o * மற்றும் நாம் சோதிக்க விரும்பும் சுழிய கருதுகோளுடன் தொடர்புடைய நிகழ்தகவுகளின் தொகுப்பு * p . நாம் இப்போது செய்ய விரும்புவது சுழிய கருதுகோளின் சோதனையை உருவாக்குவதாகும். எப்போதும்போல, H : துணை: `0` க்கு எதிராக H : துணை:` 1` ஆகியவற்றை சோதிக்க விரும்பினால், எங்களுக்கு ஒரு சோதனை புள்ளிவிவரம் தேவைப்படும். சுழிய கருதுகோளுக்கு தரவு எவ்வளவு "நெருக்கமாக" உள்ளது என்பதை அளவிடும் சோதனை புள்ளிவிவரத்தை உருவாக்குவதே ஒரு நன்மை-பொருத்தமான சோதனை பயன்படுத்தும் அடிப்படை தந்திரம். சுழிய கருதுகோள் உண்மையா என்று நீங்கள் “எதிர்பார்ப்பதை” தரவு ஒத்திருக்கவில்லை என்றால், அது உண்மையல்ல. சரி, சுழிய கருதுகோள் உண்மையாக இருந்தால், நாம் எதைப் பார்ப்போம் என்று எதிர்பார்க்கிறோம்? அல்லது, சரியான சொற்களைப் பயன்படுத்த, * எதிர்பார்க்கப்படும் அதிர்வெண்கள் என்ன **. *N *= 200 அவதானிப்புகள் உள்ளன, மற்றும் (பூச்யமானது உண்மையாக இருந்தால்) அவர்களில் எவரும் இதயத்தைத் தேர்ந்தெடுப்பதற்கான நிகழ்தகவு *p *: துணை: 3 = 0.25, எனவே நாங்கள் 200 எதிர்பார்க்கிறோம் என்று நினைக்கிறேன் 200 · 0.25 = 50 இதயங்கள், இல்லையா? அல்லது, இன்னும் குறிப்பாக, நாம் *E *: துணை: `நான் வகையின் எண்ணிக்கையை *நான் *நான் எதிர்பார்க்கிறேன் என்ற பதில்கள் சுழியம் உண்மையாக இருந்தால்” என்று குறிப்பிடுகிறேன்: பின்னர்:

E_i = N · P_i

இது கணக்கிடுவது மிகவும் எளிதானது. நான்கு வகைகளாக வரக்கூடிய 200 அவதானிப்புகள் இருந்தால், நான்கு வகைகளும் சமமாக இருக்கக்கூடும் என்று நாங்கள் நினைக்கிறோம், பின்னர் சராசரியாக ஒவ்வொரு வகையிலும் 50 அவதானிப்புகளைக் காண எதிர்பார்க்கிறோம், இல்லையா?

இப்போது, இதை ஒரு சோதனை புள்ளிவிவரமாக எவ்வாறு மொழிபெயர்ப்பது? தெளிவாக, நாம் செய்ய விரும்புவது ஒவ்வொரு வகையிலும் (e: துணை: i )*கவனிக்கப்பட்ட*அவதானிப்புகளின் எண்ணிக்கையுடன் (o: துணை : நான் ). இந்த ஒப்பீட்டின் அடிப்படையில் நாம் ஒரு நல்ல சோதனை புள்ளிவிவரத்தைக் கொண்டு வர முடியும். தொடங்குவதற்கு, சுழிய கருதுகோள் நம்மைக் கண்டுபிடிக்கும் என்பதற்கும் உண்மையில் நாம் உண்மையில் கண்டுபிடித்ததற்கும் உள்ள வித்தியாசத்தை கணக்கிடுவோம். அதாவது, “கவனிக்கப்பட்ட கழித்தல் எதிர்பார்க்கப்படும்” வேறுபாடு மதிப்பெண்ணை நாங்கள் கணக்கிடுகிறோம், *o *: துணை: `i - *e *: துணை:` i`. இது பின்வரும் அட்டவணையில் விளக்கப்பட்டுள்ளது:

		♣	♢	♡	♠
எதிர்பார்க்கப்படும் அதிர்வெண்	E_i	50	50	50	50
கவனிக்கப்பட்ட அதிர்வெண்	O₁	35	51	64	50
வேறுபாடு மதிப்பெண்	E_i - O₁	-15	1	14	0

எனவே, எங்கள் கணக்கீடுகளின் அடிப்படையில், சுழிய கருதுகோளைக் காட்டிலும் மக்கள் அதிக இதயங்களையும் குறைவான கிளப்புகளையும் தேர்ந்தெடுத்தார்கள் என்பது தெளிவாகிறது. எவ்வாறாயினும், இந்த மூல வேறுபாடுகள் நாம் தேடும் விசயமல்ல என்று ஒரு கணத்தின் சிந்தனை தெரிவிக்கிறது. உள்ளுணர்வாக, சுழிய கருதுகோள் மிகக் குறைவான அவதானிப்புகளை கணிக்கும்போது (இது இதயங்களுடன் நடந்தது) இது பலவற்றைக் கணிக்கும் போது (இது கிளப்புகளுடன் நடந்தது) கணிக்கும்போது அது மோசமாக இருப்பதாக உணர்கிறது. எனவே கிளப்புகளுக்கு எதிர்மறையான எண்ணும், இதயங்களுக்கு நேர்மறையான எண்ணும் இருப்பது சற்று வித்தியாசமானது. இதை சரிசெய்ய ஒரு எளிதான வழி எல்லாவற்றையும் சதுரப்படுத்துவதாகும், இதனால் இப்போது சதுர வேறுபாடுகளைக் கணக்கிடுகிறோம், (o: துணை: i -o: துணை:` i` ). முன்பு போல, இதை நாம் கையால் செய்ய முடியும்:

(observed - expected) ^ 2
   clubs diamonds   hearts   spades
     225        1      196        0

இப்போது நாங்கள் முன்னேறி வருகிறோம். சுழிய கருதுகோள் ஒரு மோசமான கணிப்பை (கிளப்புகள் மற்றும் இதயங்கள்) செய்யும் போதெல்லாம் பெரிய எண்களின் தொகுப்பாகும், ஆனால் அது ஒரு நல்ல ஒன்றை (வைரங்கள் மற்றும் மண்வெட்டிகள்) உருவாக்கும் போதெல்லாம் சிறியதாக இருக்கும். அடுத்து, நான் ஒரு கணத்தில் விளக்கும் சில தொழில்நுட்ப காரணங்களுக்காக, இந்த எண்கள் அனைத்தையும் எதிர்பார்த்த அதிர்வெண் மூலம் பிரிப்போம் *e *: sub: i , எனவே நாங்கள் உண்மையில் கணக்கிடுகிறோம்: கணிதம்:` frac { (E_i-o_i)^2} {E_i} . எங்கள் எடுத்துக்காட்டில் உள்ள அனைத்து வகைகளுக்கும் *e *: துணை: `i = 50 என்பதால், இது மிகவும் சுவையான கணக்கீடு அல்ல, ஆனால் எப்படியும் இதைச் செய்வோம்:

(observed - expected) ^ 2 / expected
   clubs diamonds   hearts   spades
    4.50     0.02     3.92     0.00

இதன் விளைவாக, எங்களிடம் கிடைத்திருப்பது நான்கு வெவ்வேறு “பிழை” மதிப்பெண்கள், ஒவ்வொன்றும் நாம் கவனிக்கப்பட்ட அதிர்வெண்களைக் கணிக்க அதைப் பயன்படுத்த முயற்சித்தபோது சுழிய கருதுகோள் எவ்வளவு பெரிய “தவறு” என்று எங்களிடம் கூறுகிறது. எனவே, இதை ஒரு பயனுள்ள சோதனை புள்ளிவிவரமாக மாற்றுவதற்காக, நாங்கள் செய்யக்கூடிய ஒரு சேதி இந்த எண்களைச் சேர்ப்பதுதான். இதன் விளைவாக ** நன்மை-இன்-ஃபிட் ** புள்ளிவிவரம் என்று அழைக்கப்படுகிறது, இது வழக்கமாக χ² (சி-சதுர) அல்லது GOF என குறிப்பிடப்படுகிறது. அதை நாம் பின்வருமாறு கணக்கிடலாம்:

sum((observed - expected) ^ 2 / expected)

இது எங்களுக்கு `` 8.44`` மதிப்பை வழங்குகிறது.

நாம் * K * ஐ அனுமதித்தால் மொத்த வகைகளின் எண்ணிக்கையைப் பார்க்கவும் (அதாவது, எங்கள் கார்டுகளின் தரவுக்கு * K * = 4), χ² புள்ளிவிவரம் வழங்கப்படுகிறது:

\[\chi^2 = \sum_{i=1}^k \frac{(O_i - E_i)^2}{E_i}\]

உள்ளுணர்வாக, χ² சிறியதாக இருந்தால், கவனிக்கப்பட்ட தரவு *o *: sub: நான் சுழிய கருதுகோள் கணித்ததற்கு மிக நெருக்கமாக உள்ளது *e *: sub: i , எனவே நாங்கள் போகிறோம் பூச்யத்தை நிராகரிக்க ஒரு பெரிய χ² புள்ளிவிவரம் தேவை.

எங்கள் கணக்கீடுகளிலிருந்து நாம் பார்த்தபடி, எங்கள் கார்டுகள் தரவு தொகுப்பில் χ² = 8.44 மதிப்பைப் பெற்றுள்ளோம். எனவே இப்போது கேள்வி மாறுகிறது இது பூச்யத்தை நிராகரிக்க போதுமான மதிப்புள்ளதா?

GOF புள்ளிவிவரத்தின் மாதிரி வழங்கல்

Null இன் ஒரு குறிப்பிட்ட மதிப்பு சுழிய கருதுகோளை நிராகரிப்பதை நியாயப்படுத்தும் அளவுக்கு பெரியதா இல்லையா என்பதை தீர்மானிக்க, சுழிய கருதுகோள் உண்மையாக இருந்தால் χ² மாதிரி வழங்கல் என்னவாக இருக்கும் என்பதை நாம் கண்டுபிடிக்க வேண்டும். எனவே இந்த பிரிவில் நான் செய்யப் போகிறேன். இந்த மாதிரி வழங்கல் எவ்வாறு கட்டமைக்கப்படுகிறது என்பதை நான் நியாயமான அளவில் காண்பிப்பேன், பின்னர், அடுத்த பகுதியில், ஒரு கருதுகோள் சோதனையை உருவாக்க இதைப் பயன்படுத்துகிறேன். நீங்கள் துரத்தலைக் குறைக்க விரும்பினால், மாதிரி வழங்கல் ** χ² விநியோக ** ** K* - 1 டிகிரி சுதந்திரத்துடன் அதை நம்ப விரும்பினால், இந்த பகுதியின் எஞ்சிய பகுதியை நீங்கள் தவிர்க்கலாம். இருப்பினும், நீங்கள் புரிந்து கொள்ள விரும்பினால் * ஏன் * நன்மை-பொருத்தம் சோதனை அது செய்யும் வழியில் செயல்படுகிறது, படிக்கவும்.

சரி, சுழிய கருதுகோள் உண்மையில் உண்மை என்று வைத்துக்கொள்வோம். அப்படியானால், *i *-th பிரிவில் ஒரு அவதானிப்பு விழும் உண்மையான நிகழ்தகவு *p *: துணை: i . எல்லாவற்றிற்கும் மேலாக, இது எங்கள் சுழிய கருதுகோளின் வரையறை. இது உண்மையில் எதைக் குறிக்கிறது என்பதைப் பற்றி சிந்திக்கலாம். எடையுள்ள நாணயத்தை புரட்டுவதன் மூலம் (அதாவது, தலையைப் பெறுவதற்கான நிகழ்தகவு *பி *: துணை: துணை: j ). ஆகவே, எங்கள் கவனிக்கப்பட்ட அதிர்வெண்ணைப் பற்றி நாம் சிந்திக்கலாம் *o *: துணை: இந்த நாணயங்களில் இயற்கையை புரட்டியதாக கற்பனை செய்வதன் மூலம் (தரவு தொகுப்பில் ஒவ்வொரு அவதானிப்பிற்கும் ஒன்று), மற்றும் சரியாக *o *: துணை: `நான் அவர்களில் தலைகீழாக வந்தேன். வெளிப்படையாக, இது பரிசோதனையைப் பற்றி சிந்திக்க மிகவும் வித்தியாசமான வழி. ஆனால் அது என்ன செய்கிறது (நான் நம்புகிறேன்) இந்த சூழ்நிலையை நாங்கள் இதற்கு முன்பு பார்த்திருக்கிறோம் என்பதை உங்களுக்கு நினைவூட்டுகிறது. அதே அமைப்புதான்: டாக்: `பைனோமியல் வழங்கல் <../ ch07/ch07_probability_4>. வேறு வார்த்தைகளில் கூறுவதானால், சுழிய கருதுகோள் உண்மையாக இருந்தால், எங்கள் கவனிக்கப்பட்ட அதிர்வெண்கள் ஒரு இருமுனை விநியோகத்திலிருந்து மாதிரி செய்வதன் மூலம் உருவாக்கப்பட்டன என்பதை இது பின்வருமாறு கூறுகிறது:

O_i ~ Binomial(P_i, N)

இப்போது. : நான் 0 அல்லது 1 க்கு அருகில் இல்லை. . இன்னும் சிறப்பாக, *o *: துணை: `நான் பொதுவாக விநியோகிக்கப்பட்டால், அவ்வாறே: கணிதம்: (o_i - e_i)/sqrt {E_i} . *E *: துணை: `நான் ஒரு நிலையான மதிப்பு, *e *: sub: i` ஐக் கழித்தல் மற்றும் பிரித்தல்: கணிதம்: sqrt {E_i} இயல்பான சராசரி மற்றும் நிலையான விலகலை மாற்றுகிறது வழங்கல் ஆனால் அவ்வளவுதான். சரி, எனவே இப்போது நம்முடைய நன்மை-பொருத்தமான புள்ளிவிவரம் உண்மையில் என்ன *என்பதைப் பார்ப்போம். நாங்கள் என்ன செய்கிறோம் என்பது பொதுவாக விநியோகிக்கப்பட்ட விசயங்களை எடுத்து, அவற்றைச் சேர்ப்பது, அவற்றைச் சேர்ப்பது. காத்திருங்கள். நாங்கள் அதை முன்பே பார்த்தோம்! நாங்கள் விவாதித்தபடி: டிஓசி: `../ சி.எச். அளவு χ² விநியோகத்தைக் கொண்டுள்ளது. ஆகவே, சுழிய கருதுகோள் நன்மை-பொருத்தமான புள்ளிவிவரத்தின் மாதிரி வழங்கல் ஒரு χ² விநியோகமாகும் என்று கணித்துள்ளது என்பதை இப்போது நாம் அறிவோம். குளிர்.

பேசுவதற்கு ஒரு கடைசி விவரம் உள்ளது, அதாவது சுதந்திரத்தின் அளவுகள். நீங்கள் மீண்டும் நினைவில் வைத்திருந்தால்: doc: ../ ch07/ch07_probability_6 . ஆயினும்கூட, இந்த பிரிவின் தொடக்கத்தில் நான் சொன்னது என்னவென்றால், χ²-நல்ல-பொருத்தம் சோதனைக்கான உண்மையான சுதந்திரங்கள் * k -1. அதனுடன் என்ன இருக்கிறது? இங்கே பதில் என்னவென்றால், நாம் பார்க்க வேண்டியது உண்மையான * சுயாதீனமான * விசயங்களின் எண்ணிக்கை. மேலும், அடுத்த பகுதியில் நான் பேசும்போது, * k * மட்டுமே சேர்க்கிறோம் * k * - அவற்றில் 1 உண்மையிலேயே சுயாதீனமானவை, எனவே சுதந்திரத்தின் அளவுகள் உண்மையில் மட்டுமே * k - 1. இது அடுத்த பகுதியின் தலைப்பு. [#] _

சுதந்திரத்தின் டிகிரி

நான் χ² விநியோகத்தை அறிமுகப்படுத்தியபோது: டாக்: ../ ch07/ch07_probability_6,“ ** விடுதலை ** ”உண்மையில்*என்றால் என்ன*என்று நான் கொஞ்சம் தெளிவற்றவனாக இருந்தேன். வெளிப்படையாக, இது முக்கியமானது. பார்க்க: NumRef: Figh-chisqdists, நாம் சுதந்திரத்தின் அளவுகளை மாற்றினால், χ²- விநியோக மாற்றங்கள் மிகவும் கணிசமாக உருவாகின்றன என்பதை நீங்கள் காணலாம். ஆனால் சரியாக என்ன * அது? மீண்டும், நான் விநியோகத்தை அறிமுகப்படுத்தி, சாதாரண விநியோகத்துடனான அதன் உறவை விளக்கியபோது, நான் ஒரு பதிலை வழங்கினேன்: இது நான் ச்கொயர் மற்றும் ஒன்றாகச் சேர்ப்பது “பொதுவாக விநியோகிக்கப்பட்ட மாறிகள்” எண்ணிக்கை. ஆனால், பெரும்பாலான மக்களுக்கு, இது ஒரு வகையான சுருக்கமானது மற்றும் முற்றிலும் உதவியாக இல்லை. நாம் உண்மையில் செய்ய வேண்டியது எங்கள் தரவின் அடிப்படையில் சுதந்திரத்தின் அளவைப் புரிந்துகொள்ள முயற்சிப்பதாகும். எனவே இங்கே செல்கிறது.

Triffeed வெவ்வேறு அளவிலான சுதந்திரத்துடன் விநியோகங்கள் — Fig. 75 "சுதந்திரத்தின் டிகிரி" க்கு வெவ்வேறு மதிப்புகளைக் கொண்ட χ² (சி-சதுர) விநியோகங்கள்

சுதந்திரத்தின் டிகிரி பின்னால் உள்ள அடிப்படை சிந்தனை மிகவும் எளிது. உங்கள் தரவை விவரிக்கப் பயன்படும் தனித்துவமான “அளவுகளின்” எண்ணிக்கையை கணக்கிட்டு, பின்னர் அந்தத் தரவு நிறைவு செய்ய வேண்டிய “தடைகள்” அனைத்தையும் கழிப்பதன் மூலம் நீங்கள் அதைக் கணக்கிடுகிறீர்கள். [#] _ இது சற்று தெளிவற்றது, எனவே பயன்படுத்துவோம் எங்கள் கார்டுகளின் தரவு ஒரு உறுதியான எடுத்துக்காட்டு. நான்கு எண்களைப் பயன்படுத்தி எங்கள் தரவை விவரிக்கிறோம், *o *: துணை: 1 , *o *: துணை:` 2` , *o *: துணை: 3 மற்றும் *o *: துணை: 4 நான்கு வெவ்வேறு வகைகளின் (இதயங்கள், கிளப்புகள், வைரங்கள், மண்வெட்டிகள்) கவனிக்கப்பட்ட அதிர்வெண்களுடன் தொடர்புடையது. இந்த நான்கு எண்கள் எங்கள் பரிசோதனையின் * சீரற்ற விளைவுகள் *. ஆனால் எனது பரிசோதனையில் உண்மையில் ஒரு நிலையான கட்டுப்பாடு உள்ளது: மாதிரி அளவு *n *. [#] _ அதாவது, எத்தனை பேர் இதயங்களைத் தேர்ந்தெடுத்தார்கள், எத்தனை பேர் வைரங்களைத் தேர்ந்தெடுத்தார்கள், எத்தனை கிளப்புகளைத் தேர்ந்தெடுத்தோம் என்று எங்களுக்குத் தெரிந்தால், நாங்கள் விரும்பினோம் எத்தனை மண்வெட்டிகளைத் தேர்ந்தெடுத்தது என்பதை சரியாகக் கண்டுபிடிக்க முடியும். வேறு வார்த்தைகளில் கூறுவதானால், எங்கள் தரவு நான்கு எண்களைப் பயன்படுத்தி விவரிக்கப்பட்டிருந்தாலும், அவை உண்மையில் 4 - 1 = 3 டிகிரி சுதந்திரத்துடன் மட்டுமே ஒத்திருக்கும். இதைப் பற்றி சற்று வித்தியாசமான சிந்தனையின் வழி என்னவென்றால், நாங்கள் ஆர்வமாக உள்ள நான்கு * நிகழ்தகவுகள் * இருப்பதைக் கவனிப்பதாகும் (மீண்டும், நான்கு வெவ்வேறு வகைகளுக்கு ஒத்ததாக), ஆனால் இந்த நிகழ்தகவுகள் ஒன்றில் தொகுக்கப்பட வேண்டும், இது ஒரு தடையை விதிக்கிறது. எனவே சுதந்திரத்தின் அளவுகள் 4 - 1 = 3. நீங்கள் கவனிக்கப்பட்ட அதிர்வெண்களின் அடிப்படையில் அல்லது நிகழ்தகவுகளின் அடிப்படையில் இதைப் பற்றி சிந்திக்க விரும்புகிறீர்களா என்பதைப் பொருட்படுத்தாமல், பதில் ஒன்றே. பொதுவாக, * k * குழுக்கள் சம்பந்தப்பட்ட ஒரு பரிசோதனைக்கான χ² (சி-சதுர) நன்மை-பொருத்தமான சோதனையை இயக்கும் போது, சுதந்திரத்தின் அளவுகள் * k *-1 ஆக இருக்கும்.

சுழிய கருதுகோளை சோதித்தல்

எங்கள் கருதுகோள் சோதனையை நிர்மாணிக்கும் செயல்முறையின் இறுதி கட்டம் நிராகரிப்பு பகுதி என்ன என்பதைக் கண்டுபிடிப்பதாகும். அதாவது, χ² இன் மதிப்புகள் சுழிய கருதுகோளை நிராகரிக்க வழிவகுக்கும். நாம் முன்னர் பார்த்தது போல, χ² இன் பெரிய மதிப்புகள் சுழிய கருதுகோள் எங்கள் பரிசோதனையிலிருந்து தரவைக் கணிக்கும் ஒரு மோசமான வேலையைச் செய்துள்ளது என்பதைக் குறிக்கிறது, அதேசமயம் stall இன் சிறிய மதிப்புகள் இது உண்மையில் நன்றாக செய்யப்பட்டுள்ளன என்பதைக் குறிக்கிறது. ஆகையால், சில முக்கியமான மதிப்புகள் உள்ளன என்று ஒரு அழகான விவேகமான உத்தி என்னவென்றால், முக்கியமான மதிப்பை விட χ² பெரியதாக இருந்தால், நாங்கள் பூச்யத்தை நிராகரிக்கிறோம், ஆனால் இந்த மதிப்பை விட சிறியதாக இருந்தால் நாம் பூச்யத்தைத் தக்க வைத்துக் கொள்கிறோம். வேறு வார்த்தைகளில் கூறுவதானால், அத்தியாயத்தில் நாம் அறிமுகப்படுத்திய மொழியைப் பயன்படுத்த: doc: ../ ch09/ch09_hypothesistest χ²-நல்ல-பொருத்தமான சோதனை எப்போதும் ** ஒருதலைப்பட்ச சோதனை ** ஆகும். சரி, எனவே நாம் செய்ய வேண்டியது இந்த முக்கியமான மதிப்பு என்ன என்பதைக் கண்டுபிடிப்பதுதான். இது மிகவும் நேரடியானது. எங்கள் சோதனைக்கு α = 0.05 முக்கியத்துவ நிலை இருக்க வேண்டும் என்று நாங்கள் விரும்பினால் (அதாவது, 5 %வகை I பிழை விகிதத்தை பொறுத்துக்கொள்ள நாங்கள் தயாராக இருக்கிறோம்), 5 %மட்டுமே இருக்க வேண்டும் என்பதற்காக எங்கள் முக்கியமான மதிப்பைத் தேர்வு செய்ய வேண்டும் சுழிய கருதுகோள் உண்மையாக இருந்தால் χ² அவ்வளவு பெரியதாக இருக்கும். இது இதில் விளக்கப்பட்டுள்ளது: NumRef: Figh-chisqtest.

கருதுகோள் சோதனை χ² GOF சோதனைக்கு வேலை செய்கிறது — Fig. 76 கருதுகோள் சோதனை χ² (சி-சதுர) நன்மை-பொருத்தமான சோதனைக்கு எவ்வாறு செயல்படுகிறது என்பதற்கான விளக்கம்

ஆ ஆனால், நீங்கள் கேட்பதை நான் கேட்கிறேன், * k * - 1 டிகிரி சுதந்திரத்துடன் χ² விநியோகத்தின் முக்கியமான மதிப்பை நான் எவ்வாறு கண்டுபிடிப்பது? பல ஆண்டுகளுக்கு முன்பு நான் முதன்முதலில் ஒரு உளவியல் புள்ளிவிவர வகுப்பை எடுத்தபோது, இந்த முக்கியமான மதிப்புகளை விமர்சன மதிப்பு அட்டவணைகள் புத்தகத்தில் பார்க்க பயன்படுத்தினோம், இதில்: எண்: தாவல்-சிச்கிரேர்டு_ கிரிட்ட்வெல்யூச். 3 டிகிரி சுதந்திரத்துடன் χ² விநியோகத்திற்கான முக்கியமான மதிப்பு, மற்றும் * p * = 0.05 7.815 ஆகும்.

Table 11 Χ² (சி-சதுர) விநியோகத்திற்கான முக்கியமான மதிப்புகளின் அட்டவணை
df	Probability
	குறிப்பிடத்தக்க அல்ல						குறிப்பிடத்தக்க
	0.95	0.90	0.70	0.50	0.30	0.10	0.05	0.01	0.001
1	0.004	0.016	0.148	0.455	1.074	2.706	3.841	6.635	10.828
2	0.103	0.211	0.713	1.386	2.408	4.605	5.991	9.210	13.816
3	0.352	0.584	1.424	2.366	3.665	6.251	7.815	11.345	16.266
4	0.711	1.064	2.195	3.357	4.878	7.779	9.488	13.277	18.467
5	1.145	1.610	3.000	4.351	6.064	9.236	11.070	15.086	20.515
6	1.635	2.204	3.828	5.348	7.231	10.645	12.592	16.812	22.458
7	2.167	2.833	4.671	6.346	8.383	12.017	14.067	18.475	24.322
8	2.733	3.490	5.527	7.344	9.524	13.362	15.507	20.090	26.124
9	3.325	4.168	6.393	8.343	10.656	14.684	16.919	21.666	27.877
10	3.940	4.865	7.267	9.342	11.781	15.987	18.307	23.209	29.588

எனவே, எங்கள் கணக்கிடப்பட்ட χ² புள்ளிவிவரம் 7.815 இன் முக்கியமான மதிப்பை விட பெரியதாக இருந்தால், சுழிய கருதுகோளை நாம் நிராகரிக்க முடியும் (பூச்ய கருதுகோள், h : துணை: 0, நான்கு வழக்குகளும் சம நிகழ்தகவுடன் தேர்ந்தெடுக்கப்படுகின்றன என்பதை நினைவில் கொள்ளுங்கள்) . இதற்கு முன் (அதாவது, χ² = 8.44) சுழிய கருதுகோளை நிராகரிக்க முடியும் என்பதை நாங்கள் ஏற்கனவே கணக்கிட்டதால். அதுதான், அடிப்படையில். இப்போது உங்களுக்குத் தெரியும் “பியர்சனின் χ² நன்மைக்கான சோதனை”. நீங்கள் அதிர்ச்டசாலி.

சமோவியில் சோதனை செய்கிறது

ஆச்சரியப்படுவதற்கில்லை, சாமோவி ஒரு பகுப்பாய்வை வழங்குகிறார், அது உங்களுக்காக இந்த கணக்கீடுகளைச் செய்யும். முதன்மையான `` அனலீச்`` கருவிப்பட்டியிலிருந்து `` அதிர்வெண்கள்`` `` ஒரு மாதிரி விகிதாச்சார சோதனைகள் →` n விளைவுகள்`` என்பதைத் தேர்ந்தெடுக்கவும். நீங்கள் பகுப்பாய்வு செய்ய விரும்பும் மாறியை நகர்த்தும் விருப்பங்கள் குழுவில் (`` சாய்ச்_1`` முழுவதும் `` மாறி`` பெட்டியில். முடிவுகள் நீங்கள் இதைச் செய்திருக்கும்போது, பகுப்பாய்வு சாமோவியில் முடிவுகளை நீங்கள் காண வேண்டும்: அத்தி-சிச்கேர்டு_ஆனலிசிச் 1 *df *= 3 மற்றும் *p *= 0.038 உடன் 8.44 மதிப்பு. * df * = 3 க்கு கணக்கிடப்பட்ட χ².

சாமோவியில் ஒரு மாதிரி விகிதாச்சார சோதனை — Fig. 77 χ² சமோவியில் ஒரு மாதிரி விகிதாச்சார சோதனை, அட்டவணை கவனிக்கப்பட்ட மற்றும் எதிர்பார்க்கப்படும் அதிர்வெண்கள் மற்றும் விகிதாச்சாரங்களைக் காட்டுகிறது

வேறுபட்ட சுழிய கருதுகோளைக் குறிப்பிடுகிறது

இந்த கட்டத்தில் நீங்கள் ஒரு நன்மை-பொருத்தமான சோதனையை இயக்க விரும்பினால் என்ன செய்வது என்று நீங்கள் யோசித்துக்கொண்டிருக்கலாம், ஆனால் உங்கள் சுழிய கருதுகோள் * அல்ல, எல்லா வகைகளும் சமமாக சாத்தியமாகும். உதாரணமாக, மக்கள் 60 % நேரம் சிவப்பு அட்டைகளைத் தேர்வு செய்ய வேண்டும் என்ற தத்துவார்த்த கணிப்பை யாராவது செய்திருக்கிறார்கள் என்று வைத்துக்கொள்வோம், மேலும் 40 % நேரம் (நீங்கள் அதை ஏன் கணிக்க வேண்டும் என்று எனக்குத் தெரியவில்லை), ஆனால் இருந்தது வேறு விருப்பத்தேர்வுகள் இல்லை. அப்படியானால், சுழிய கருதுகோள் 30 % தேர்வுகள் இதயங்களாக இருக்கும் என்று எதிர்பார்க்கலாம், 30 % வைரங்களாக இருக்கும், 20 % மண்வெட்டிகளாக இருக்க வேண்டும், 20 % கிளப்களாக இருக்கும். வேறு வார்த்தைகளில் கூறுவதானால், இதயங்களும் வைரங்களும் மண்வெட்டிகள் மற்றும் கிளப்புகளை விட 1.5 மடங்கு அதிகமாக தோன்றும் என்று நாங்கள் எதிர்பார்க்கிறோம் (30 %: 20 % விகிதம் 1.5: 1 க்கு சமம்). இது எனக்கு ஒரு வேடிக்கையான கோட்பாடு போல் தெரிகிறது, மேலும் இந்த வெளிப்படையாக குறிப்பிடப்பட்ட சுழிய கருதுகோளை எங்கள் சாமோவி பகுப்பாய்வில் உள்ள தரவுகளுடன் சோதிப்பது மிகவும் எளிதானது. பகுப்பாய்வு சாளரத்தில் (`` விகிதாச்சார சோதனை (என் விளைவுகள்) `` இல் பெயரிடப்பட்டது: எண்: அத்தி-சிச்குவேர்டு_ஆனலிசிச் 1 நீங்கள்` எதிர்பார்க்கப்படும் விகிதாச்சாரங்களுக்கான விருப்பங்களை விரிவுபடுத்தலாம். இதைச் செய்யும்போது, வெவ்வேறு விகிதத்தில் நுழைவதற்கான விருப்பங்கள் உள்ளன நீங்கள் தேர்ந்தெடுத்த மாறிக்கான மதிப்புகள், எங்கள் விசயத்தில் இது ` சாய்ச்_1`` ஆகும்.

எதிர்பார்க்கப்படும் எண்ணிக்கைகள் இப்போது:

		♣	♢	♡	♠
எதிர்பார்க்கப்படும் அதிர்வெண்	E_i	40	60	60	40

χ² புள்ளிவிவரம் 4.74, * df * = 3, * p * = 0.192. இப்போது, எங்கள் புதுப்பிக்கப்பட்ட கருதுகோள்களின் முடிவுகள் மற்றும் எதிர்பார்க்கப்படும் அதிர்வெண்கள் கடைசியாக இருந்ததைவிட வேறுபட்டவை. இதன் விளைவாக, எங்கள் χ² சோதனை புள்ளிவிவரம் வேறுபட்டது, மேலும் எங்கள் *பி *-மதிப்பு கூட வேறுபட்டது. எரிச்சலூட்டும் விதமாக, *p *-மதிப்பு 0.192 ஆகும், எனவே சுழிய கருதுகோளை நாம் நிராகரிக்க முடியாது (பிரிவைத் திரும்பிப் பாருங்கள்: DOC: ../ ch09/ch09_hypothesistesting_05 ஏன் என்பதை நினைவூட்டுவதற்கு). துரதிர்ச்டவசமாக, சுழிய கருதுகோள் மிகவும் வேடிக்கையான கோட்பாட்டிற்கு ஒத்ததாக இருந்தபோதிலும், இந்த தகவல்கள் அதற்கு எதிராக போதுமான ஆதாரங்களை வழங்காது.

Χ² ஒரு மாதிரி விகிதாச்சார சோதனையில் எதிர்பார்க்கப்படும் விகிதாச்சாரத்தை மாற்றுதல் — Fig. 78 சாமோவியில் χ² ஒரு மாதிரி விகிதாச்சார சோதனையில் எதிர்பார்க்கப்படும் விகிதாச்சாரத்தை மாற்றுதல்

சோதனையின் முடிவுகளை எவ்வாறு புகாரளிப்பது

எனவே சோதனை எவ்வாறு செயல்படுகிறது என்பதை இப்போது நீங்கள் அறிவீர்கள், மேலும் அற்புதமான சாமோவி சுவையான மேசிக் கம்ப்யூட்டிங் பெட்டியைப் பயன்படுத்தி சோதனை செய்வது எப்படி என்பது உங்களுக்குத் தெரியும். நீங்கள் தெரிந்து கொள்ள வேண்டிய அடுத்த சேதி முடிவுகளை எவ்வாறு எழுதுவது என்பதுதான். எல்லாவற்றிற்கும் மேலாக, ஒரு பரிசோதனையை வடிவமைத்து இயக்குவதில் எந்த அர்த்தமும் இல்லை, பின்னர் தரவைப் பற்றி நீங்கள் யாரிடமும் சொல்லவில்லை என்றால் பகுப்பாய்வு செய்வதில் எந்த அர்த்தமும் இல்லை! எனவே உங்கள் பகுப்பாய்வைப் புகாரளிக்கும்போது நீங்கள் என்ன செய்ய வேண்டும் என்பதைப் பற்றி இப்போது பேசலாம். எங்கள் அட்டை-சூட்ச் உதாரணத்துடன் ஒட்டிக்கொள்வோம். இந்த முடிவை நான் ஒரு காகிதத்திற்காக அல்லது ஏதேனும் எழுத விரும்பினால், இதைப் புகாரளிப்பதற்கான வழக்கமான வழி இதுபோன்ற ஒன்றை எழுதுவதாகும்:

பரிசோதனையில் பங்கேற்ற 200 பேரில், 64 பேர் தங்கள் முதல் தேர்வுக்கு தேர்ந்தெடுக்கப்பட்ட இதயங்கள், 51 தேர்ந்தெடுக்கப்பட்ட வைரங்கள், 50 தேர்ந்தெடுக்கப்பட்ட மண்வெட்டிகள் மற்றும் 35 தேர்ந்தெடுக்கப்பட்ட கிளப்புகள். நான்கு வழக்குகளுக்கும் தேர்வு நிகழ்தகவுகள் ஒரே மாதிரியாக இருந்ததா என்பதை சோதிக்க ஒரு χ²-நல்ல-பொருத்தம் சோதனை நடத்தப்பட்டது. முடிவுகள் குறிப்பிடத்தக்கவை (χ² (3) = 8.44, * ப * <0.05), மக்கள் சீரற்ற முறையில் வழக்குகளைத் தேர்ந்தெடுக்கவில்லை என்று பரிந்துரைக்கிறது.

இது மிகவும் நேரடியானது மற்றும் இது மிகவும் குறிப்பிடத்தக்கதாக இல்லை. இந்த விளக்கத்தைப் பற்றி நீங்கள் கவனிக்க வேண்டிய சில விசயங்கள் உள்ளன:

புள்ளிவிவர சோதனை விளக்க புள்ளிவிவரங்களால் முன்னதாக உள்ளது. அதாவது, சோதனை செய்யச் செல்வதற்கு முன்பு தரவு எப்படி இருக்கும் என்பதைப் பற்றி வாசகரிடம் ஏதாவது சொன்னேன். பொதுவாக, இது நல்ல நடைமுறை. உங்கள் வாசகருக்கு உங்கள் தரவை நீங்கள் நெருங்கிய எங்கும் தெரியாது என்பதை எப்போதும் நினைவில் கொள்ளுங்கள். எனவே, நீங்கள் அதை அவர்களுக்கு சரியாக விவரிக்காவிட்டால், புள்ளிவிவர சோதனைகள் அவர்களுக்கு எந்த அர்த்தமும் இல்லை, மேலும் அவை விரக்தியடைந்து அழிவிடும்.
சோதிக்கப்படும் சுழிய கருதுகோள் என்ன என்பதை விளக்கம் உங்களுக்குக் கூறுகிறது. உண்மையைச் சொல்வதானால், எழுத்தாளர்கள் எப்போதுமே இதைச் செய்ய மாட்டார்கள், ஆனால் சில தெளிவற்ற தன்மை இருக்கும் அந்த சூழ்நிலைகளில் இது ஒரு நல்ல யோசனையாகும், அல்லது நீங்கள் பயன்படுத்தும் புள்ளிவிவர கருவிகளை நெருக்கமாக அறிந்திருப்பதை உங்கள் வாசகர்களை நம்ப முடியாது. நீங்கள் பயன்படுத்தும் சோதனையின் அனைத்து விவரங்களையும் வாசகருக்குத் தெரியாது (அல்லது நினைவில் கொள்ளலாம்), எனவே அவற்றை "நினைவூட்டுவது" ஒரு வகையான மரியாதை! நன்மை-பொருத்தமான சோதனையைப் பொறுத்தவரை, நீங்கள் வழக்கமாக விஞ்ஞான பார்வையாளர்களை அது எவ்வாறு செயல்படுகிறது என்பதை அறிந்து கொள்ளலாம் (இது பெரும்பாலான அறிமுக புள்ளிவிவர வகுப்புகளில் மூடப்பட்டிருப்பதால்). இருப்பினும், சுழிய கருதுகோளை (சுருக்கமாக!) குறிப்பிடுவதில் வெளிப்படையாக இருப்பது இன்னும் நல்ல யோசனையாகும், ஏனெனில் நீங்கள் சோதனையைப் பயன்படுத்துவதைப் பொறுத்து சுழிய கருதுகோள் வேறுபட்டிருக்கலாம். உதாரணமாக, கார்டுகளின் எடுத்துக்காட்டில் எனது சுழிய கருதுகோள் என்னவென்றால், நான்கு சூட் நிகழ்தகவுகளும் ஒரே மாதிரியானவை (அதாவது, *பி *: துணை: 1 = *பி *: துணை:` 2` = *பி *: துணை : 3 = *ப *: துணை:` 4` = 0.25), ஆனால் அந்த கருதுகோளைப் பற்றி சிறப்பு எதுவும் இல்லை. *பி *: துணை: 1 = 0.7 மற்றும் *பி *: துணை:` 2` = *பி *: துணை: 3 = *பி *என்ற சுழிய கருதுகோளை நான் எளிதாக சோதித்திருக்க முடியும் : துணை: 4 = 0.1 ஒரு நன்மை-பொருத்தமான சோதனையைப் பயன்படுத்துதல். எனவே உங்கள் சுழிய கருதுகோள் என்ன என்பதை நீங்கள் விளக்கினால் வாசகருக்கு இது உதவியாக இருக்கும். மேலும், சுழிய கருதுகோளை நான் கணிதத்தில் அல்ல, சொற்களில் விவரித்தேன். அது முற்றிலும் ஏற்றுக்கொள்ளத்தக்கது. நீங்கள் விரும்பினால் அதை கணிதத்தில் விவரிக்கலாம், ஆனால் பெரும்பாலான வாசகர்கள் சின்னங்களை விட சொற்களைப் படிக்க எளிதாகக் காணப்படுவதால், பெரும்பாலான எழுத்தாளர்கள் சொற்களைப் பயன்படுத்தி பூச்யத்தை விவரிக்க முனைகிறார்கள்.
ஒரு “ச்டேட் பிளாக்” சேர்க்கப்பட்டுள்ளது. சோதனையின் முடிவுகளைப் புகாரளிக்கும் போது, முடிவு குறிப்பிடத்தக்கது என்று நான் சொல்லவில்லை, நான் ஒரு “ச்டேட் பிளாக்” (அதாவது, அடர்த்தியான கணித தோற்றமுடைய பகுதி) ஐ சேர்த்துக் கொண்டேன், இது அனைத்து “முக்கிய” புள்ளிவிவர தகவல்களையும் தெரிவிக்கிறது . Fit- நல்ல-நல்ல-பொருத்தமான சோதனைக்கு, அறிக்கை பெறப்படும் தகவல்கள் சோதனை புள்ளிவிவரம் (பொருத்தமான புள்ளிவிவரம் 8.44), சோதனையில் பயன்படுத்தப்படும் வழங்கல் பற்றிய தகவல்கள் (3 டிகிரி சுதந்திரத்துடன் வழக்கமாக “χ² (3)” என சுருக்கப்படுகிறது, பின்னர் முடிவு குறிப்பிடத்தக்கதா என்பது பற்றிய தகவல்கள் (இந்த விசயத்தில் * ப * <0.05). ச்டேட் தொகுதிக்குச் செல்ல வேண்டிய குறிப்பிட்ட தகவல்கள் ஒவ்வொரு சோதனைக்கும் வேறுபட்டவை, எனவே ஒவ்வொரு முறையும் நான் ஒரு புதிய சோதனையை அறிமுகப்படுத்தும்போது ச்டேட் பிளாக் எப்படி இருக்க வேண்டும் என்பதை நான் உங்களுக்குக் காண்பிப்பேன். [#] _ இருப்பினும், பொதுவான கொள்கை நீங்கள் எப்போதுமே போதுமான தகவல்களை வழங்க வேண்டும், இதனால் வாசகர் அவர்கள் உண்மையிலேயே விரும்பினால் சோதனை முடிவுகளை அவர்களே சரிபார்க்க முடியும்.
முடிவுகள் விளக்கப்படுகின்றன. முடிவு குறிப்பிடத்தக்கதாக இருப்பதைக் குறிப்பதைத் தவிர, முடிவின் விளக்கத்தை நான் வழங்கினேன் (அதாவது, மக்கள் தோராயமாக தேர்வு செய்யவில்லை). இது வாசகருக்கு ஒரு தயவாகும், ஏனென்றால் உங்கள் தரவுகளில் என்ன நடக்கிறது என்பதைப் பற்றி அவர்கள் என்ன நம்ப வேண்டும் என்பது பற்றி அவர்களுக்கு ஏதாவது சொல்கிறது. இதுபோன்ற ஒன்றை நீங்கள் சேர்க்கவில்லை என்றால், என்ன நடக்கிறது என்பதை உங்கள் வாசகர் புரிந்துகொள்வது மிகவும் கடினம். [#] _

எல்லாவற்றையும் போலவே, உங்கள் வாசகருக்கு நீங்கள் * விசயங்களை விளக்குகிறீர்கள் என்பதே உங்கள் முக்கிய அக்கறை இருக்க வேண்டும். உங்கள் முடிவுகளைப் புகாரளிப்பதன் புள்ளி மற்றொரு மனிதனுடன் தொடர்புகொள்வதே என்பதை எப்போதும் நினைவில் கொள்ளுங்கள். ஒரு அறிக்கையின் முடிவுகள் அல்லது ஒரு ஆய்வறிக்கை அல்லது ஒரு விஞ்ஞான கட்டுரையை கூட நான் எத்தனை முறை பார்த்திருக்கிறேன் என்று நான் உங்களுக்கு சொல்ல முடியாது, ஏனென்றால் எழுத்தாளர் அவர்கள் எல்லா எண்களையும் சேர்த்துள்ளதை உறுதிசெய்து மறந்துவிட்டார் என்பதை மட்டுமே கவனம் செலுத்தியுள்ளார் உண்மையில் மனித வாசகருடன் தொடர்பு கொள்ளுங்கள்.

புள்ளிவிவர குறியீடு குறித்த கருத்து

சாத்தான் புள்ளிவிவரங்களிலும் வேதத்தை மேற்கோள் காட்டுவதிலும் சமமாக மகிழ்ச்சியடைகிறான்

– H.G. Wells

நீங்கள் மிகவும் நெருக்கமாகப் படித்துக்கொண்டிருந்தால், என்னைப் போலவே ஒரு கணிதக் குழாயும் இருந்தால், கடைசி பிரிவில் χ²-சோதனையை நான் எழுதிய விதம் பற்றி ஒரு சேதி இருக்கிறது, அது உங்களை கொஞ்சம் கொஞ்சமாகப் பற்றிக் கொள்ளக்கூடும். “Χ² (3) = 8.44” என்று எழுதுவதில் சற்று தவறு செய்யும் ஒன்று உள்ளது, நீங்கள் நினைத்துக்கொண்டிருக்கலாம். எல்லாவற்றிற்கும் மேலாக, இது 8.44 க்கு சமமான நன்மை-பொருத்தமான புள்ளிவிவரமாகும், எனவே நான் χ² = 8.44` அல்லது GOF = 8.44 ஐ எழுதியிருக்க வேண்டாமா? இது * மாதிரி வழங்கல் * (அதாவது, * df * = 3 உடன்) * சோதனை புள்ளிவிவரத்துடன் * (அதாவது, χ²) உடன் முரண்படுவதாகத் தெரிகிறது. Χ மற்றும் * ஃச் * மிகவும் ஒத்ததாக இருப்பதால், இது ஒரு எழுத்துப்பிழை என்று நீங்கள் கண்டறிந்தீர்கள். விந்தை, அது இல்லை. Χ² (3) = 8.44 எழுதுவது அடிப்படையில் எழுதுவதற்கான மிகவும் ஒடுக்கப்பட்ட வழியாகும் “சோதனை புள்ளிவிவரத்தின் மாதிரி வழங்கல் χ² (3), மற்றும் சோதனை புள்ளிவிவரத்தின் மதிப்பு 8.44”.

ஒரு வகையில், இது ஒரு வகையான முட்டாள். வெவ்வேறு சோதனை புள்ளிவிவரங்களில் * நிறைய * உள்ளன, அவை χ²- மாதிரி-விநியோகத்தைக் கொண்டிருக்கின்றன. எங்கள் நன்மை-பொருத்தமான சோதனைக்கு நாங்கள் பயன்படுத்திய χ²- புள்ளிவிவரங்கள் பலவற்றில் ஒன்றாகும் (பொதுவாக சந்தித்தவர்களில் ஒன்று என்றாலும்). விவேகமான, செய்தபின் ஒழுங்கமைக்கப்பட்ட உலகில், சோதனை புள்ளிவிவரம் மற்றும் மாதிரி விநியோகத்திற்கு ஒரு தனி பெயரைக் கொண்டிருக்கிறோம். அந்த வகையில், ஆய்வாளர் கணக்கிட்டது என்னவென்று ச்டேட் பிளாக் உங்களுக்குச் சொல்லும். சில நேரங்களில் இது நடக்கும். உதாரணமாக, பியர்சன் நன்மை-பொருத்தமான சோதனையில் பயன்படுத்தப்படும் சோதனை புள்ளிவிவரம் எழுதப்பட்டுள்ளது, ஆனால் சி *-டெச்ட் (: குறிப்பு: `சோகல் & ரோல்ஃப், 2011 <sokal_2011>`) என அழைக்கப்படும் நெருங்கிய தொடர்புடைய சோதனை உள்ளது [#] _ இதில் சோதனை புள்ளிவிவரம் *g *என எழுதப்பட்டுள்ளது. அது நிகழும்போது, பியர்சன் நன்மை-பொருத்தமான சோதனை மற்றும் *சி *-டெச்ட் இரண்டும் ஒரே சுழிய கருதுகோளைச் சோதிக்கின்றன, மேலும் மாதிரி வழங்கல் சரியாகவே உள்ளது (அதாவது, *k *-1 டிகிரி சுதந்திரத்துடன் ஒரு χ² விநியோகச்தம் ). பொருத்தமான சோதனையை விட கார்டுகளின் தரவுக்கு நான் ஒரு *g *-Test ஐ செய்திருந்தால், நான் *g *= 8.65 இன் சோதனை புள்ளிவிவரத்துடன் முடித்துவிட்டேன், இது χ² இலிருந்து சற்று வித்தியாசமானது = 8.44 நான் முன்பு பெற்ற மதிப்பு மற்றும் இது சற்று சிறிய *பி *-மதிப்பை *பி *= 0.034 ஐ உருவாக்குகிறது. சோதனை புள்ளிவிவரம், பின்னர் மாதிரி வழங்கல், பின்னர் *பி *-மதிப்பு ஆகியவற்றைப் புகாரளிக்க வேண்டும் என்று வைத்துக்கொள்வோம். அது உண்மையாக இருந்தால், இந்த இரண்டு சூழ்நிலைகளும் வெவ்வேறு புள்ளிவிவரத் தொகுதிகளை உருவாக்கும்: எனது அசல் முடிவு χ² = 8.44, χ² (3), *ப *= 0.038, அதேசமயம் *g *-test ஐப் பயன்படுத்தும் புதிய பதிப்பு எழுதப்படும் * g = 8.65, χ² (3),* ப* = 0.034. இருப்பினும், அமுக்கப்பட்ட அறிக்கையிடல் தரத்தைப் பயன்படுத்தி, அசல் முடிவு χ² (3) = 8.44,* ப* = 0.038, மற்றும் புதியது எழுதப்பட்டுள்ளது χ² (3) = 8.65,* ப* = 0.034, எனவே இது உண்மையில் தெளிவாகத் தெரியவில்லை எந்த சோதனையை நான் உண்மையில் ஓடினேன்.

ஆகவே, ச்டேட் தொகுதியின் உள்ளடக்கங்கள் என்ன சோதனைகள் நடத்தப்பட்டன என்பதை தனித்துவமாகக் குறிப்பிடும் உலகில் நாம் ஏன் வாழக்கூடாது? ஆழ்ந்த காரணம் என்னவென்றால், வாழ்க்கை குழப்பமாக இருக்கிறது. நாங்கள் (புள்ளிவிவர கருவிகளின் பயனர்களாக) இது நன்றாகவும் சுத்தமாகவும் ஒழுங்காகவும் இருக்க விரும்புகிறோம். இது ஒரு தயாரிப்பு போல வடிவமைக்கப்பட வேண்டும் என்று நாங்கள் விரும்புகிறோம், ஆனால் வாழ்க்கை எவ்வாறு செயல்படுகிறது என்பதல்ல. புள்ளிவிவரங்கள் என்பது ஒரு அறிவார்ந்த ஒழுக்கமாகும், மேலும் இது ஒரு பெருமளவில் விநியோகிக்கப்பட்ட, ஓரளவு இணக்கமான மற்றும் ஓரளவு போட்டியிடும் திட்டமாகும், இது யாரும் உண்மையில் முழுமையாக புரிந்து கொள்ளாதது. தரவு பகுப்பாய்வு கருவிகளாக நீங்களும் நானும் பயன்படுத்தும் விசயங்கள் புள்ளிவிவரங்களின் கடவுள்களின் செயலால் உருவாக்கப்படவில்லை. அவை பல்வேறு நபர்களால் கண்டுபிடிக்கப்பட்டன, கல்வி இதழ்களில் ஆவணங்களாக வெளியிடப்பட்டன, பல நபர்களால் செயல்படுத்தப்பட்டன, திருத்தப்பட்டன மற்றும் மாற்றப்பட்டன, பின்னர் பாடப்புத்தகங்களில் உள்ள மாணவர்களுக்கு வேறொருவரால் விளக்கப்பட்டன. இதன் விளைவாக, சோதனை புள்ளிவிவரங்கள் கூட பெயர்களைக் கொண்டிருக்கவில்லை, இதன் விளைவாக அவை தொடர்புடைய மாதிரி விநியோகத்தின் அதே பெயரைக் கொடுக்கின்றன. நாம் பின்னர் பார்ப்பது போல, χ² விநியோகத்தைப் பின்பற்றும் எந்தவொரு சோதனை புள்ளிவிவரமும் பொதுவாக “χ²- புள்ளிவிவரம்” என்று அழைக்கப்படுகிறது,*t-விநியோகத்தை பின்பற்றும் எதையும் “t-statistic” என்று அழைக்கப்படுகிறது, மற்றும் பல. ஆனால், χ² மற்றும் * g * எடுத்துக்காட்டு விளக்குவது போல, ஒரே மாதிரி விநியோகத்துடன் கூடிய இரண்டு வெவ்வேறு விசயங்கள் இன்னும், நன்றாக, வேறுபட்டவை.

இதன் விளைவாக, நீங்கள் ஓடிய உண்மையான சோதனை என்ன என்பது பற்றி தெளிவாக இருப்பது சில நேரங்களில் நல்ல யோசனையாகும், குறிப்பாக நீங்கள் சிறப்பான ஒன்றைச் செய்கிறீர்கள் என்றால். “Χ²-சோதனை” என்று நீங்கள் சொன்னால், நீங்கள் எந்த சோதனையைப் பற்றி பேசுகிறீர்கள் என்பது தெளிவாகத் தெரியவில்லை. இருப்பினும், மிகவும் பொதுவான இரண்டு சோதனைகள் பொருத்தமான சோதனை மற்றும்: டாக்: சுதந்திர சோதனை (அல்லது சங்கம்) <CH10_Chisquare_2> என்பதால், புள்ளிவிவரப் பயிற்சியைக் கொண்ட பெரும்பாலான வாசகர்கள் யூகிக்கலாம். ஆயினும்கூட, இது விழிப்புடன் இருக்க வேண்டிய ஒன்று.

[3]

இது அதிக எளிமைப்படுத்தல் என்பதை சுட்டிக்காட்ட நான் கடமைப்பட்டிருக்கிறேன். இது சில சூழ்நிலைகளுக்கு நன்றாக வேலை செய்கிறது, ஆனால் ஒவ்வொரு முறையும் முழு எண்களில்லாத சுதந்திர மதிப்புகளின் அளவைக் காண்போம். இது உங்களை அதிகம் கவலைப்பட வேண்டாம்; நீங்கள் இதைக் காணும்போது, “சுதந்திரத்தின் டிகிரி” என்பது உண்மையில் ஒரு குழப்பமான கருத்தாகும், மேலும் நான் இங்கே உங்களுக்குச் சொல்லும் நல்ல எளிய கதை முழு கதையும் அல்ல என்பதை நினைவூட்டுகிறது. ஒரு அறிமுக வகுப்பைப் பொறுத்தவரை, எளிய கதையுடன் ஒட்டிக்கொள்வது பொதுவாக சிறந்தது, ஆனால் இந்த எளிய கதை வீழ்ச்சியடையும் என்று எதிர்பார்க்கலாம் என்று எச்சரிப்பது சிறந்தது என்று நான் கருதுகிறேன். இந்த எச்சரிக்கையை நான் உங்களுக்கு வழங்கவில்லை என்றால், நீங்கள் * df * = 3.4 அல்லது ஏதேனும் ஒன்றைக் காணும்போது குழப்பமடையத் தொடங்கலாம், (தவறாக) நான் உங்களுக்கு தவறாகப் புரிந்து கொண்டேன் என்று நினைத்து (சரியாக) அதைக் காட்டிலும் (சரியாக) எதையாவது இருப்பதை உணர்ந்து கொள்வதை விட (சரியாக) உணர்கிறேன் நான் உங்களிடம் சொல்லவில்லை.

[5]

சரி, வகை. புள்ளிவிவரங்கள் எவ்வாறு அறிவிக்கப்பட வேண்டும் என்பதற்கான மரபுகள் ஒழுக்கத்திலிருந்து ஒழுக்கம் வரை ஓரளவு வேறுபடுகின்றன. உளவியலில் விசயங்கள் எவ்வாறு செய்யப்படுகின்றன என்பதோடு நான் ஒட்டிக்கொண்டிருக்கிறேன், ஏனென்றால் நான் என்ன செய்கிறேன். ஆனால் உங்கள் முடிவுகளை சரிபார்க்க அனுமதிக்க வாசகருக்கு போதுமான தகவல்களை வழங்குவதற்கான பொதுவான கொள்கை மிகவும் உலகளாவியது, நான் நினைக்கிறேன்.

[6]

சிலருக்கு, இந்த அறிவுரை ஒற்றைப்படை என்று தோன்றலாம், அல்லது தொழில்நுட்ப அறிக்கையை எவ்வாறு எழுதுவது என்பது குறித்த “வழக்கமான” ஆலோசனையுடன் குறைந்தபட்சம் முரண்படலாம். மிகவும் பொதுவாக, ஒரு அறிக்கையின் “முடிவுகள்” பிரிவு தரவை விவரிப்பதற்கும் புள்ளிவிவர பகுப்பாய்வைப் புகாரளிப்பதற்கும் என்று மாணவர்களிடம் கூறப்படுகிறது, மேலும் “கலந்துரையாடல்” பிரிவு விளக்கத்தை வழங்குவதாகும். அது செல்லும் வரையில் அது உண்மைதான், ஆனால் மக்கள் பெரும்பாலும் அதை உண்மையில் விளக்குகிறார்கள் என்று நினைக்கிறேன். முடிவுகள் பிரிவில் தரவின் விரைவான மற்றும் எளிமையான விளக்கத்தை வழங்குவதே நான் வழக்கமாக அணுகும் விதம், இதனால் தரவு நமக்கு என்ன சொல்கிறது என்பதை எனது வாசகர் புரிந்துகொள்கிறார். பின்னர், கலந்துரையாடலில், எனது முடிவுகள் மற்ற அறிவியல் இலக்கியங்களுடன் எவ்வாறு பொருந்துகின்றன என்பதைப் பற்றி ஒரு பெரிய கதையைச் சொல்ல முயற்சிக்கிறேன். சுருக்கமாக, “விளக்கம் விவாதத்தில் செல்கிறது” அறிவுரை உங்கள் முடிவுகள் பகுதியை புரிந்துகொள்ள முடியாத குப்பைகளாக மாற்ற வேண்டாம். உங்கள் வாசகரால் புரிந்து கொள்ளப்படுவது மிகவும் முக்கியமானது.