Section author: Danielle J. Navarro and David R. Foxcroft
அனுமானம் செய்வதற்கான பிற வழிகள்
இந்த நூல் முழுமையடையாத ஒரு வித்தியாசமான உணர்வு என்னவென்றால், அனுமான புள்ளிவிவரங்கள் எவ்வாறு செய்யப்பட வேண்டும் என்பதற்கான மிகக் குறுகிய மற்றும் பழங்கால பார்வையில் இது மிகவும் பெரிதும் கவனம் செலுத்துகிறது. அத்தியாயத்தில்: டிஓசி: ../ ch08/ch08_estimation பக்கச்சார்பற்ற மதிப்பீட்டாளர்கள், மாதிரி விநியோகங்கள் மற்றும் பலவற்றின் சிந்தனை பற்றி நான் கொஞ்சம் பேசினேன். அத்தியாயத்தில்: டாக்: ../ CH09/CH09_HYPOTHESISTESTING சுழிய கருதுகோள் முக்கியத்துவ சோதனை மற்றும் *P *-மதிப்புகள் என்ற கோட்பாடு பற்றி நான் பேசினேன். இந்த சிந்தனைகள் 20 ஆம் நூற்றாண்டின் முற்பகுதியில் இருந்து வருகின்றன, மேலும் புத்தகத்தில் நான் பேசிய கருவிகள் அந்தக் காலத்திலிருந்தே தத்துவார்த்த கருத்துக்களை மிகவும் பெரிதும் நம்பியுள்ளன. அந்த தலைப்புகளில் ஒட்டிக்கொள்ள நான் கடமைப்பட்டுள்ளேன், ஏனென்றால் அறிவியலில் பெரும்பாலான தரவு பகுப்பாய்வுகளும் அந்த யோசனைகளை நம்பியுள்ளன. எவ்வாறாயினும், புள்ளிவிவரக் கோட்பாடு அந்த தலைப்புகளுக்கு மட்டுப்படுத்தப்படவில்லை, அதே நேரத்தில் எல்லோரும் அவற்றைப் பற்றி தெரிந்து கொள்ள வேண்டும், ஏனெனில் அவற்றின் நடைமுறை முக்கியத்துவம் காரணமாக, பல விசயங்களில் அந்த சிந்தனைகள் சமகால தரவு பகுப்பாய்விற்கான சிறந்த நடைமுறையை குறிக்கவில்லை. நான் குறிப்பாக மகிழ்ச்சியடைந்த விசயங்களில் ஒன்று, இதைத் தாண்டி என்னால் கொஞ்சம் செல்ல முடிந்தது. அத்தியாயம்: டாக்: `../ சி.எச் .16/சி.எச். கூடுதலாக, அனுமானத்திற்கு பல அணுகுமுறைகள் உள்ளன, அவை குறிப்பிடத் தகுந்தவை:
** பூட்ச்ட்ராப்பிங். சில சந்தர்ப்பங்களில், இந்த கூற்றை நியாயப்படுத்த முயற்சித்தேன். எடுத்துக்காட்டாக, அத்தியாயம்: டாக்: ../ CH10/CH10_CHISQUARE இல் χ²-சோதனைகளைப் பற்றி பேசும்போது, சாதாரண விநியோகங்களுக்கும் χ²- பிரிவுகளுக்கும் இடையிலான அறியப்பட்ட உறவைப் பற்றி நான் குறிப்பிட்டேன் (அத்தியாயம்: DOC:` .. `நன்மை-பொருத்தமான புள்ளிவிவரத்தின் மாதிரி வழங்கல் எப்படி என்று கருதுகிறோம் இது உங்கள் தரவின் வழங்கல் பற்றிய ஒரு அனுமானத்தை அடிப்படையாகக் கொண்டது, இது 20 ஆம் நூற்றாண்டின் முற்பகுதியில் தவறு என்று அறியப்படுகிறது! "தரவைப் பற்றி அனுமானங்களின் கீழ், மாதிரி வழங்கல் என்பது நீங்கள் செய்யக்கூடிய மிகச் சிறந்ததாகும் உங்களுக்கு தேவையான மாதிரி விநியோகங்களுக்கு கணித தீர்வை யாரும் கண்டுபிடிக்கவில்லை. எனவே 20 ஆம் நூற்றாண்டின் பிற்பகுதி வரை, அதனுடன் தொடர்புடைய சோதனைகள் இல்லை அல்லது வேலை செய்யவில்லை. இருப்பினும், கணினிகள் இப்போது அனைத்தையும் மாற்றிவிட்டன. ஆடம்பரமான தந்திரங்கள் நிறைய உள்ளன, மேலும் சில மோசமானவை அல்ல, அதைச் சுற்றி வர நீங்கள் பயன்படுத்தலாம். இவற்றில் எளிமையானது பூட்ச்ட்ராப்பிங் ஆகும், மேலும் இது எளிமையான வடிவத்தில் இது நம்பமுடியாத அளவிற்கு எளிமையானது. (அ) பூச்ய கருதுகோள் உண்மை மற்றும் (ஆ) அறியப்படாத மக்கள்தொகை வழங்கல் உண்மையில் உங்கள் மூல தரவுகளுக்கு மிகவும் ஒத்ததாக இருக்கிறது என்ற இரட்டை அனுமானங்களின் கீழ், நீங்கள் செய்வது உங்கள் பரிசோதனையின் முடிவுகளை உருவகப்படுத்துவதாகும். வேறு வார்த்தைகளில் கூறுவதானால், தரவு பொதுவாக விநியோகிக்கப்படுகிறது என்று கருதுவதற்கு பதிலாக, மக்கள் தொகை உங்கள் மாதிரியைப் போலவே இருப்பதாகக் கருதுங்கள், பின்னர் அந்த அனுமானம் இருந்தால் உங்கள் சோதனை புள்ளிவிவரத்திற்கான மாதிரி விநியோகத்தை உருவகப்படுத்த கணினிகளைப் பயன்படுத்தவும். சற்றே சந்தேகத்திற்குரிய அனுமானத்தை நம்பியிருந்தாலும் (அதாவது, மக்கள்தொகை வழங்கல் மாதிரிக்கு சமம்!) பூட்ச்ட்ராப்பிங் விரைவான மற்றும் எளிதான முறையாகும், இது பல தரவு பகுப்பாய்வு சிக்கல்களுக்கு நடைமுறையில் குறிப்பிடத்தக்க வகையில் செயல்படுகிறது.
** குறுக்கு சரிபார்ப்பு. ** ஒவ்வொரு முறையும் எனது புள்ளிவிவர வகுப்புகளில் தோன்றும் ஒரு கேள்வி, வழக்கமாக ஒரு மாணவர் ஆத்திரமூட்டும் வகையில் இருக்க முயற்சிக்கிறார், “அனுமான புள்ளிவிவரங்களைப் பற்றி நாம் ஏன் கவலைப்படுகிறோம்? உங்கள் மாதிரியை ஏன் விவரிக்கக்கூடாது? ” கேள்விக்கான பதில் பொதுவாக இது போன்றது, “ஏனெனில் விஞ்ஞானிகளாகிய நமது உண்மையான ஆர்வம் கடந்த காலங்களில் நாம் கவனித்த குறிப்பிட்ட மாதிரி அல்ல, எதிர்காலத்தில் நாம் கவனிக்கக்கூடிய தரவைப் பற்றிய கணிப்புகளை உருவாக்க விரும்புகிறோம்”. புள்ளிவிவர அனுமானத்தில் நிறைய சிக்கல்கள் எழுகின்றன, ஏனெனில் எதிர்காலம் எப்போதும் ஒத்ததாக இருக்கும் என்று நாங்கள் எப்போதும் எதிர்பார்க்கிறோம், ஆனால் கடந்த காலத்திலிருந்து சற்று வித்தியாசமாக இருக்கும். அல்லது, பொதுவாக, புதிய தரவு பழைய தரவைப் போலவே இருக்காது. நாம் என்ன செய்கிறோம், பல சூழ்நிலைகளில், பழைய தரவை சிறப்பாக விவரிக்கும் அறிக்கைகளைத் தேர்ந்தெடுப்பதை விட, புதிய தரவுகளுக்கு சரியானதாக இருக்கக்கூடிய அனுமானங்களை வரைய உதவும் கணித விதிகளைப் பெற முயற்சிக்கிறோம். உதாரணமாக, இரண்டு மாதிரிகள் A மற்றும் B கொடுக்கப்பட்டால், இன்று நீங்கள் சேகரித்த தரவுத் தொகுப்பு ஃச், நீங்கள் நாளை சேகரிக்கப் போகும் புதிய தரவு தொகுப்பு ஒய் ஐ சிறப்பாக விவரிக்கும் மாதிரியைத் தேர்வுசெய்ய முயற்சிக்கவும். சில நேரங்களில் செயல்முறையை உருவகப்படுத்துவது வசதியானது, அதையே குறுக்கு சரிபார்ப்பு செய்கிறது. நீங்கள் செய்வது உங்கள் தரவை ஃச் 1 மற்றும் ஃச் 2 என இரண்டு துணைக்குழுக்களாகப் பிரிப்பதாகும். மாதிரியைப் பயிற்றுவிக்க ஃச் 1 துணைக்குழுவைப் பயன்படுத்தவும் (எ.கா., பின்னடைவு குணகங்களை மதிப்பிடுங்கள், சொல்லலாம்), ஆனால் பின்னர் மாதிரி செயல்திறனை மற்றொன்று x2 இல் மதிப்பிடுங்கள். பழைய தரவுகளிலிருந்து புதிய ஒன்றுக்கு மாதிரி * எவ்வளவு சிறப்பாக பொதுமைப்படுத்துகிறது என்பதற்கான ஒரு அளவை இது உங்களுக்கு வழங்குகிறது, மேலும் முழு தரவு தொகுப்பான ஃச் உடன் நீங்கள் பொருத்தினால், உங்கள் மாதிரி எவ்வளவு சிறந்தது என்பதற்கான சிறந்த நடவடிக்கையாகும்.
** வலுவான புள்ளிவிவரங்கள். ** வாழ்க்கை குழப்பமாக இருக்கிறது, உண்மையில் எதுவும் செய்ய வேண்டிய வழியில் எதுவும் செயல்படாது. இது வேறு எதற்கும் புள்ளிவிவரங்களுக்கும் பொருந்தும், மேலும் தரவை பகுப்பாய்வு செய்ய முயற்சிக்கும்போது, தரவு அவர்கள் இருக்க வேண்டியதை விட குழப்பமானதாக இருக்கும் அனைத்து வகையான சிக்கல்களிலும் நாம் அடிக்கடி சிக்கிக்கொண்டிருக்கிறோம். பொதுவாக விநியோகிக்கப்பட வேண்டிய மாறிகள் * உண்மையில் * பொதுவாக விநியோகிக்கப்படுவதில்லை, நேர்கோட்டு இருக்க வேண்டிய உறவுகள் * உண்மையில் * நேரியல் அல்ல, மேலும் உங்கள் தரவுத் தொகுப்பில் உள்ள சில அவதானிப்புகள் கிட்டத்தட்ட நிச்சயமாக குப்பை (அதாவது, அவை எதை அளவிடாது 'ரீ செய்ய வேண்டும்). இந்த புத்தகத்தில் நான் உருவாக்கிய பெரும்பாலான புள்ளிவிவரக் கோட்பாட்டில் இந்த குழப்பம் அனைத்தும் புறக்கணிக்கப்படுகிறது. இருப்பினும், ஒரு சிக்கலைப் புறக்கணிப்பது எப்போதும் அதைத் தீர்க்காது. சில நேரங்களில், குழப்பத்தை புறக்கணிப்பது உண்மையில் பரவாயில்லை, ஏனென்றால் சில வகையான புள்ளிவிவர கருவிகள் “வலுவானவை”, அதாவது, தரவு உங்கள் தத்துவார்த்த அனுமானங்களை நிறைவு செய்யாவிட்டால் அவை இன்னும் நன்றாக வேலை செய்கின்றன. பிற வகையான புள்ளிவிவர கருவிகள் வலுவானவை அல்ல, மேலும் தத்துவார்த்த அனுமானங்களிலிருந்து சிறிய விலகல்கள் கூட அவை உடைக்க காரணமாகின்றன. வலுவான புள்ளிவிவரங்கள் இந்த கேள்வியுடன் தொடர்புடைய புள்ளிவிவரங்களின் ஒரு கிளை ஆகும், மேலும் அவை ஒரு புள்ளிவிவரத்தின் “முறிவு புள்ளி” போன்ற விசயங்களைப் பற்றி பேசுகின்றன. அதாவது, புள்ளிவிவரத்தை நம்ப முடியாததற்கு முன்பு உங்கள் தரவு எவ்வளவு குழப்பமாக இருக்க வேண்டும்? நான் இதை இடங்களில் தொட்டேன். சராசரி * ஒரு மாறியின் மையப் போக்கின் வலுவான மதிப்பீட்டாளர் அல்ல, ஆனால் சராசரி. உதாரணமாக, எனது ஐந்து சிறந்த நண்பர்களின் அகவை 34, 39, 31, 43 மற்றும் 4003 ஆண்டுகள் என்று நான் சொன்னேன் என்று வைத்துக்கொள்வேன். அவர்கள் சராசரியாக எவ்வளவு அகவை என்று நினைக்கிறீர்கள்? அதாவது, உண்மையான மக்கள் தொகை இங்கே என்ன? உங்கள் மக்கள்தொகையின் மதிப்பீட்டாளர் பொருள் என மாதிரி அர்த்தத்தை நீங்கள் பயன்படுத்தினால், 830 ஆண்டுகளுக்கான பதிலைப் பெறுவீர்கள். மக்கள்தொகையின் மதிப்பீட்டாளராக நீங்கள் மாதிரி சராசரியைப் பயன்படுத்தினால், நீங்கள் 39 ஆண்டுகளின் பதிலைப் பெறுவீர்கள். இரண்டாவது வழக்கில் நீங்கள் தவறான காரியத்தைச் செய்தாலும் (சராசரியை மதிப்பிடுவதற்கு சராசரியைப் பயன்படுத்துதல்!) நீங்கள் உண்மையில் ஒரு சிறந்த பதிலைப் பெறுவீர்கள் என்பதைக் கவனியுங்கள். இங்குள்ள சிக்கல் என்னவென்றால், அவதானிப்புகளில் ஒன்று தெளிவாக, வெளிப்படையாக, ஒரு பொய். எனக்கு 4003 அகவை நண்பர் இல்லை. இது அநேகமாக ஒரு எழுத்துப்பிழை, நான் 43 தட்டச்சு செய்ய வேண்டும். ஆனால் நான் 43 க்கு பதிலாக 53 அல்லது 43 க்கு பதிலாக 34 தட்டச்சு செய்திருந்தால் என்ன செய்வது? இது ஒரு எழுத்துப்பிழை இல்லையா என்பதை நீங்கள் உறுதியாக நம்ப முடியுமா? சில நேரங்களில் தரவுகளில் உள்ள பிழைகள் நுட்பமானவை, எனவே மாதிரியைக் கண்மூடித்தனமாக நீங்கள் கண்டறிய முடியாது, ஆனால் அவை உங்கள் தரவை மாசுபடுத்தும் பிழைகள், அவை உங்கள் முடிவுகளை இன்னும் பாதிக்கின்றன. உங்களுக்குத் தெரியாத மாசுபாட்டை எதிர்கொள்ளும்போது கூட * பாதுகாப்பான * அனுமானங்களை நீங்கள் எவ்வாறு உருவாக்கலாம் என்பதில் வலுவான புள்ளிவிவரங்கள் அக்கறை கொண்டுள்ளன. இது மிகவும் அருமையான பொருள்.