पंडों पर टी-परीक्षण कैसे करें (3 उदाहरण)
निम्नलिखित उदाहरण दिखाते हैं कि पांडा डेटाफ़्रेम का उपयोग करके तीन अलग-अलग टी-परीक्षण कैसे करें:
- स्वतंत्र दो-नमूना टी-परीक्षण
- वेल्च का दो-नमूना टी-परीक्षण
- युग्मित नमूने टी-परीक्षण
उदाहरण 1: पांडा में स्वतंत्र दो-नमूना टी-परीक्षण
एक स्वतंत्र दो-नमूना टी-परीक्षण का उपयोग यह निर्धारित करने के लिए किया जाता है कि दो आबादी के साधन बराबर हैं या नहीं।
उदाहरण के लिए, मान लीजिए कि एक प्रोफेसर जानना चाहता है कि क्या दो अलग-अलग अध्ययन विधियों से परीक्षाओं में अलग-अलग औसत ग्रेड मिलते हैं।
इसका परीक्षण करने के लिए, वह 10 छात्रों को विधि ए का उपयोग करने के लिए और 10 छात्रों को विधि बी का उपयोग करने के लिए भर्ती करता है।
निम्नलिखित कोड दिखाता है कि प्रत्येक छात्र के स्कोर को पांडा डेटाफ़्रेम में कैसे दर्ज किया जाए, फिर एक स्वतंत्र दो-नमूना टी-टेस्ट करने के लिए SciPy लाइब्रेरी के ttest_ind() फ़ंक्शन का उपयोग करें:
import pandas as pd
from scipy. stats import ttest_ind
#create pandas DataFrame
df = pd. DataFrame ({'method': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'],
'score': [71, 72, 72, 75, 78, 81, 82, 83, 89, 91, 80, 81, 81,
84, 88, 88, 89, 90, 90, 91]})
#view first five rows of DataFrame
df. head ()
method score
0 to 71
1 To 72
2 To 72
3 to 75
4 to 78
#define samples
group1 = df[df[' method ']==' A ']
group2 = df[df[' method ']==' B ']
#perform independent two sample t-test
ttest_ind(group1[' score '], group2[' score '])
Ttest_indResult(statistic=-2.6034304605397938, pvalue=0.017969284594810425)
परिणाम से हम देख सकते हैं:
- टी-परीक्षण आँकड़ा: -2.6034
- पी-वैल्यू: 0.0179
चूँकि पी-वैल्यू 0.05 से कम है, हम टी-टेस्ट की शून्य परिकल्पना को अस्वीकार करते हैं और निष्कर्ष निकालते हैं कि यह बताने के लिए पर्याप्त सबूत हैं कि दोनों तरीकों से अलग-अलग औसत परीक्षा स्कोर प्राप्त होते हैं।
उदाहरण 2: पांडा में वेल्च का टी-परीक्षण
वेल्च का टी-परीक्षण स्वतंत्र दो-नमूना टी-परीक्षण के समान है, सिवाय इसके कि यह यह नहीं मानता है कि जिन दो आबादी से नमूने लिए गए हैं उनमें समान भिन्नता है।
पिछले उदाहरण के समान डेटा सेट पर वेल्च का टी-टेस्ट करने के लिए, हमें बस ttest_ind () फ़ंक्शन में बराबर_var=False निर्दिष्ट करने की आवश्यकता है:
import pandas as pd
from scipy. stats import ttest_ind
#create pandas DataFrame
df = pd. DataFrame ({'method': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'],
'score': [71, 72, 72, 75, 78, 81, 82, 83, 89, 91, 80, 81, 81,
84, 88, 88, 89, 90, 90, 91]})
#define samples
group1 = df[df[' method ']==' A ']
group2 = df[df[' method ']==' B ']
#perform Welch's t-test
ttest_ind(group1[' score '], group2[' score '], equal_var= False )
Ttest_indResult(statistic=-2.603430460539794, pvalue=0.02014688617423973)
परिणाम से हम देख सकते हैं:
- टी-परीक्षण आँकड़ा: -2.6034
- पी-वैल्यू: 0.0201
चूँकि पी-वैल्यू 0.05 से कम है, हम वेल्च के टी-टेस्ट की शून्य परिकल्पना को अस्वीकार करते हैं और निष्कर्ष निकालते हैं कि यह बताने के लिए पर्याप्त सबूत हैं कि दोनों तरीकों से अलग-अलग औसत परीक्षा स्कोर प्राप्त होते हैं।
उदाहरण 3: पांडास में युग्मित नमूने टी-परीक्षण
एक युग्मित नमूने टी-परीक्षण का उपयोग यह निर्धारित करने के लिए किया जाता है कि क्या दो जनसंख्या साधन बराबर हैं, जिसमें एक नमूने में प्रत्येक अवलोकन को दूसरे नमूने में एक अवलोकन के साथ जोड़ा जा सकता है।
उदाहरण के लिए, मान लीजिए कि एक प्रोफेसर जानना चाहता है कि क्या दो अलग-अलग अध्ययन विधियों से परीक्षाओं में अलग-अलग औसत ग्रेड मिलते हैं।
इसका परीक्षण करने के लिए, वह विधि ए का उपयोग करने और फिर परीक्षा लेने के लिए 10 छात्रों को भर्ती करता है। फिर वह उन्हीं 10 छात्रों को, जिन्होंने विधि बी का उपयोग किया था, तैयारी करने और समान कठिनाई की एक और परीक्षा देने की अनुमति दी।
चूँकि सभी छात्र दोनों नमूनों में उपस्थित होते हैं, हम इस परिदृश्य में एक युग्मित नमूने का टी-परीक्षण कर सकते हैं।
निम्नलिखित कोड दिखाता है कि प्रत्येक छात्र के स्कोर को पांडा डेटाफ़्रेम में कैसे दर्ज किया जाए, फिर युग्मित नमूने टी-टेस्ट करने के लिए SciPy लाइब्रेरी के ttest_rel() फ़ंक्शन का उपयोग करें:
import pandas as pd
from scipy. stats import ttest_rel
#create pandas DataFrame
df = pd. DataFrame ({'method': ['A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A', 'A',
'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B', 'B'],
'score': [71, 72, 72, 75, 78, 81, 82, 83, 89, 91, 80, 81, 81,
84, 88, 88, 89, 90, 90, 91]})
#view first five rows of DataFrame
df. head ()
method score
0 to 71
1 To 72
2 To 72
3 to 75
4 to 78
#define samples
group1 = df[df[' method ']==' A ']
group2 = df[df[' method ']==' B ']
#perform independent two sample t-test
ttest_rel(group1[' score '], group2[' score '])
Ttest_relResult(statistic=-6.162045351967805, pvalue=0.0001662872100210469)
परिणाम से हम देख सकते हैं:
- टी-परीक्षण आँकड़ा: -6.1620
- पी-वैल्यू: 0.0001
चूँकि पी-मान 0.05 से कम है, हम युग्मित नमूने टी-परीक्षण की शून्य परिकल्पना को अस्वीकार करते हैं और निष्कर्ष निकालते हैं कि यह बताने के लिए पर्याप्त सबूत हैं कि दोनों तरीकों से अलग-अलग औसत परीक्षा स्कोर प्राप्त होते हैं।
अतिरिक्त संसाधन
निम्नलिखित ट्यूटोरियल बताते हैं कि पायथन में अन्य सामान्य कार्य कैसे करें:
पायथन में ची-स्क्वायर इंडिपेंडेंस टेस्ट कैसे करें
पायथन में वन-वे एनोवा कैसे निष्पादित करें
पायथन में फिशर का सटीक परीक्षण कैसे करें