T 검정(T-test) Class #11.

 통계적 가설의 평균 분석 (Standardized Tests) 평균 비교 분석이란, 연구를 할 때에, 관심이 되는 그룹에 대한 평균이 다른 비교 대상군과 차별화되어 다른(통계적으로 차이가 있는 결과를 볼 수 있다) 것을 보는 것이다. 예를 들어 2분반에서 같은 주제의 수업을 했을 경우 1분반은 강의 위주의 수업을 하고 2분반은 실습 위주의 수업을 했다고 가정해보자. 이때 어떤 교수법이 더 효과가 있었는지를 알아보기 위해 강의 후 테스트 결과값을 비교할 수 있다. 만약 1분조의 평균 점수는 80점, 2분조의 평균 점수는 85점이었다면 발표 위주의 수업을 한 2분조의 수업이 좋았다고나 할까? 학생 대부분의 점수가 2분 반이 1분 반보다 시험점수가 높으면 결과가 유의미할 수 있지만 일부 우수 학생 때문에 2분 반 시험점수의 평균점수를 높인다면(outlier) 통계적으로 유의미한 결과가 나올 확률이 낮아진다.

그 때문에, 중심 경향을 나타내는 「평균」이라고 하는 하나의 통계치가 결과치로서 사용되지만, 그 결과치에 그룹의 전멤버가 이 평균을 위해서 일관성을 가지고 기여하는지를 조사하는 것이 T-test 와 ANOVA 이다. T검정은 그룹이 2개일 때 사용되며, ANOVA는 그룹이 3개 이상일 때 사용된다. 예를 들어 여성그룹과 남성그룹을 비교한다면 T-test를 사용하고 10대, 20대, 30대 그룹을 비교한다면 ANOVA를 사용한다. 기본 취지는 비슷하다.TT검정(T-test)두두 집단 간의 평균을 비교하는 것이 T검정이다. 이것은 통계적인 가설로부터 시작하여 통계적인 과정에 맞추어 가설에 따라 공식에 의해 검정통계량의 값을 구한다. T 값이 Test Statistic Value이며, 프로그램에 따라 데이터를 입력하고 분석 명령을 넣으면 값을 구할 수 있다. 그리고 이 T값이 임계치를 벗어난 값이므로 영가설을 기각할 수 있는 영역에 위치하는지 보려는 것이 검증 방법이다.

검정 통계량 값의 절대값이 임 계값보다 작거나 진행되면 영가설을 받아들이고 임계값보다 크면 영가설을 기각하게 된다. 이것은 정석적인 검증 방법이지만, 컴퓨터로는 쉽게 판단할 수 있다.

p(이렇게 될 )값을 구해서 유의수준이라고 부르는 임의로 설정한 Threshold의 바깥쪽에 있는 면적의 비율 확률값에 의해 p값이 유의수준보다 크거나 같으면 영가설을 채택, 작으면 기각하게 된다.영가설의 유형

실제로 연구하는 대상의 「평균치가 얼마다」라고 주는 것이다. 예를 들어 도서관의 책 대출권수가 하루 평균 123권이고 오늘날 대출권수가 n권이라고 가정했을 때 이 둘을 T검정으로 비교할 수 있다. 즉 실제 나온 평균과 임의로 설정한 평균 수치를 비교하는 것이다.

또는 [여성남성], [학부생대학원생] 두 집단의 평균을 비교하면 영가설은 ‘두 집단의 차이가 없다’는 데서 비롯된다. 예를 들면 「A라고 하는 서비스를 이용하는 것과 B라고 하는 서비스를 이용하는 것에 차이는 없다」라고 영가설을 세우는 것이다. 이것도 T 검정에서 비교할 수 있다. 이때 비교하는 두 그룹은 independent 할 수도 있고 dependent 할 수도 있다. 이를 자세히 설명하면 다음과 같다. 첫째로 독립표본 T 검정은 완전히 다른 별개의 두 그룹, 예를 들어 여성과 남성의 그룹을 비교하는 것이다. 둘째로 대응 표본 T 검정은 쌍이 된 비교, 예를 들어 아버지와 딸을 비교하는 것이다(paired). 또는 한 사람이 두 번 수행했을 때 첫 번째 시도와 두 번째 시도를 비교하는 것이다(repeated).독립 표본 T 검정(Independent T-test)

랜덤한 두 샘플 그룹이 서로 다른 조건에 있을 때 행해진다. 검정방법이다. 무작위로 추출을 하여 1그룹에 넣어 2그룹에 넣어 다른 조치를 한 다음 평균을 비교하는 것이다. 1 그룹의 평균과 분산값, 2 그룹의 평균값과 분산값 사이에 의미 있는 차이가 나타나는지 본다. 기본적으로 통계적인 검증 과정에 관한 로직은 같다. 획득한 평균이 서로 떨어져 있는지, 특정 값으로부터 떨어져 있는지를 보고, 영가설이 채택인지 기각인지를 판단한다. 이러한 확률치를 보통 pvalue라고 한다. 이 값은 그 결과값이 통계적으로 유의미한지를 나타낸다. 예를 들면, 유의 수준을 0.05로 지정했을 경우, pvalue가 0.05보다 작으면 유의미한 결과이기 때문에, 영가설을 기각할 수 있게 된다.

독립 표본 T검정 SPSS

영업사원에게 두 가지 교육방법으로 교육을 받아 판매실적에 차이가 나는지를 알아보고 싶다.

[분석] → [평균비교] → [독립표본T검정]에 들어가 ‘검정변수’와 ‘집단변수’를 넣는다. 「집단 변수」에는 비교하려고 하는 2개의 그룹명도 적는다. 그리고 「」에 들어가 신뢰구간을 몇 %로 할지를 적는다(여기에서는 95%로 지정했다).

‘등분산을 가정하다’에서 t. 값은 1.649가 되어, 유의 확률(양측)은 0.119가 되었다. 이는 0.05보다 훨씬 크기 때문에 두 집단간의 차이는 통계적으로 의미가 없다고 할 수 있다.대응 표본 T 검정(Dependent T-test) 각각의 쌍(pair) 간에 차이를 두고 계산한다.

일표본 평균(단일집단) T검정 SPSS

중학생 30명의 데이터를 수집했다. 이 30개 숫자의 평균은 155cm 정도일까.

【분석】→[평균 비교]→[일표본 T검정]에 들어가 검정변수를 넣고 검정값을 「155」로 지정하고 옵션에서 신뢰구간을 적는다(여기에서는 95%로 했다).

t값은 5.914가 나왔고 유의확률은 0.000으로 대부분의 숫자가 155보다 훨씬 작았다는 뜻이다.

대응 표본 T검정 SPSS

8개의 슈퍼마켓에서 같은 제품을 디자인 a와 디자인 b로 다르게 디자인했다.그 다음에 물건이 팔린 개수를 조사했다. 디자인에 따라 물건 판매량이 다를까?같은 슈퍼마켓에서 다른 디자인의 페어를 비교하고 싶으므로 대응 표본 T 검정이 된다.

[분석] → [평균 비교] → [대응표] 본 T 검정]에 들어가서 ‘변수 1’에 ‘디자인 a’를 넣고 ‘변수 2’에 ‘디자인 b’를 넣는다. 그리고 옵션으로 신뢰 구간을 적는다(여기에서는 95%로 했다).

유의 확률이 0.041이고, 두 디자인 간의 차이가 매우 유의하게 결과가 나왔다. 디자인 a의 판매량이 디자인 b의 판매량보다 훨씬 높다.