[내일배움캠프]

[QA/QC_2기]본캠프 Day 29: 모집단, 검정 Rewind

mulmoknnhama 2025. 6. 20. 21:11

어느덧 29일차 진행. 30% 가 넘었다.

시간이 참 빠르다. 파이썬 시작한지 얼마 안 된것 같은데, 벌써 이 만큼?

 

하지만, 지금해야할 파트는 데이터분석에 반드시 필요한 통계. 계속해 나아가야한다

제일 주요한 부분인 만큼 이해가 되지 않는다면 반복을 통한 학습이 답


Chapter 4. 데이터 분석 심화주차

본캠프 6주차

 

오늘은 통계학 6주차를 들어서 끝내고, 복습까지 해보겠다.

기초 통계 라이브세션도 있으니, 통계에 대한 지식을 제대로 쌓을 수 있지만...

 

통계는 아픈손가락 ㅎㅎ ㅠㅠ


통계학 기초 3~5주차 (학습)

학습을 통해 알아보자

 

6주차 내용을 메모로 기록해둔 것이다

제일 짧으면서, 함부로 넘겨짚기 힘든 것


재현가능성

 

재현가능성이란?

우연히 결과가 나오는 것이 아닌 항상 일관된 결과가 나오는지 확인하는 것

  • 가설검정 원리상의 문제나 가설검정의 잘못된 사용이
  • 낮은 재현성으로 이어진다는 문제 발생
  • 결과가 재현되지 않는다면 가설의 신뢰도 하락

재현 가능성의 문제 원인?

실험조건을 동일하게 조성하기 어려움

가설검정 사용방법에 있어 잘못됨


P-해킹

데이터 분석을 반복해서 인위적으로 p-값을 낮추는 행위

문제점

  • 분석 신뢰성 저하, 재현성 하락
  • 유의미한 p값을 얻을때 까지 반복 분석하는 것을 조심
  • 마음에 드는 상황만 골라서 보고해서도 안됨

데이터 탐색과 검증분리

검증하기위한 데이터는 반드시 따로 분리해놓아야 함

 

탐색용 데이터와 검증용 데이터를 분리

탐색용 데이터를 가지고 살펴보고, 평가를 위한 검증데이터를 사용한다

 

데이터 탐색과 검증은 이 절차로 이루어진다.

학습(탐색용 데이터) -> 검증(검증용 데이터) -> 평가


기초 통계 라이브 세션

실시간으로 배우며 습득해가보자

 

 

모집단과 표본

 

모집단 > 전체

모수 > 모집단의 특성

통계량 > 표본의 특성

 

제조업에서의 표본검사 필요성

  • 파괴검사의 특성
  • 로트 단위 품질 관리의 원리
  • 정량적 리스크 기반 의사결정
  • 품질 검사에는 위험과 비용의 트레이드오프 존재

표본 추출방법

  • 단순 랜덤 추출
  • 계통 추출
  • 집락 추출
  • 층화 추출

 

중심극한정리

충분한 표본수가 확보되면,표본평균의 분포가 정규분포에 근사


신뢰구간은 범위로 예측

  • 신뢰구간이 좁을 수록, 모집단 평균 추정치 정확
  • 표본이 클수록 더 정확하게 모집단 평균 추정 가능

가설 검정

표본 데이터를 기반으로 모집단에 대한 주장을 통계적으로 판단

귀무가설, 대립가설

 

유의수준과 p값의 차이

  • 유의수준은 가상의 기준점
  • p값은 실제 공정값, 유의수준에 도달하기 위한 현재 값

모수 검정

정규분포 등 모집당 분포에 대한 전제를 가지는 검정방법

여기에는 t-test, z-test, ANOVA  있다


1종오류와 2종오류(귀무가설의 오류, 대립가설의 오류)

알파와 베타가 쓰인다 이 오류에서는~!