[QA/QC_2기]본캠프 Day 29: 모집단, 검정 Rewind

어느덧 29일차 진행. 30% 가 넘었다.
시간이 참 빠르다. 파이썬 시작한지 얼마 안 된것 같은데, 벌써 이 만큼?
하지만, 지금해야할 파트는 데이터분석에 반드시 필요한 통계. 계속해 나아가야한다
제일 주요한 부분인 만큼 이해가 되지 않는다면 반복을 통한 학습이 답
Chapter 4. 데이터 분석 심화주차
본캠프 6주차
오늘은 통계학 6주차를 들어서 끝내고, 복습까지 해보겠다.
기초 통계 라이브세션도 있으니, 통계에 대한 지식을 제대로 쌓을 수 있지만...
통계는 아픈손가락 ㅎㅎ ㅠㅠ
통계학 기초 3~5주차 (학습)
학습을 통해 알아보자
6주차 내용을 메모로 기록해둔 것이다
제일 짧으면서, 함부로 넘겨짚기 힘든 것
재현가능성
재현가능성이란?
우연히 결과가 나오는 것이 아닌 항상 일관된 결과가 나오는지 확인하는 것
- 가설검정 원리상의 문제나 가설검정의 잘못된 사용이
- 낮은 재현성으로 이어진다는 문제 발생
- 결과가 재현되지 않는다면 가설의 신뢰도 하락
재현 가능성의 문제 원인?
실험조건을 동일하게 조성하기 어려움
가설검정 사용방법에 있어 잘못됨
P-해킹
데이터 분석을 반복해서 인위적으로 p-값을 낮추는 행위
문제점
- 분석 신뢰성 저하, 재현성 하락
- 유의미한 p값을 얻을때 까지 반복 분석하는 것을 조심
- 마음에 드는 상황만 골라서 보고해서도 안됨
데이터 탐색과 검증분리
검증하기위한 데이터는 반드시 따로 분리해놓아야 함
탐색용 데이터와 검증용 데이터를 분리
탐색용 데이터를 가지고 살펴보고, 평가를 위한 검증데이터를 사용한다
데이터 탐색과 검증은 이 절차로 이루어진다.
학습(탐색용 데이터) -> 검증(검증용 데이터) -> 평가
기초 통계 라이브 세션
실시간으로 배우며 습득해가보자
모집단과 표본
모집단 > 전체
모수 > 모집단의 특성
통계량 > 표본의 특성
제조업에서의 표본검사 필요성
- 파괴검사의 특성
- 로트 단위 품질 관리의 원리
- 정량적 리스크 기반 의사결정
- 품질 검사에는 위험과 비용의 트레이드오프 존재
표본 추출방법
- 단순 랜덤 추출
- 계통 추출
- 집락 추출
- 층화 추출
중심극한정리
충분한 표본수가 확보되면,표본평균의 분포가 정규분포에 근사
신뢰구간은 범위로 예측
- 신뢰구간이 좁을 수록, 모집단 평균 추정치 정확
- 표본이 클수록 더 정확하게 모집단 평균 추정 가능
가설 검정
표본 데이터를 기반으로 모집단에 대한 주장을 통계적으로 판단
귀무가설, 대립가설
유의수준과 p값의 차이
- 유의수준은 가상의 기준점
- p값은 실제 공정값, 유의수준에 도달하기 위한 현재 값
모수 검정
정규분포 등 모집당 분포에 대한 전제를 가지는 검정방법
여기에는 t-test, z-test, ANOVA 가 있다
1종오류와 2종오류(귀무가설의 오류, 대립가설의 오류)
알파와 베타가 쓰인다 이 오류에서는~!