쉬운 통계학 이렇게

최근 회사 업무에서 부품 샘플의 전압 편차가 파워 편차로 어떻게 나타나는지 계산해야 할 일이 있었습니다. 저는 통계에 관해 무지한 편인데 다행히 통계학과 출신 아내가 있어서 잘 해결했어요. 이것을 계기로 저도 통계학을 좀 알아야겠다고 생각했어요. 생각보다 너무 쉽고 재미있게 책이 쓰여 있어서 앉은 자리에서 다 봤어요.

이 책에서 가장 흥미롭게 읽은 부분은 ‘몬티홀 문제’입니다. 제가 간단하게 옮겨봤어요.

몬티홀은 미국의 인기 게임쇼 Lets Makeadeal의 진행자 이름입니다. 이 프로그램에서는 시청자 앞에 놓인 3개의 문 중에서 자동차 상품이 놓인 문을 선택하면 상품을 획득하는 프로그램이었다고 합니다. 여기서 프로그램의 재미를 높이기 위해 시청자가 하나를 선택하면, 진행자는 나머지 두 개의 문 중에서 흐트러짐에 해당하는 문을 열어 보여주고 남은 문으로 바꿀 것인지, 아니면 처음에 자신이 선택한 문을 고수할 것인지 묻습니다. 언뜻 보면 무엇을 선택하든 확률은 1/2로 같아 보입니다. 하지만 그 당시 IQ228이라고 불리던 마릴린의 생각은 달랐다고 합니다. 그녀는 “몬티홀 문제로 문을 바꾸면 맞을 확률은 두 배가 됩니다”라고 말한 것입니다. 그녀는 그 당시 수학자를 포함한 많은 사람들로부터 비난을 받았다고 합니다. 한 수학자가 컴퓨터 시뮬레이션을 이용해서 그녀의 주장이 맞았음을 증명했어요.

어떻게 된 일일까요? 극단적인 사례를 들어 생각해보면 이해할 수 있어요. 문이 100개라고 생각해 봅시다. 첫 번째 시청자가 문을 하나 선택했다면 그 문이 정답일 확률은 1/100이고 99개의 문 중 하나가 정답일 확률이 99/100입니다. 이때 남은 글 98개를 삭제하면 사회자가 남긴 한 개의 글이 가질 확률은 99/100이 되는 것입니다.

https://en.wiki pedia.org/wiki/Monty_Hall_problemMonty Hall problem From Wikipedia, the free encyclopedia The Monty Hall problem is a brain teaser, in the form of a probability puzzle, loosely based on the American television game show Let’s Make a Deal and named after its original host, Monty Hall . The problem was originally posed (and solved) i…en.wikipedia.org

또 하나 재미있었던 내용은 홍차부인의 에피소드입니다. 어떤 부인이 홍차를 맛보면 우유와 홍차 중 무엇을 먼저 찻잔에 넣었는지 구별할 수 있다고 주장한다면 어떻게 진위를 판별하느냐 하는 문제입니다. 다시말할확률이1/2이기때문에몇번연속또는몇번중에몇번을맞추면우연이아니라실력으로인정받는가의문제입니다. 여기서 중요한 것은 우연과 실력을 가르는 기준입니다. 귀무설로 인해 일어나기 어려운 우연이라면 실력으로 규정하는 것입니다. 통계적으로 유의성을 말할 때 통상 5%의 확률을 그 기준으로 합니다. 일어날 확률이 5% 미만이면 실력으로 봐도 된다는 거죠. 아래 표는 1/2 확률의 이항 분포를 나타낸 것입니다. 8~10까지 더하면 약 5.5% 정도 됩니다. 홍차 부인이 홍차 합선을 약 10회 했을 때 8회 이상 맞출 확률이 5.5% 이내라는 것입니다. 즉 홍차 부인이 10회 중 8회 이상 맞히면 실력을 인정해도 좋지 않을까 생각합니다.

https://www.th a binomial distribution table for n=10 and 11 and a variety of probabilities.www.thoughtco.com

아래는 제가 이해한 내용을 정리해 보았습니다.

  1. 정규 분포
  2. 정규 분포 곡선부터 “평균 +/- 표준 편차”까지의 범위는 특정 데이터가 해당 범위에 포함될 확률을 나타냅니다.

평균에서 +/-1 얼룩말(표준편차) 안으로 들어갈 확률은 68.27% 평균에서 +/-2 시그마(표준편차) 안으로 들어갈 확률은 95.73% 평균에서 +/3 시그마(표준편차) 안으로 들어갈 확률은 99.73%

그러나 보통 95%와 99% 확률과 같이 딱 맞는 숫자를 사용하기 때문에 95%에 해당하는 표준 편차는 1.96 시그마, 99%에 해당하는 2.58 시그마를 많이 사용합니다.

2. 표본을 이용하여 모집단의 특징 추정 말 그대로 여러 표본의 평균을 이용하여 모집단의 성격을 파악하는 기법입니다. 책에서는 과수원의 사과를 예로 들고 있습니다. 과수원 사과를 여러 명에게 똑같이 10개씩 나눠줬다면 각 개인이 받은 사과의 평균 무게로 히스토그램을 그리면 정규 분포를 그리게 될 것입니다. 이렇게 표본 평균 분포를 이용하는 것을 중심 극한 정리라고 합니다.

<중심극한정리-Central Limit Theorem>3, 시청률 추정 시청률은 95% 구간 추정의 경우 다음과 같이 구할 수 있습니다.p는 조사에 의한 시청률, n은 추출 세대수로 하면…

이때 시청률은 정규 분포가 아닌 이항 분포이므로 표준 편차가 sqrt(p*(1-p))로 계산됩니다.여기서 p를 빼면 표본오차가 됩니다.

우리가 선거를 치르고 출구조사를 하면 95% 신뢰수준에서 오차범위는 어떻다는 게 이런 뜻입니다.

#이렇게쉬운통계학 #서평 #알기쉬운 #통계학 #몬티홀문제 #MontyHallProblem #홍차부인 #시청률

error: Content is protected !!