.__.

[새빨간 거짓말, 통계] Part4 ~ Part8 본문

독서

[새빨간 거짓말, 통계] Part4 ~ Part8

yesjiyoung 2024. 4. 14. 15:41

들어가는 글


지난주에는 Part1 ~ Part3를 읽었고,

이번주에는 Part4 ~ Part8을 읽었다. 이제 남은건 Part9, Part10이다. 😄

독서챌린지를 하니깐 벌써 책 한 권도 다읽어가고 좋은 것 같다.

신청하길 잘한듯

 

지난주에 알게된 점을 짧게 리마인드해보자.

Part1에서는 임의추출에 의해 표본이 잘 추출되었는지를 유의하자는 내용이었다.

Part2에서는 표본에 따라 대표값은 산술평균 뿐만아니라, 최빈값, 중앙값이 될 수 있다는 내용이었다.

Part3에서는 작은 표본으로 통계결과를 사기칠 수 있음에 유의하자는 내용이었다. 

 

Part4. 쓸데없는 숫자로 벌어지는 헛소동 


part4에서는 예상오차표준오차에 대해서 설명한다. 

오차(예상오차, 표준오차)추출된 표본이 전체를 얼마나 정확하게 대표할 수 있는지를 숫자로 나타낸 것이다.

 

- 예상오차 : 전체 경우의 수 중에서 절반을 오차 범위에 포함

- 표준오차  : 전체 경우의 수 중에서 약 3분의 2를 오차 범위에 포함

 

책에서는 어떤 목장의 크기를 그 목장을 둘러싼 울타리를 따라 걸어간 발걸음의 수로 측정하는 예시를 들고 있다. 

100m의 거리를 몇 걸음으로 걸을 수 있는지를 여러 번 측정하여 발걸음으로 길이를 재는 방법의 정확성을 재는 것이다. 

이때 예상오차는 100m에 예상오차 3m라는 결과를 얻었다고 하자.

 

이를 다시 해석하면, 여러 번 실험해본 결과 

절반의 실험에서는 100m을 기준으로 3m이상의 오차를 넘어섰다는 뜻이다. 

나머지 절반의 실험에서는 100m를 기준으로 3m이내의 오차 범위에 들었다는 뜻이다.

 

위의 목장의 크기를 재는 방법 연구와 비슷하게,

어떤 IQ검사에서는 예상오차를 100에 대하여 3이라고 알려져있다.

갑의 IQ는 98, 을의 IQ는 101이었을 때

갑이 을보다 IQ가 낮다? 라고 확실히 말할 수 없다는 뜻이다.

- 갑 : 98±3

- 을 : 101±3 
갑을 예시로 들면, IQ가 95에서 101사이에 있을 확률과 101이상 또는 95이하가 될 확률이 같다는 뜻이다.

이 사실을 해석하면,

실제로 갑은 101이상일 확률은 1/4이고

을은 98이하일 확률이 1/4임을 알 수 있다. 그러므로 갑이 을보다 지능이 낮지 않고 오히려 적어도 3점 가량 높을 수 있다.

(확률 : 1/16 = 1/4 * 1/4) 

 

Part5.사람 눈을 속이는 그래프 


 

Part5에서는 어떻게 그래프를 그리는냐에 따라

사실을 넘어서 그 사실을 받아들이는 감정이 확대될 수 있음을 말하고 있다.

 

첫번째 그래프보다 두번째 그래프의 경우가 1년동안 거의 2배가 증가했구나! 를 더 빨리 캐치할 수 있다고 한다. 

첫번째 그래프는 감동을 줄 수가 없다.

첫번째 그래프를 두번째 그래프로 변경하면서

왜곡된 내용없이 필요없는 세로축 부분만 잘란 냈을 뿐인데, 보는 사람은 그래프로부터 얻는 인상이 다르다고 느낀다는 것이다.

그래서 그래프에 나타나는 약간의 증가가 시각적으로는 엄청난 증가로 보일 수 있게 하는 방법이라고 한다. 

내가 표현하고 싶은 데이터가 엄청나다!!를 보여주기 위해서는 이렇게 강조하는 방법도 좋다고 생각한다.

 

Part6. 백문이 불여일견이라고? 천만에


Part6에서는 시각을 자극하는 그림 도표에에 대해 이야기 하고 있다. 

 아래 막대그래프를 보면 로툰디아 목수 주급과 미국 목수 주급이 2배가 차이남을 보여주고 있다.

그런데, 돈이라는 것을 단순히 막대그래프 수치로 2배 차이남을 보여주는 것이 맞을까?

아래는 그림도표롤 활용하여 주급이 2배차이남을 좀 더 과장되지만 현실적으로는 맞는 그림이 있다.

사실 이 그림은 가로 2배, 세로 2배이기 때문에 기준보다 4배임을 보여주고 있다.

3차원으로 생각하면 가로, 세로, 높이 각각 2배여서 8배임을 나타낸다. 

이런 그림 도표가 어떻게 보면 눈속임이라고 할 수는 있지만

적절하게 이용하면, 오히려 사실이 더 잘 받아들일 수 있다고 생각한다.

 

아래 도표는 기사 내용을 유리하게 이끌어가기 위해 일부로 사실을 과장해서 그렸던 것이다. 

책에서는 이것이말로 선동주의의 한 예라고 말하고 있다.

 

 

Part7. 아전인수를 위한 마구잡이 통계


Part7에서는 마구잡이 통계에 대한 예시와 함께 항상 의심을 가지고 결과를 바라볼 필요가 있다는 것을 강조한다.

 

예시1. 숫자로 장난치기

과일을 짜서 주스로 만드는 기구를 개발하는 회사에서 

"연구소 실험에 의해, 주스를 26%나 더 짜낼 수 있습니다"로 기구를 홍보했다고 한다.

도대체 26%를 더 짜낼 수 있다니 어느 것과 비교한 것인가

알고 봤더니 손으로 눌러 짜는 수동식 압착기보다 26%보다 더 많이 짜낼 수 있는 기구였던 것이다. 

이 숫자에 대한 설명이 과연 홍보글에 포함했다면, 과연 고객들은 이 제품을 샀을까?

그렇지 않다는 것이다.

 

즉, 통계치는 어떤 실험 환경에서 나온 것인지를 면밀히 볼 필요가 있다. 

 

예시2. 사전, 사후 눈속임 (before-and-after trick)

1942년 듀이가 뉴욕 주지사로 선출되었을 당시에 교사의 연봉은 최조 900달러 였다. 

그러나 오늘날 뉴욕주 내의 교사들은 세계에서도 가장 높은 급료를 받고 있다. 

2,500달러에서 5,325달러이다.

이 예에서는 900달러는 "사전"이고, 2500달러 - 5,325달러가 "사후"로, 이 차이만 보면 상당히 개선된 것이 맞다.

하지만 900달러는 뉴욕주에서 가장 시골인 어느 한 지역에서의 최저 급여이고,

높은 쪽은 뉴욕시의 급여였던 것이다. 

 

이는 잡지나 광고에서 자주 사용되는 사용 전 사용 후 사진법을 통계의 형식으로 꾸매댄 것에 불과한 것이다. 

 

Part8.통계도 논리다.


Part8에서는 변량의 관계에 대해 얘기하고 있다.

 

먼저 상관관계의 해석에 대해 설명한다.

예를 들어 전구에서 멀리 떨어지면 떨어질수록 빛의 밝기는 줄어듦으로, 거리와 빛의 밝기는 반비례 관계있다.

이처럼 물리학에서는 완벽한 상관관계를 가지는 경우가 많지만, 

반면 경영학이나 사회학 또는 의학 분야에서는 이런 이상적인 경우가 많지 않다. 

 

예를들어, 비타민을 많이 먹으면 활동력이 증가한다는 연구가 있는데,

너무 많이 먹으면 오히려 위장을 상하게 하여 활동력이 감소될 수 있다는 것이다. 

늘 두 변량에 대한 상관관계를 정의할 때, 예외가 발생할 수 있는 그 임계치를 고려하는 것이 중요하다고 생각한다. 

 

 

또한 상관관계를 인과관계로 잘못 해석하면 안된다. 

상관관계는 두 변량관의 선형성에 대해 이야기하는 것이지, 원인과 결과로서 해석하면 안된다는 것이다.

교육을 많이 받을 수록 부유해진다. 

라는 말을 교육을 받으면 반드시 부유하게살 수 있다로 오해석하면 안된다는 것이다.

 

 

또한 인과관계와 전후관계를 혼동해서는 안된다고 말한다. 

(역주 : 시간적발생에 따라 인과관계를 설명하려는 논리적 오류)

 

예를들어 어떤 사람이 흡연을 한 뒤, 달콤한 것고 나서 스트레스가 풀렸다고 해보자. 

이때 [사건1 - 흡연] / [사건2 - 달콤한 것을 먹은 것] / [사건 3 - 스트레스풀림] 

이라고하면, 사건1이 사건3의 원인이다. 또는 사건2가 사건3의 원인이다. 

나아가 사건1 이후 사건2 가 발생한 것이 사건3의 원인이다. 라고 해석하면 안된다는 것이다. 

단순히 시간적 발생에 의해서 원인과 결과를 정의해서는 안된다는 것이다. 

 

'독서' 카테고리의 다른 글

[새빨간 거짓말, 통계] Part9 ~ Part10  (0) 2024.04.21
[새빨간 거짓말, 통계] Part1 - Part3  (1) 2024.04.07