.__.

[새빨간 거짓말, 통계] Part1 - Part3 본문

독서

[새빨간 거짓말, 통계] Part1 - Part3

yesjiyoung 2024. 4. 7. 16:06

들어가는 글  : 참여 동기


2024 만다라트 계획을 세우면서

올해는 꼭 책을 3권 이상 읽기로 다짐했다. 

🧐

 

올해 업무 역량을 강화시키기 위해서, 업무와 유관된 책을 읽으려고 했다.

데이터 관련 업무를 함에 있어서 조금 더 논리적이면서 한편으로는 지식에 기반한 직관적인 사람이 되고자

"데이터"관련 서적을 읽기로 마음을 먹었다. 

 

그런데..! 어쩌다가 데이터리안이라는 커뮤니티를 알게되었고, 

마침 4월에 독서 챌린지를 한다고 하여 참여하게 되었다. 

아니 너무 좋자나..?! 😆 혼자 읽으면 보통 전체의 10%만 읽고 그만두는데.. 함께 읽는다니.! 

너무 좋은 것 같다 :) 

 

참여조건은 간단하다. "데이터 관련 책을 읽고싶은 사람"이 그것이다.

따로 모임비가 발생하거나, 학원숙제 같이 강제성(?)이 없어서 좋은 것 같다.

혹시 관심있는 사람은 (5월에도 열릴지 모르겠지만) 5월 독서챌린지를 참여해보기를 바란다.

 

책은 아래와 같다. 

새빨간 통계,

..! 책 제목과 똑같이, 책표지가 너무 새빨게서 놀랐다 :) 

 

책 뒷 표지에 이런 말이 있다.

 

거짓말에는 세 가지 종류가 있다.
그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계
- 벤저민 디스레일<마크 트웨인 자서전 중>


저자는 통계는 조작될 수 있고, 항상 통계치를 바라볼 때, 의심을 가지자는 것을 말하고 싶은 것 같다.

이제 읽어본 내용을 간단하게 정리해보자. 

 

PART01. 언제나 의심스러운 여론조사


파트1에서는 통계를 기반으로 하는 "여론조사""조사결과"에 대해서 "의심"을 갖자고 한다. 

 

때마침 돌아오는 수요일(04/10)일에 국회의원 선거가 있다. 

그래서 최근에 여론조사 전화를 무진장 받았다.

물론 나는 표본에서 제외되었다. 단 한 번도 전화를 받지 않았기 때문이다.

 

이 책에서 설명하고자하는 것은 내가 전화를 받지 않았다는 사실그래서 표본에서 제외되었다는 사실과 가장 연관이 있다.

나와 같이 국회의원 선거라는 이벤트에 크게 관심이 없거나,

일하느라 전화를 못받는 경우, 혹은 여론조사 전화번호가 자동으로 차단되는 경우

극단적으로 휴대폰이 없는 사람들 등등.. 

여러 이유로 여론조사를 수행한 표본이 모집단인 대한민국 국민 전체를 대표하기 어렵다는 것이다. 

 

이어서 기초가 될 표본은 '임의추출(무작위추출)'된 것이어야한다는 것을 강조한다. 

즉 표본은 '모집단'으로부터 순전히 우연에 의해 추출되어야 함을 말하고 있다.

32페이지에 이런 말이 있다.

 

임의추출인가 아닌가의 판정은 다음과 같다.
모집단 안에 있는 개체들이 표본에 선택될 기회가 동일한가라는 질문을 해보는 것이다.

 

전화 여론조사는 과연 대한민국 국민들이 그 조사의 표본이 될 기회를 동등하게 받았는가를 생각할 필요가 있다. 

동등하지 않았다면, 결과는 왜곡을 만들고

결국 여론조사란 불공평한 왜곡이 형성되는 원인과의 끊임없는 싸움이라고 말할 수 있다.

 

 

PART02. 평균은 하나가 아니다


파트2에서는 "평균"은 절대 하나가 아니라는 것에 대해서 말하고 있다. 

정확히 말하자면, 어떤 집단의 "대표값"은 평균 뿐만 아니라, 그 외의 것들이 될 수 있음을 말하고 있다. 

 (읽으면서 느낀 것이 "대표값"을 책에서는 "평균"이라고 말하고 있어서 읽으면서 약간 거슬렸다..)

 

아무튼 책에서 말하는 것은 조사기관이나, 메스컴에서 발표하는 자료에서

평균 XXX라는 수치를 보면, 의심!부터 해보라는 것이다.

 

보통 표본집단의 대표값으로는 

"산술평균", "중앙값", "최빈값" 이 있다. 

경우에 따라서는 대표값을 "중앙값", "최빈값"을 사용할 필요가 있는데,

단순 "산술평균"으로 평균치를 사용하여 집단의 특성을 사기칠 수 있다는 것을 강조하고 있다.

 

이 책에서 다시한 번 강조하는 것은 평균값을 알게 되었을 때, 그 집단의 특성을 다시 한 번 묻는 것을 강조하고 있다. 

56페이지에 다음의 말이 있다.

만일 당신이 평균 급여라는 이름의 수치를 보았다면, 항상 이런 질문부터 다시 해야한다.
"어떤 종류의 평균값이요? 그 평균값을 계산할 때에는 누구까지 포함한 건가요?"

 

 

이 책에 나와있지는 않지만, 집단의 대표값을 왜곡시키지 않기 위한 다른 방법으로는
전체 집단으로 세부 집단으로 나눠 세부집단별로 대표값을 다시 구하는 것이다.

 

회사에서 QC지표를 head-body-tail로 구분하여 각 집단별로 표본을 추출하고, 이들의 대표값을 구하는데 

이것 역시, 전체 Query Count의 통계량이 왜곡되는 것을 방지하기 위함이라고 생각한다. 

QueryCount by head-body-tail

 

 

PART03. 작은 숫자를 생략하여 사기 치는 법 


파트3에서는 작은 표본으로 통계 결과를 사기칠 수 있음에 대해 말하고 있다. 

즉, 표본이 작으면 그 결과를 신뢰하지말라는 것이다.

 

"표본의 개수를 n이라고 하였을 때, n이 충분히 크다면 그 표본은 모집단을 대표할 수 있다. "

라는 이야기는 통계수업에서 많이 들어본 내용일 것이다.

즉, n이 충분히 크지 않다면 그 표본은 모집단을 대표할 수 없고, 그 표본으로 산출된 모든 통계량은 의심해야한다는 것이다.

 

예전에 남자친구와 싸울 때 감정이 먼저 올라와,, "내 주변사람들 다 그래!!" 라는 표현을 쓴 적이 있다.

 

자 다시 생각해보자.

내가 표현한 "내 주변사람들"은 과연 몇 명이며, 

지금 내 나이에..곁에 있는 주변사람들이란 어떤 사람들일까.

(나와 비슷한 성향을 가진 사람들이 아닐까?)

표본의 개수도 충분하지 않고, 표본 추출 대상이 너무 지협적이다,, 

 

이런식의 대화 방법은 지양해야한다. 내 주변으로 세상을 일반화하는 것은 좋지 않다는 뜻이다.

(이래서 항상 T 99.9%의 남자친구가 싸움에서 승리한다.)

 

또한 이 책에서는 "게젤의 준거"에 대해 말한다. 

"게젤의 준거"란 준거에 해당하는 표준치와 자기 아이와의 근소한 수치 차이가 부모들의 고통을 유발하는 현상을 말한다. 

게젤 박사는 단지 자신이 관찰한 것을 사실대로 말했을 뿐인데,

책이나 기사를 통해 이를 접한 부모들이 

성장과정에서 하루나 한 달 정도 늦은 어린아기들을 열등하다고

착각하기 때문에 사태가 악화된다는 것을 말하고 있다.

 

76페이지에 다음과 같을 글이 있다.

 

문제는 '정상적인 것'을 '바람직한 것'과 혼동하는 데에서 사태가 더 악화되는 경우가 있다는 점이다.

 

정상적이다, 평균적이다 라는 표현을 보고

이를 바람직하다의 동의어로 착각하지 말자 :) 

'독서' 카테고리의 다른 글

[새빨간 거짓말, 통계] Part9 ~ Part10  (0) 2024.04.21
[새빨간 거짓말, 통계] Part4 ~ Part8  (0) 2024.04.14