책: 데이터 분석가의 숫자유감 - 잡학툰 서포터즈
개요
잡학툰 서포터즈 1기로 선정되어 데이터 분석가의 숫자유감 을 읽고 리뷰한다. 잡학툰 서포터즈 활동으로 호기심이 가지만 선뜻 손이 가지는 않았던 다양한 분야의 지식을 만화라는 형식으로 만날 수 있게 될 것으로 기대하고 있다.
알라딘 링크: http://aladin.kr/p/9QEY4
데이터 분석가의 말 그대로 숫자유감
기업에서 사람들이 통계를 잘 몰라 데이터 분석 결과를 오독하는 일이 빈번해서, 늘 화가 나 있는 데이터 분석가를 찾습니다.
리디북스 PD님이 작가분을 모시며 올린 글이라 한다. 그리고 글을 쓰신 권정민님이 바로 “늘 화가 나 있는 데이터 분석가” 이셨다 한다.
누구나 학창시절 수학을 접했으니 숫자를 다루는데 큰 어려움이 없다보니 오히려 데이터에 대한 오해와 오독이 더욱 많아진다 싶다. 그리고 그 덕분에(?) 데이터 분석가들은 이러한 잘못의 반복에 지쳐가시나 보다.
이러한 상황은 데이터와 그 데이터가 중요시되며 더욱 많이 일어나고, 그렇기에 우리는 데이터 문해력(Data Literacy), 즉 데이터를 읽고 이해하고 생성하고 전달할 수 있는 능력이 필요하다. 이 책은 실무에서 접할 수 있는 기본적이면서도 중요한 항목들과 그 오해를 익숙한 회사 생활 속의 상황에 풀어내어 편하게 접하게 해준다. 만화를 우선 보여주고, 글로 한 번 더 정리해주는 패턴도 용어와 개념에 익숙해지는데 도움이 되었다.
나 자신도 몇몇 데이터, 통계와 관련한 책들을 보고 읽어 어느정도 익숙하다 할 수 있음에도 이 책에서 소개되는 상황에서 만화 속 답답한(?) 본부장님과 별반 다르지 않다는 것을 인정하게 되었다. 재미있게 데이터 문해력을 기를 수 있는 책으로 추천한다. 여타 잡학툰 시리즈와 마찬가지로 하루 이틀이면 쉽게 읽을 수 있는 것도 장점이다.
밑줄
책을 읽으며 좋았던 부분이나 밑줄을 그었던 곳을 공유한다.
상관관계
상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식이다. 이를 숫자로 표현하는 것이 상관계수다. p25
두 변수의 형태는 우연의 결과거나 외생 변수가 두 변수에 동시에 영향을 미친 것일 수도 있다. 즉, 두 변수가 상관관계만으로 원인과 결과임을 판단할 수 없고, 그래서 상관관계가 인과관계를 나타내는 것은 아닌 것이다. p26
상관관계는 인과관계가 아니며, 특히 수많은 외생 변수가 여기저기 떠다니는 현실 데이터 분석에서는 더욱 그렇다. p28
모수
“모수”란, 모집단의 수치적 요약값이라고 할 수 있어요. 단순히 모집단의 수가 아니라 모집단의 통곗값이죠. 이 값을 근거로 우리는 모집단의 형태를 추정할 수 있는 거죠. p67
실험을 통한 의사 결정
많은 기업에서는 “실험”을 통해 “데이터”를 수집하고 “의사결정”을 한다. (중략) 이런 실험은 왜 할까? “기존에 없었던 기록”을 얻기 위해서다. (중략) 실험 역시 매우 유용한 수단이지만 사실은 이후에 사용할 데이터의 가치를 미리 끌어다 쓰는 것이다. 실험이 쉽고 도움이 된다고 마구잡이로 갖다 쓰는 것은, 후에 그만큼 혹은 더 큰 비용을 지불하게 된다. p118~120
시계열 데이터
시계열 데이터를 분석할 때는 크게 데이터를 “추세”, “주기”, “계절성”으로 구분한다. p188
- 추세: 장기적으로 늘어나거나 줄어드는 형태
- 주기: 고정된 시간 단위로 유사한 변동 형태
- 계절성: 주기적으로 반복되는 때에 어떤 사건이 발생하는 것. 주기와 비슷하지만 빈도에 가깝다. 어린이날, 크리스마스, 발렌타인 데이가 있겠다.
인구통계학적 페르소나 vs. 행동 데이터
나이, 성별, 지역 등의 인구통계학 정보만 가지고 있는 페르소나를 타깃 고객으로 설정하는 것은 한계가 있어요. (중략) 그 범위 내에서도 정말 다양한 사람들이 있고, 빠르게 변화하는 현대사회에서 다양성의 범위는 점점 넓어질 거에요. 한마디로, 인구 통계학적 데이터와 사람들의 실제 행동 사이의 관련성은 점점 줄고 있다는 거죠. p226~227
이런 시대일수록 자연히 주어지는 숫자보다는 실제로 고객이 매일마다 움직이는 행동 데이터를 기반으로 고객을 이해하는 것이 더욱 필요하다. p236
9화에서 언급한 별점의 무용성이 인상적이었다. 배달의 민족만 보아도 다들 리뷰 이벤트에 별점 5점을 주기도 하고, 한 둘의 별난 사람의 별 하나 별점 테러로 가게가 상처를 입는 것만 보아도 별점은 무용하다 생각하였는데 나아가 행동 데이터로서 재주문율 같은 것은 매우 유용하고 조작(?)이 쉽지 않은 데이터이다 싶다.
10화에서는 나아가 인구통계학적 페르소나의 무용론을 이야기했는데 책에서 가장 인상적인 부분이었다. 물론 데이터 분석가 분들에게는 이미 식상한 주제일 수 있으나, 막연히 30대 여성, 40대 가장을 타깃으로 하는 페르소나 전략이 일반적이라 생각했는데 그 한계를 짚어주어 개인적으로 깨달음을 얻었다.
데이터와 직관
데이터가 대게 사람의 직관과 다른 사실을 발견할 때 주로 사용되다 보니, 아무리 견고한 데이터 분석 결과를 보여준다고 해도 각자의 직관에 부합하지 않으면 이 결과를 쉽게 받아들이지 못하는 경우가 생긴다. p278
직관을 깨는 도끼로서 데이터를 사용하자.
데이터 분석의 근간은 논리고, 논리는 명확한 정의와 범위의 제한으로부터 시작된다. (중략) 데이터를 분석해서 만들어낸 결과 역시 제약사항을 명확히 정의 했을 때 효과적인 수단이 된다. p279, p280
데이터 이전의 제약과 한계를 명확히 이해해야 한다.
데이터와 확신
확률은 명확하지 않은 신뢰구간과 함께 오고, 확신이란 정말로 낮은 확률에서나 가능한 이야기며, “높은 확률로” 말할 수 있는 것도 있지만 그렇지 않은 것도 부지기수다. (중략) 데이터로 말하는 것은, 어쩌면 무언가를 확신하는 말을 아끼게 되는 것인지도 모른다. p328, p329
데이터가 무용하다는 것이 아니다. 데이터로 우리는 얼마만큼 까지는 확신할 수 있는지 말할 수 있게 된다.