2022년 10월 31일 월요일

데이터 쓰기의 기술

 


"데이터를 잘 다룰 수 없다면 손으로 적어서라도 비교할 수 있는 판을 만들어보자."


데이터를 한번도 안써본 사람이라면, 어떻게 연습하는 것이 좋을까?
이에 대한 필자의 생각은 7가지 단계를 연습함으로 가능하다고 이야기 한다.
각 단계에 대해 설명하고 다수의 예시를 통해 이런 과정을 이해시키고 있다.

데이터를 분석하는 과정을 실 예시들을 통해 간단히 살펴보기에 좋다. 

데이터 전문 조직에서 제언을 할 때, 지나치게 일반적인 내용을 제시하면 실행할 만한 인사이트가 없고, 지나치게 구체적인 방향성을 제시하면 현장 전문가들의 의견을 배제하는 것처럼 보인다. 그 중간쯤, 현장에서 활용할 수 있으면서도 구체적인 제언을 해야 한다.

데이터 비전문가에게는 시계열 단위로 이리저리 쪼개어 매출을 분석하기를 권한다. 최대한 작은 단위, 즉 ‘연월일시분초’까지 있으면 가장 좋은데, 분 단위 이하는 관리하기가 어려울 수 있으니 시간 단위까지라도 매출을 집계해 확보하는 것이 좋다. 그 시간에 어떤 제품이 팔려서 그 매출이 확보되었는지도 시간별로 정리해보는 것이 필요하다. 데이터를 잘 다룰 수 없다면 손으로 적어서라도 비교할 수 있는 판을 만들어보자.

소비자의 마음은 날씨에 따라 달라진다. -> 한겨울 퇴근시간, 편의점에서는 왜 칼로리 높은 식품이 잘 팔릴까?
소비자의 마음은 가끔 거짓말을 한다. -> 소풍용 돗자리를 30대 남성들이 사간 이유는?

데이터 디자인
1.질문하기 : 궁금한 것이 있어야 데이터 분석이 시작된다.
2.문장 쪼개기 : 비전문가에게 가장 유용한 사고방식 훈련
3.데이터 찾기 : 어디서 어떻게 데이터를 확보할 것인가
4.데이터 분석하기 : 관점을 세우고 작은 것부터 시작한다.

데이터 스토리텔링
5.데이터 퍼즐 맞추기 : 낱낱의 분석을 모아 인사이트를 만든다
6.변화를 만들 제언하기 : 스토리로 방향을 제시한다
7.데이터에 옷 입히기 : 청자에 맞추어 스토리를 공유한다.

데이터 디자인 1단계 질문하기
왜 시험 기간에 샷 추가를 많이 할까? 시험 기간이 되었으니 잠을 깨우기 위해서일까? 그냥 카페인이 엄청나게 많이 든 에너지 음료를 팔면 어떨까?

데이터 디자인 2단계 문장 쪼개기
왜 시험 기간에 : 시험 기간이라서 그런 걸까? 혹시 시험이 아니라, 이달에만 그런 건 아닐까? 샷 추가 커피 판매가 학기별로 중간고사, 기말고사 기간과 맞물리는가?
샷추가를 : 샷 추가란, 기존에 추가하지 않던 사람이 샷을 추가하는 것을 말하는 걸까? 아니면 진한 커피를 마시는 사람들이.. 

2022년 10월 30일 일요일

데이터 문해력

 



"데이터 작업 전에 애당초 무슨 말을 하고 싶은지를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식"


책 처음부터 끝까지 한가지 내용을 이야기하고 있다.
데이터라 함은 그 목적에 따라 어떤 데이터를 볼 것인지 어떤 방식으로 볼지를 결정해야 하고 결과가 아닌 결론과 향후 액션이 도출될수 있어야 한다. 그렇기 때문에, 데이터를 먼저 모으는 것이 먼저가 아닌 해결하고 싶은 가설이 먼저 이뤄져야 한다.

데이터 분석이란 말을 하기 전에 무슨 문제를 풀고 싶은건지에 대한 질문에 대한 답을 먼저하자. 

“이 그래프를 통해 무엇을 말할 수 있을까요?”가 아니라,
“이 그래프를 작성한 사람은 (그래프 작성 전에) 무엇을 말하고 싶었을까요?” 입니다. 
전자는 ‘데이터와 그래프 중심의 사고’를 전제로 한 질문으로, 누군가가 만든 데이터와 그래프를 읽어내는 것만 추구하는 것
후자는 ‘목적 사고력’이라 할 수 있습니다. 데이터 작업 전에 애당초 무슨 말을 하고 싶은지를 생각해보고 이에 필요한 데이터를 활용해 작업을 진행하는 접근 방식입니다. 필자가 목표로 하는 데이터 문해력이란 바로 후자에 해당합니다.

데이터가 여러분에게 직접적인 답을 주는 경우는 없습니다. 설령 아무리 고난도의 통계와 분석 방법을 구사하더라도 말입니다. 
대신, ‘당신이 무엇을 알고 싶은지, 이를 알게 되면 무엇을 하고 싶은지, 이를 위해서는 어떤 데이터(지표)가 필요한지’ 이를 구체적으로 생각하는 것이 무엇보다도 중요합니다.

‘문제’란 수주 수가 급감했다. 이며, 그 ‘원인’은 ‘고객 상담 및 대응 부실’일 것입니다. 그러면, 원인에 대한 ‘해결방안’은 ‘효과적이고 효율적인 영업 활동’이라는 구조가 성립됩니다. 어떤 것이 옳고 그른 것인가 따지지 말고, 일단 머릿속으로 이러한 삼자 관계를 정리하고 이해할 필요가 있습니다. 그리고 무엇을 ‘문제’로 삼고, 어떤 데이터를 활용할지 결정해가는 것이 중요합니다.

목적 및 문제 (무슨 말을 하고 싶은가, 말해야 하는가) - 둘 이상의 해석이 나오지 않도록, 구체적으로 표현하고 정의하였는가?
—> 데이터 및 지표



가치 있는 정보란 무엇인가? 
구체적인 행동을 특정할 수 있다. (누가 언제 무엇을 했는지), 구체적인 판단을 내릴 재료가 된다.

위 그래프가 ‘편차가 크다(=표준편차가 크다)’, 아래 그래프가 ‘편차가 작다(=표준편차가 작다)’고 할 수 있습니다. 표준편차의 크기는 데이터의 최솟값에서 최댓값의 차이가 아니라 데이터 대다수가 존재하는 범위의 폭을 의미한다는 점을 이해해주시기 바랍니다. 최솟값과 최댓값 같은 극단적인 값에 전체 편차는 영향받지 않으며 대다수의 데이터가 분포된 범위를 나타낸다는 장점이 있습니다.

‘간극 본능(The Gap Instinct)’에 의한 함정을 소개하고 있습니다. 
즉, 인간은 누구나 ‘좋다/나쁘다’, ‘높다/낮다’, ‘크다/작다’ 등 2가지 이상으로 ‘편 가르기’를 하고 그 차이를 구분하려 합니다. 그리고 그 차이를 클로즈업하면 알기 쉬운 결론으로 이어지기 때문에 이 방법을 자주 사용하게 됩니다. 하지만, 이는 어디까지나 작업자나 분석자 자신이 그어놓은 선으로 그룹을 구분했기에 나온 차이이며, 그 그룹의 특징을 단적으로 나타낸 평균 등의 지표가 꼭 그룹 전체를 대표한다고는 볼 수 없습니다. 그 지표에서 나타나지 않은 다른 부분들 또한 무시할 수 없는 것입니다.

“당신이 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제 3자가 바로 앞에 있다고 상상하세요. 그 사람에게 당신이 다루는 문제를 데이터로 설명하려면 무슨 데이터를 어떻게 보여주면 좋을까요?” 상대방이 그 데이터를 보고 나서, “그렇군요! 확실히 문제가 있네요.!” 라고 말한다면 성공한 것입니다.

원인 후보를 이끌어 내는 방법과 지표를 특정하는 방식
  1. 원인 후보를 열거한다. 2. 지표를 결정한다. 3. 관련성을 확인한다.

마법 같은 정답은 없지만, 필자가 생각하는 최선의 접근 방식은 ‘논리적 사고(로지컬 씽킹)’입니다. 여기서 말하는 ‘논리적 사고’란 문제를 구조화하고 정리하면서 생각하는 것을 가리킵니다. 

부를 끌어당기는 글쓰기

  " 나는 글쓰기를 하면서 나 자신에 대해 더 잘 알 수 있었다" 부를 끌어당기는 글쓰기는 무엇일까? 어떤 책들은 후킹을 어떻게 해서 끌어들일지에 대해 팁들에 집중하기도 한다. 또 어떤 책들은 좋은 글을 쓰면 자연스럽게 독자들이 모...