"비교 가능한 그룹을 만들어 반사실을 타당한 값으로 채우는 것"
어떤 문제에 대해 얘기할 때 본인이 생각하는 가장 큰 요인을 들며
그것만 해결되면 모든 것이 다 풀릴 것처럼 얘기하기 상황을 쉽게 볼 수 있다.
이처럼 우린 아무렇지 않게 상관관계에 있는 것들을 인과관계라고 생각하고 있는 것 같다.
데이터로 무엇인가를 한다는 것은 예측하기 어려운 미래에 대해 그나마 예측할 수 있도록
확실한 값이 아닌 타당한 값으로 채워나가는 과정을 진행하는 것이라 이 책에서는 설명하고 있다.
또한, 반사실을 증명하기 위한 다양한 방법들에 대한 소개들도 있다.
추후에 가설을 세우고, 데이터를 분석할 때 다시 한번 자세히 읽어봐야겠다는 생각이 들었다.
건강검진과 건강의 관계가 인과관계인지 아니면 상관관계에 지나지 않는지를 명확히 해야 한다는 것이다. ‘건강검진을 받았기 때문에 장수할 수 있는 것(인과관계)’이 아니라, ‘건강검진을 받을 정도로 건강에 대한 의식이 높은 사람일수록 장수하는 것(상관관계)’으로 해석하는 것이 타당할 수 있기 때문이다.
인과관계가 존재하지 않는 것이 대체 뭐가 문제냐고 생각하는 사람들도 있을 것이다. 건강검진을 받지 않는 것보다 받는 것이 낫고, 오랜 시간 텔레비전을 보는 것보다 적당히 보는 것이 낫다고 생각하는 사람도 분명 있을 것이다. 그러나 우리가 어떤 행동을 할 때는 상당한 돈과 시간이 든다. 그런데 인과관계가 있는 것처럼 보이지만 실은 그렇지 않은 통설을 믿고 행동했다가 기대했던 효과를 얻지 못할 뿐 아니라 돈과 시간까지 버리게 된다면? 이는 바꿔 말해 그 돈과 시간을 정확히 인과관계에 근거한 곳에 쓰면 좋은 결과를 얻을 확률이 그만큼 높아진다는 것이다.
두 사실 중 한쪽이 원인이 돼 다른 한쪽이 결과로 생겨난 경우, 이 둘 사이에는 ‘인과관계’가 있다고 한다. 한편 한쪽에 이끌려 다른 한쪽도 변화한 것처럼 보이지만, 원인과 결과의 관계가 있지 않은 경우는 ‘상관관계’가 있다고 한다.
‘미야자키 하야오’ 감독이 이끄는 스튜디오 지브리 영화가 일본 텔레비전에서 방영되면, 미국의 주가가 떨어진다는 ‘지브리의 저주’에 대해 들어본 적이 있는가? 이 사례야말로 ‘우연의 일치’에 의한 거짓 상관의 전형적인 예이다.
인과관계를 밝히는 방법은 한 가지가 아니다. 그러나 이들 방법의 공통된 목표는 비교 가능한 그룹을 만들어 반사실을 타당한 값으로 채우는 것이다.
에비던스 수준이 낮은 곳에서 높은 곳으로 가는 순서
회귀 분석 -> 자연 실험과 준실험 -> 랜덤화 비교 시험 -> 메타 분석
‘랜덤’이란 의미는 대상이 되는 쥐를 실험군과 대조군 중 어느 한쪽으로 분류할 때, 실험군에 배정될 확률이 모든 쥐에서 100% 동일한 방식에 이르는 것이다.
임상실험에 쓰이는 쥐와 달리, 사람은 의사를 가지고 스스로의 행동을 선택한다. 사람이 하는 선택의 결과로 연구 대상이 되는 두 그룹의 비교가 불가능해지는 것을 경제학에서는 ‘선택편향’이라고 부른다. 미국 속담에 ‘사과와 오렌지를 비교하는 것이나 다름없다’는 말이 있는데, 이는 애초부터 차이가 너무 커서 비교 자체가 무의미한 두 가지를 무리하게 비교하는 것을 비꼬는 말이다.
최근 인터넷을 보면 유감스럽게도 체리피킹이 심심치 않게 눈에 띄고, 이로 인해 잘못된 정보가 확산되는 경우도 적지 않다. 이럴 때 쓰는 분석 방법이 바로 ‘메타 분석’인데, 여기서 ‘메타’란 ‘고차원’을 의미하며, 복수의 연구 결과를 하나로 종합해 전체적으로 어떤 관계가 있는지 밝히는 기법이다.
결국 랜덤화 비교 시험과 같은 인위적인 실험이 어려울 경우 우리는 이미 존재하는 데이터를 이용해 분석하는 수밖에 없다. 랜덤화 비교 시험을 이용해 수집한 데이터를 ‘실험 데이터’라고 하고, 일상적인 경제 활동의 결과나 정부의 통계 조사 등을 통해 얻은 데이터를 ‘관찰 데이터’라고 부른다. 이를 살펴볼 때 제일 먼저 해야 할 일은 데이터 중에서 마치 인위적인 실험이 이루어진 것 같은 상황을 찾아내는 것이다.
실험을 모방한다는 의미에서 준실험이라 불리는데, 즉 관찰 데이터와 통계적 기법을 이용해 마치 랜덤화 비교 시험을 실시하고 있는 것 같은 상황을 만들어 내는 것이다. 이 책에서는 그러한 통계적 기법으로 이중차분법, 조작변수법, 회귀 불연속 설계, 매칭법을 소개한다.
어떤 문제에 대해 얘기할 때 본인이 생각하는 가장 큰 요인을 들며
그것만 해결되면 모든 것이 다 풀릴 것처럼 얘기하기 상황을 쉽게 볼 수 있다.
이처럼 우린 아무렇지 않게 상관관계에 있는 것들을 인과관계라고 생각하고 있는 것 같다.
데이터로 무엇인가를 한다는 것은 예측하기 어려운 미래에 대해 그나마 예측할 수 있도록
확실한 값이 아닌 타당한 값으로 채워나가는 과정을 진행하는 것이라 이 책에서는 설명하고 있다.
또한, 반사실을 증명하기 위한 다양한 방법들에 대한 소개들도 있다.
추후에 가설을 세우고, 데이터를 분석할 때 다시 한번 자세히 읽어봐야겠다는 생각이 들었다.
건강검진과 건강의 관계가 인과관계인지 아니면 상관관계에 지나지 않는지를 명확히 해야 한다는 것이다. ‘건강검진을 받았기 때문에 장수할 수 있는 것(인과관계)’이 아니라, ‘건강검진을 받을 정도로 건강에 대한 의식이 높은 사람일수록 장수하는 것(상관관계)’으로 해석하는 것이 타당할 수 있기 때문이다.인과관계가 존재하지 않는 것이 대체 뭐가 문제냐고 생각하는 사람들도 있을 것이다. 건강검진을 받지 않는 것보다 받는 것이 낫고, 오랜 시간 텔레비전을 보는 것보다 적당히 보는 것이 낫다고 생각하는 사람도 분명 있을 것이다. 그러나 우리가 어떤 행동을 할 때는 상당한 돈과 시간이 든다. 그런데 인과관계가 있는 것처럼 보이지만 실은 그렇지 않은 통설을 믿고 행동했다가 기대했던 효과를 얻지 못할 뿐 아니라 돈과 시간까지 버리게 된다면? 이는 바꿔 말해 그 돈과 시간을 정확히 인과관계에 근거한 곳에 쓰면 좋은 결과를 얻을 확률이 그만큼 높아진다는 것이다.두 사실 중 한쪽이 원인이 돼 다른 한쪽이 결과로 생겨난 경우, 이 둘 사이에는 ‘인과관계’가 있다고 한다. 한편 한쪽에 이끌려 다른 한쪽도 변화한 것처럼 보이지만, 원인과 결과의 관계가 있지 않은 경우는 ‘상관관계’가 있다고 한다.‘미야자키 하야오’ 감독이 이끄는 스튜디오 지브리 영화가 일본 텔레비전에서 방영되면, 미국의 주가가 떨어진다는 ‘지브리의 저주’에 대해 들어본 적이 있는가? 이 사례야말로 ‘우연의 일치’에 의한 거짓 상관의 전형적인 예이다.인과관계를 밝히는 방법은 한 가지가 아니다. 그러나 이들 방법의 공통된 목표는 비교 가능한 그룹을 만들어 반사실을 타당한 값으로 채우는 것이다.에비던스 수준이 낮은 곳에서 높은 곳으로 가는 순서회귀 분석 -> 자연 실험과 준실험 -> 랜덤화 비교 시험 -> 메타 분석‘랜덤’이란 의미는 대상이 되는 쥐를 실험군과 대조군 중 어느 한쪽으로 분류할 때, 실험군에 배정될 확률이 모든 쥐에서 100% 동일한 방식에 이르는 것이다.임상실험에 쓰이는 쥐와 달리, 사람은 의사를 가지고 스스로의 행동을 선택한다. 사람이 하는 선택의 결과로 연구 대상이 되는 두 그룹의 비교가 불가능해지는 것을 경제학에서는 ‘선택편향’이라고 부른다. 미국 속담에 ‘사과와 오렌지를 비교하는 것이나 다름없다’는 말이 있는데, 이는 애초부터 차이가 너무 커서 비교 자체가 무의미한 두 가지를 무리하게 비교하는 것을 비꼬는 말이다.최근 인터넷을 보면 유감스럽게도 체리피킹이 심심치 않게 눈에 띄고, 이로 인해 잘못된 정보가 확산되는 경우도 적지 않다. 이럴 때 쓰는 분석 방법이 바로 ‘메타 분석’인데, 여기서 ‘메타’란 ‘고차원’을 의미하며, 복수의 연구 결과를 하나로 종합해 전체적으로 어떤 관계가 있는지 밝히는 기법이다.결국 랜덤화 비교 시험과 같은 인위적인 실험이 어려울 경우 우리는 이미 존재하는 데이터를 이용해 분석하는 수밖에 없다. 랜덤화 비교 시험을 이용해 수집한 데이터를 ‘실험 데이터’라고 하고, 일상적인 경제 활동의 결과나 정부의 통계 조사 등을 통해 얻은 데이터를 ‘관찰 데이터’라고 부른다. 이를 살펴볼 때 제일 먼저 해야 할 일은 데이터 중에서 마치 인위적인 실험이 이루어진 것 같은 상황을 찾아내는 것이다.
실험을 모방한다는 의미에서 준실험이라 불리는데, 즉 관찰 데이터와 통계적 기법을 이용해 마치 랜덤화 비교 시험을 실시하고 있는 것 같은 상황을 만들어 내는 것이다. 이 책에서는 그러한 통계적 기법으로 이중차분법, 조작변수법, 회귀 불연속 설계, 매칭법을 소개한다.