우리 모두가 아는 대로, 데이터 과학은 우리의 세계에 매우 새로운 학문입니다. 이로 인해 이는 일할 때 매우 흥미로운 분야가 됩니다. 그러나 이로 인해 문제가 발생하기도 합니다. 오늘은 그 중 하나인 문제에 대해 이야기하고 싶습니다: 데이터 과학 결과나 개념을 설명할 때 잘못된 용어를 사용하는 문제입니다.
제가 항상 다뤄야 하는 다섯 가지 자주 오용되는 단어와 전형적인 오용에 대한 설명이 있습니다. 이를 통해 데이터 과학 결과의 전달 및 구현에서의 함정에 대해 더 많이 인식하게 된다면 좋겠습니다.
1. 예측적인
와우, 사람들은 세상을 예측하는 걸 정말 좋아하네요, 그렇죠? 2010년쯤 유행하기 시작한 이후로, p-단어처럼 흔히 들어본 말은 없는 것 같아요. 계수가 통계적으로 유의미한 변수인 x는 선형 모델에서 중요하다고 하더라도, 그 변수가 예측력이 있는 것은 아닙니다. 그건 상당히 무리인 주장이죠.
훈련된 통계 모델에서 유의미한 영향을 끼치는 변수들도, 그 효과가 미미해서 사실상 중요하지 않을 수도 있어요. 따라서, 그 변수들을 '예측적으로' 설명한다는 것은 현실을 잘못 표현할 수도 있어요. 새로운 데이터에 대한 테스트 과정이 필요한데, 이를 통해 모델이나 변수들을 실제로 '예측적인지' 설명할 수 있어요. 며칠 전에 로지스틱 회귀 모델 결과를 사람이 '예측적이다'라고 설명했을 때, 저는 훈련 및 테스트 데이터를 나누지 않았고, 예측을 시도하고 있지도 않았는데요. 규칙적으로, 왼쪽에 빼놓은 테스트 샘플을 사용하여 예측 효과를 확인하지 않으면 변수나 모델을 '예측적으로' 설명하지 마세요.
2. R-squared
R-squared는 대체로 선형, 가법적 모델의 모델 품질 측정으로만 적용됩니다. 그런데 제가 종종 확률 모델이나 분류기에 '높은 R-squared'를 갖고 있다고 하는 사람들을 듣곤 해요. 그게 무슨 뜻일까요? 심플한 일반화된 선형 모델조차도 전체적인 모델 품질을 정의하는 여러 방법이 있어요. 이러한 모델들에는 적어도 5가지 다른 유사 R-squared 메트릭스가 있고, 그 결과는 크게 다를 수 있으며 해석하기 어려울 수 있어요. 예측 정확도 메트릭스인 ROC AUC, F1-score와 같은 지표까지 더해져서 혼란스러울 수 있죠.
사람들이 한 접근 방식의 용어를 다른 접근 방식에서 무언가를 설명할 때 사용하지 못하도록 허락하지 마세요. 이것은 좋지 않은 실천이며 지적으로 정직하지 못할 수도 있습니다. 미리 적합한 품질 측정 항목을 합의하고 사람들이 그것을 준수하도록 유도하세요.
3. 확률
확률 모델링을 하다보면 odds(승산) 용어를 자주 만날 것입니다. 이 모델의 계수를 해석할 때 odds가 자연스럽게 발생합니다. 그러나 odds는 확률을 의미하지 않습니다. 이 오해는 odds 비율을 사람들에게 설명할 때 정말 나쁠 수 있습니다. 모델에서 변수가 300%의 odds 비율을 가진다면, 사람들은 종종 해당 변수의 단위 증가가 결과의 확률을 세 배로 만든다고 생각합니다. 정말 멋지게 들리죠! 그것은 틀렸습니다. 결과에 미치는 확률의 영향은 사전 확률이 무엇이었느냐에 달려 있습니다. 이미 매우 높은 경우, 300%의 odds 비율은 거의 영향을 주지 않을 것입니다. 매우 낮은 경우, 실제로 300%의 영향을 줄 것이지만, 작은 것의 300%는 아마도 여전히 작을 것입니다. 더 읽고 싶다면 이 주제에 대한 제 기사를 확인하세요.
4. 증명
통계 검정에서 잘못 사용되는 또 다른 p 단어는 입증(Prove)이다. 가설을 입증하거나 반박하지 않습니다. 귀무 가설(null hypothesis)을 기각하거나 기각하지 못합니다. 많은 사람들이 제대로 이해하지 않는 철학이며, 이는 분명히 의미론적인 것이 아닙니다.
예를 들어, 12세에서 16세 사이의 소년과 소녀가 친구의 평균 수가 동일한지 테스트하고 싶다고 가정해봅시다. 해당 연령대의 충분한 샘플을 조사하여 모든 소년과 소녀 사이의 평균 친구 수에 차이가 없다는 귀무가설을 세우고, 우리가 가진 표본의 통계적 특성을 고려하여 그 귀무가설이 얼마나 진실일지 확인합니다. 무작위로 설정된 확률 막대(알파)를 사용하여(`보통 5% 정도) 귀무가설을 기각할 수 있다고 선언할 수도 있습니다.
소년과 소년이 서로 다른 평균 친구 수를 가진다는 것을 증명했다고 말할 수 없습니다. 두 그룹이 같은 친구 수를 가질 가능성은 낮다고 말할 수 있거나 '통계적 검정이 알파 0.05에서 귀무가설을 기각했다'라고 말할 수 있습니다. 입증은 100% 확신을 의미하며, 표본을 다룰 때는 그 정도에 도달할 수 없습니다.
5. 파워
통계적 파워라는 또 다른 p로 시작하는 용어는 종종 사람들이 그 의미를 이해하지 못하는 사람들 사이에서 사용되는 것입니다. 많은 사람들이 무언가가 높거나 낮은 통계적 파워를 갖고 있다고 말하지만, 실제로 의미하는 것은 낮거나 높은 p-값 또는 높거나 낮은 표본 크기입니다. 통계적 파워가 무엇인지 정의할 수 있는지 스스로에게 묻는 것이 중요합니다.
통계적 파워는 사실 대안 가설이 참일 때 널 가설을 기각할 확률을 나타냅니다. 이것은 기본적으로 널 가설의 기각이 얼마나 신뢰할 수 있는지 나타내는 측정 지표입니다. 이는 p-값 이상으로 많은 요소에 의해 결정되며, 샘플 크기, 알파, 효과 크기를 사용하여 계산됩니다. 실제로 더 높은 알파나 낮은 샘플 크기를 갖는 결과가 더 높은 통계적 파워를 가질 수 있는 것은 완전히 가능합니다.
데이터 과학이나 통계학에서 자주 오용되는 용어가 있나요? 그러한 경우가 있다면 언제든지 댓글을 남겨주세요.