AI나루

정확도란?

정확도는 AI나 머신러닝 모델이 예측한 결과가 실제 정답과 얼마나 일치하는지를 나타내는 대표적인 평가 지표입니다. 전체 예측 중 올바르게 판단한 비율을 계산해 모델의 신뢰성과 학습 성과를 간단히 비교할 수 있습니다. 예를 들어 100개의 데이터를 예측했을 때 90개가 맞았다면 정확도는 90%입니다. 이러한 단순성과 명확성 덕분에 분류 문제에서 가장 널리 사용됩니다. 정확도는 모델이 학습한 규칙이 실제 데이터를 얼마나 잘 반영했는지를 보여주며, 알고리즘 개선이나 하이퍼파라미터 조정의 기준으로 활용됩니다. 하지만 높은 정확도가 항상 좋은 모델을 의미하지는 않습니다. 데이터가 한쪽으로 치우친 불균형 데이터셋의 경우, 특정 집단을 제대로 예측하지 못해도 전체 정확도가 높게 나올 수 있습니다.

정확도 계산 방법

정확도는 (정답으로 맞힌 데이터 수) ÷ (전체 데이터 수)로 계산하며, ‘참으로 예측한 경우(True Positive와 True Negative)’를 모두 더한 값을 전체 데이터로 나눈 결과입니다. 계산식은 단순하지만, 분포가 한쪽으로 치우친 상황에서는 모델 성능을 과대평가할 위험이 있습니다. 예를 들어 전체 데이터의 95%가 ‘정상’이고 5%만 ‘이상’인 경우, 모든 데이터를 정상으로 예측해도 정확도는 95%로 높게 계산되지만 실제로는 이상 탐지가 전혀 이뤄지지 않습니다. 이런 이유로 의료 진단, 보안 탐지처럼 중요한 예외 사례가 많은 분야에서는 정밀도, 재현율, F1 점수 등 다른 보조 지표를 함께 사용해 모델을 종합적으로 평가합니다. 정확도는 그럼에도 여전히 AI의 기본 성능을 직관적으로 파악할 수 있는 핵심 지표로 가장 널리 활용되고 있습니다.

정밀도 (Precision)

정밀도는 모델이 ‘맞다고 예측한 것’ 중 실제로 맞은 비율을 의미하는 성능 지표입니다. 예측 결과 중 얼마나 정확하게 긍정 사례를 찾아냈는지를 보여줍니다. 예를 들어 스팸메일 탐지에서 정밀도가 높다는 것은, 스팸으로 분류된 메일이 실제로 스팸일 확률이 높다는 뜻입니다. 잘못된 긍정 예측(False Positive, 오탐)을 최소화하는 데 도움이 되기 때문에 금융 사기 탐지나 의료 진단처럼 오탐이 큰 피해를 일으키는 분야에서 중요하게 사용됩니다. 높은 정밀도는 모델이 신중하게 판단한다는 것을 의미하지만, 그만큼 일부 실제 사례를 놓칠 가능성도 있어 재현율과 함께 해석해야 합니다.

재현도 (Recall)

재현율은 실제로 맞는 정답 중에서 모델이 얼마나 많이 찾아냈는지를 나타내는 비율입니다. 즉, 놓치는 사례(False Negative)를 얼마나 줄였는지를 평가하는 지표입니다. 예를 들어 스팸메일 탐지에서 재현율이 높다는 것은, 대부분의 스팸을 성공적으로 잡아냈다는 의미입니다. 재현율은 모델이 가능한 한 많은 긍정 사례를 포착해야 하는 보안 탐지나 질병 진단과 같은 영역에서 특히 중요합니다. 다만 재현율이 높으면 불필요한 긍정 판단이 늘어날 수 있어, 정밀도와 균형 있게 해석해야 합니다. 두 지표는 보통 F1 점수(F1score)로 함께 평가되어 모델의 종합적 성능을 판단하는 데 사용됩니다.

정확도 vs 정밀도 vs 재현율

이 세 지표는 모두 모델의 분류 성능을 측정하지만, 평가 관점이 서로 다릅니다. 정확도는 전체 예측 중 맞춘 비율을, 정밀도는 모델이 ‘긍정’이라고 판단한 결과 중 실제로 맞은 비율을, 재현율은 실제 긍정 사례 중 모델이 맞게 찾아낸 비율을 의미합니다. 예를 들어 스팸메일 탐지에서 정밀도가 높으면 정상 메일을 스팸으로 잘못 분류하지 않지만, 재현율이 높으면 대부분의 스팸을 놓치지 않고 잡아냅니다. 정밀도와 재현율은 상충관계에 있어, 둘 중 하나만 높이는 것은 어렵습니다. 따라서 모델의 목적에 따라 어떤 지표를 우선시할지가 달라집니다. 의료 진단처럼 놓치면 안 되는 경우에는 재현율을, 금융 사기 탐지처럼 오탐이 문제인 경우에는 정밀도를 중시합니다.

F1 점수 (F1-score)

F1 점수는 정밀도와 재현율의 조화를 수치로 표현한 성능 지표로, 두 지표의 조화평균을 사용해 한쪽으로 치우치지 않는 균형 잡힌 평가를 제공합니다. 예를 들어 정밀도는 높지만 재현율이 낮거나, 그 반대인 경우 모두 F1 점수가 낮게 계산되어 모델의 전반적 신뢰성을 판단할 수 있습니다. 이 지표는 특히 불균형 데이터셋 에서 정확도만으로는 성능을 평가하기 어려울 때 유용합니다. F1 점수가 높을수록 모델이 긍정 사례를 정확하고 폭넓게 탐지한다는 의미로, 의료 진단, 스팸 탐지 등 오탐·누락이 중요한 분야에서 널리 사용됩니다.