2-3. 모델 품질 지표 이해¶
모델 품질 지표는 예측(prediction)과 라벨(label)을 비교해 어떤 오류가 발생했는지 읽기 위한 근거입니다. 2-2에서 현재 운영 입력 실패 양상을 validation 기준에서 재현한 vital_signs_valid_degraded.csv의 검증 실패를 확인했다면, 이제 그 데이터 조건에서 계산한 모델 지표(metric)가 무엇을 말하고 무엇을 말하지 못하는지 구분해야 합니다.
이 장의 실습 모델은 high_risk와 low_risk 중 하나를 예측하는 이진 분류(binary classification) 모델입니다. high_risk를 관심 클래스(Positive class)로 두고, FP는 실제 low_risk를 high_risk로 잘못 예측한 오탐, FN은 실제 high_risk를 low_risk로 놓친 미탐입니다. 2-3에서는 이 용어를 먼저 짧게 사용하고, 2-3-5에서 혼동 행렬(Confusion Matrix)과 함께 자세히 정리합니다.
이 문서를 읽을 때는 다음 기준을 중심으로 확인합니다.
- 평가 흐름: 특성 → 점수 → 임계값 → 예측 → 지표
- 데이터 조건 연결: 2-2 검증 결과가 지표 해석의 제한 사항이 되는 방식
- 오류 유형: 오탐(FP)과 미탐(FN)이 서로 다른 품질 문제라는 점
- 지표 조합: 정확도(Accuracy) 하나가 아니라 정밀도(Precision), 재현율(Recall), 혼동 행렬을 함께 해석
- 해석 범위: AUROC, PR-AUC(AUPRC), 보정(calibration)은 계산보다 의미와 한계를 중심으로 확인
2-3에서는 아직 특정 모델을 개선하지 않습니다. 품질 저하 validation 데이터셋에서 지표가 흔들렸을 때 정확도, 정밀도, 재현율, FP/FN 중 무엇을 봐야 원인 후보를 좁힐 수 있는지 준비합니다.
2-3-1. 모델 평가가 필요한 이유¶
모델 평가는 데이터가 준비된 뒤 예측 오류의 종류와 크기를 확인하는 과정입니다. 데이터 품질 검증은 “평가할 수 있는 데이터인가”를 묻고, 모델 평가는 “이 모델이 현재 기준에서 어떤 오류를 내는가”를 묻습니다. 두 질문은 연결되어 있지만 서로 다릅니다.
AI 모델은 보통 입력 특성을 받아 점수를 만들고, 임계값을 적용해 예측을 생성합니다. QA는 최종 예측만 보면 안 됩니다. 같은 점수라도 임계값이 달라지면 예측이 달라지고, 같은 예측 결과라도 점수 분포가 바뀌면 운영 안정성이 달라질 수 있습니다.
scikit-learn Model evaluation은 지표를 문제 유형과 목적에 맞게 선택해야 한다는 점을 보여줍니다. scikit-learn 문서도 예측과 의사결정(decision making)을 구분해 설명합니다. 2-3에서는 이진 분류에서 QA가 자주 만나는 정확도, 정밀도, 재현율, 혼동 행렬, AUROC, PR-AUC를 중심으로 지표가 어떤 데이터 조건과 임계값 조건에서 의미를 갖는지 확인합니다.
모델 평가는 다음 질문에 답하기 위한 과정입니다.
| 질문 | 확인할 지표 |
|---|---|
| 전체적으로 얼마나 맞혔는가 | 정확도 |
high_risk라고 예측한 것 중 실제로 맞은 비율은 얼마인가 |
정밀도 |
실제 high_risk 중 모델이 찾아낸 비율은 얼마인가 |
재현율 |
| 오탐과 미탐 중 무엇이 늘었는가 | 혼동 행렬 |
| 임계값 하나에 묶이지 않은 점수 구분력은 어떤가 | AUROC, PR-AUC |
2-2에서 확인한 검증 결과는 2-3 지표 해석의 전제입니다. 예를 들어 vital_signs_valid_degraded.csv는 라벨 기준은 통과했지만 heart_rate 결측과 oxygen_saturation 범위 검증에서 실패했습니다. 이 상태에서 지표가 흔들리면 모델만 원인으로 보지 않고, 입력 특성 품질 문제를 원인 후보로 함께 남겨야 합니다.
| 2-2 검증 신호 | 2-3에서의 해석 조건 |
|---|---|
label 존재, label 결측 없음, 허용 라벨 통과 |
예측과 라벨을 비교해 지표를 계산할 수 있음 |
heart_rate 결측 실패 |
점수와 정밀도/재현율 변화의 입력 품질 원인 후보 |
oxygen_saturation 범위 실패 |
점수 분포와 FP/FN 변화의 입력 품질 원인 후보 |
전체 검증 성공 여부 False |
지표를 계산하더라도 제한 사항을 함께 보고 |
모델 지표는 크게 두 그룹으로 나누어 읽으면 이해하기 쉽습니다. 첫 번째는 특정 임계값에서 나온 예측을 라벨과 비교하는 지표입니다. 두 번째는 임계값을 하나로 고정하지 않고 점수가 두 클래스(class)를 얼마나 잘 구분하는지 보는 지표입니다.
| 지표 그룹 | 대표 지표 | 먼저 볼 확인 항목 |
|---|---|---|
| 임계값 기반 지표 | 정확도, 정밀도, 재현율, F1-Score, 혼동 행렬 | 현재 운영 기준의 FP/FN 허용 여부 |
| 점수 구분력 지표 | AUROC, PR-AUC | 임계값 변경 전 점수의 클래스 구분력 |
| 점수 해석 주의 | 보정 | 점수의 실제 확률 해석 가능성 |
이 구분이 없으면 AUROC가 높으니 바로 배포해도 된다고 오해하거나, 정밀도/재현율만 보고 점수 구분력 문제를 놓칠 수 있습니다. QA는 두 그룹을 함께 보되, 2일 교육에서는 정밀도, 재현율, 혼동 행렬, 임계값을 가장 중요하게 다룹니다.
지표를 읽을 때는 세 가지 층을 분리합니다. 첫째, 데이터 층에서는 평가 데이터의 라벨, 클래스 비율, 관심 클래스 표본 수(Positive support)가 지표 해석을 가능하게 하는지 봅니다. 관심 클래스 표본 수는 평가 데이터 안에 있는 high_risk 샘플(sample) 수입니다. 둘째, 모델 층에서는 점수가 관심 클래스와 비교 클래스(Negative class)를 얼마나 구분하는지 봅니다. 셋째, 운영 기준 층에서는 임계값을 적용했을 때 오탐과 미탐이 허용 가능한지 봅니다. 이 세 층이 섞이면 “모델이 나쁘다”는 결론이 너무 빨리 나옵니다.
QA 관점에서 모델 평가는 모델을 튜닝하는 작업이 아닙니다. 모델이 변경되었을 때 품질이 유지되는지, 데이터가 바뀌었을 때 지표가 어떻게 흔들리는지, 임계값 변경이 오탐과 미탐에 어떤 영향을 주는지 확인하는 작업입니다.
흔한 오해는 지표 하나로 모델 품질을 요약할 수 있다고 생각하는 것입니다. AI QA에서는 정확도 하나만으로 판단하지 않습니다. 특히 관심 클래스가 중요한 이진 분류에서는 정밀도, 재현율, 혼동 행렬, 임계값을 함께 봐야 합니다.
2-3-2. 분류 모델의 점수와 임계값¶
분류 모델(classification model)은 입력을 정해진 클래스 중 하나로 나누는 모델입니다. 이 실습 예제는 high_risk와 low_risk 중 하나로 나누는 이진 분류입니다. 분류 모델은 보통 최종 클래스를 바로 내기보다, 먼저 관심 클래스 가능성을 나타내는 점수를 계산합니다.
점수는 아직 최종 예측이 아닙니다. 운영 기준으로 정한 임계값을 적용해야 최종 예측이 됩니다. 예를 들어 임계값이 0.50이면 점수가 0.50 이상인 샘플을 high_risk로 분류하고, 그보다 낮은 샘플을 low_risk로 분류할 수 있습니다.
특성 입력
→ 점수 생성
→ 임계값 적용
→ 예측 생성
→ 라벨과 비교
→ 지표 계산
이 흐름에서 QA가 구분해야 할 대상은 다음과 같습니다.
| 단계 | QA 질문 |
|---|---|
| 특성 입력 | 모델 입력 특성이 학습 때의 기준과 같은가 |
| 점수 생성 | 점수 분포가 기준선(baseline)과 비교해 달라졌는가 |
| 임계값 적용 | 운영 기준 임계값이 평가 기준과 같은가 |
| 예측 생성 | 최종 예측 클래스 비율이 급격히 바뀌지 않았는가 |
| 라벨과 비교 | 관심/비교 클래스 라벨 기준이 일관되는가 |
| 지표 계산 | 정확도 외에 정밀도, 재현율, FP/FN, PR-AUC를 함께 해석했는가 |
이 흐름은 packages/ai-quality/src/ai_quality/model_quality/application/evaluate_classifier.py에 구현되어 있습니다.
def calculate_binary_metrics(
labels: Sequence[object],
scores: Sequence[float],
threshold: float,
dataset_name: str = "dataset",
) -> EvaluationReport:
valid_labels, valid_scores = collect_valid_binary_pairs(labels, scores)
predictions = ThresholdPolicy(threshold=threshold).predict_many(valid_scores)
confusion_matrix = build_confusion_matrix(valid_labels, predictions)
이 코드에서 중요한 부분은 scores와 threshold가 분리되어 있다는 점입니다. 모델이 만든 점수는 그대로 두고 임계값만 바꾸어도 예측과 혼동 행렬이 달라집니다. 따라서 임계값은 단순 설정값이 아니라 운영 품질 기준입니다.
| 점수 | 임계값 | 예측 | QA 해석 |
|---|---|---|---|
0.72 |
0.50 |
high_risk |
관심 클래스로 분류됨 |
0.72 |
0.80 |
low_risk |
같은 점수지만 임계값 때문에 비교 클래스가 됨 |
0.49 |
0.50 |
low_risk |
임계값 근처 샘플이라 기준 변경에 민감 |
임계값을 낮추면 관심 클래스 예측이 늘어나 재현율이 올라갈 수 있지만 오탐도 증가할 수 있습니다. 임계값을 높이면 정밀도가 올라갈 수 있지만 미탐이 증가할 수 있습니다. QA는 어떤 방향이 서비스 품질에 더 적절한지 판단해야 합니다.
2-4 Lab에서는 같은 모델과 같은 평가 데이터에서 임계값만 바꾸어 다음과 같은 출력을 봅니다. 이 표는 “임계값을 바꾸면 모델이 새로 학습되는가”가 아니라, 같은 점수를 다른 운영 기준으로 해석하면 FP/FN 균형이 달라진다는 점을 보여줍니다.
| 임계값 | 정밀도 | 재현율 | FP | FN | QA 해석 |
|---|---|---|---|---|---|
0.30 |
0.5221 |
1.0000 |
9558 |
0 |
모든 관심 클래스를 탐지하지만 오탐이 큼 |
0.50 |
1.0000 |
0.4266 |
0 |
5989 |
운영 기준 비교점 |
0.70 |
1.0000 |
0.4266 |
0 |
5989 |
현재 점수 분포에서는 0.50과 같은 예측 결과 |
점수 해석에서도 주의가 필요합니다. 점수가 0.8이라고 해서 항상 “실제 확률이 80%”라는 뜻은 아닙니다. 모델의 점수는 클래스를 구분하기 위한 값일 수 있으며, 보정이 되지 않았다면 실제 확률처럼 해석하면 안 됩니다. 이 내용은 2-3-7에서 Mention 수준으로 다룹니다.
2-3-3. 정확도와 클래스 불균형¶
정확도는 전체 샘플 중 맞힌 비율입니다. 계산이 쉽고 설명하기도 쉬워서 많이 사용됩니다. 그러나 클래스가 불균형한 데이터에서는 정확도만으로 모델 품질을 판단하기 어렵습니다.
클래스 불균형이 큰 데이터에서는 정확도가 높아도 관심 클래스 탐지 실패를 숨길 수 있습니다. 예를 들어 전체 1,000건 중 low_risk가 950건이고 high_risk가 50건이라고 가정하겠습니다. 모델이 모든 샘플을 low_risk로 예측하면 정확도는 95%입니다. 숫자만 보면 높은 성능처럼 보이지만, 관심 클래스인 high_risk는 하나도 탐지하지 못합니다.
| 실제 데이터 | 예측 방식 | 정확도 | QA 해석 |
|---|---|---|---|
low_risk 950건, high_risk 50건 |
모두 low_risk |
95% | 관심 클래스 탐지 실패 |
low_risk 950건, high_risk 50건 |
일부 high_risk 탐지 |
정확도가 낮아질 수 있음 | 재현율, FP/FN을 함께 봐야 함 |
이것이 클래스 불균형(class imbalance)에서 정확도 착시가 발생하는 이유입니다. QA는 정확도가 높을 때도 관심 클래스 표본 수와 혼동 행렬을 함께 확인해야 합니다. 정확도가 낮다고 무조건 나쁜 것도 아니고, 정확도가 높다고 무조건 좋은 것도 아닙니다.
정확도는 다음 조건에서 보조 지표로 사용할 수 있습니다.
| 조건 | 정확도 해석 |
|---|---|
| 클래스 비율 비교적 균형 | 전체 품질 요약에 도움 |
| 관심 클래스 매우 적음 | 단독 판단 지표로 부적절 |
| FP/FN 비용 차이 | 정밀도, 재현율 우선 확인 |
| 임계값 변경을 비교 | 정확도보다 FP/FN 변화를 함께 확인 필요 |
QA 판단 기준은 간단합니다. “이 정확도는 어떤 클래스를 맞힌 결과인가?”에 답할 수 있어야 합니다. 이 질문에 답하지 못하면 정확도는 품질 판단 근거로 부족합니다.
2-3-4. 정밀도, 재현율, F1-Score¶
정밀도와 재현율은 관심 클래스를 어떻게 다루는지 보여주는 핵심 지표입니다. 정확도가 전체적으로 얼마나 맞혔는지 보는 지표라면, 정밀도와 재현율은 high_risk 같은 관심 클래스를 얼마나 정확히 예측하고 얼마나 놓치지 않는지 보여줍니다.
| 지표 | 의미 | QA 관점 |
|---|---|---|
| 정밀도 | 관심 클래스로 예측한 것 중 실제 관심 클래스 비율 | 오탐 부담 확인 |
| 재현율 | 실제 관심 클래스 중 탐지한 비율 | 미탐 위험 확인 |
| F1-Score | 정밀도와 재현율의 조화 평균 | 한쪽 지표만 높을 때 착시 감소 |
정밀도가 낮다는 것은 관심 클래스라고 예측한 것 중 실제로는 비교 클래스인 샘플이 많다는 뜻입니다. 즉 오탐이 많습니다. 운영에서는 불필요한 알림, 불필요한 후속 확인, 사용자 신뢰 저하로 이어질 수 있습니다.
재현율이 낮다는 것은 실제 관심 클래스 중 모델이 놓친 샘플이 많다는 뜻입니다. 즉 미탐이 많습니다. QA 관점에서는 중요한 탐지 대상을 놓치는 문제가 될 수 있으므로, 관심 클래스가 중요한 서비스에서는 재현율을 반드시 봐야 합니다.
작은 숫자로 보면 차이가 더 분명합니다.
| 상황 | 실제 관심 클래스 | 관심 클래스 예측 | 맞힌 관심 클래스 | 정밀도 | 재현율 | QA 해석 |
|---|---|---|---|---|---|---|
| A | 100건 | 80건 | 60건 | 60/80 = 75% | 60/100 = 60% | 오탐과 미탐을 함께 확인 |
| B | 100건 | 40건 | 35건 | 35/40 = 87.5% | 35/100 = 35% | 정밀도는 높지만 많이 놓침 |
이 표에서 B는 정밀도가 더 높지만 재현율은 크게 낮습니다. high_risk를 놓치는 것이 부담인 서비스라면 B를 더 적합한 모델이라고 말하기 어렵습니다. 따라서 QA는 정밀도와 재현율을 높고 낮음으로만 보지 말고, 오탐과 미탐 중 어떤 오류가 더 중요한지 함께 판단해야 합니다.
F1-Score는 정밀도와 재현율을 하나의 숫자로 요약하지만, 이것만으로도 충분하지 않습니다. F1이 같아도 정밀도가 높은 모델과 재현율이 높은 모델은 운영 의미가 다릅니다. 따라서 F1은 보조 요약 지표로 보고, 실제 판단은 정밀도, 재현율, FP, FN을 함께 봐야 합니다.
| 상황 | 우선 확인 지표 |
|---|---|
| 오탐의 운영 비용이 큰 경우 | 정밀도, FP |
| 미탐의 서비스 품질 영향이 큰 경우 | 재현율, FN |
| 임계값 후보 비교 | 정밀도/재현율 균형 |
| 보고서 요약값 필요 | F1-Score 보조 사용 |
임계값을 조정하면 정밀도와 재현율은 보통 반대 방향으로 움직입니다. 이 균형을 이해하지 못하면 “두 지표를 모두 높이면 된다”는 비현실적인 목표를 세우기 쉽습니다. QA는 서비스 목적에 맞는 균형점을 찾는 역할을 해야 합니다.
2-3-5. 혼동 행렬과 FP/FN¶
혼동 행렬은 예측과 라벨을 비교해 TP, FP, FN, TN으로 나눈 표입니다. 모델 품질을 QA 관점에서 설명할 때 가장 중요한 도구 중 하나입니다. TP, FP, FN, TN은 관심 클래스인 high_risk를 기준으로 읽습니다. 정확도, 정밀도, 재현율은 모두 혼동 행렬에서 계산됩니다.
| 구분 | 의미 | QA 해석 |
|---|---|---|
| TP(True Positive) | 관심 클래스를 관심 클래스로 예측 | 탐지 성공 |
| FP(False Positive) | 비교 클래스를 관심 클래스로 예측 | 오탐 |
| FN(False Negative) | 관심 클래스를 비교 클래스로 예측 | 미탐 |
| TN(True Negative) | 비교 클래스를 비교 클래스로 예측 | 비교 클래스 정답 |
2-4 Lab에서는 다음과 같은 형식의 결과를 보게 됩니다.
confusion_matrix=TP:4455 FP:0 FN:5989 TN:9558
metrics=accuracy:0.7006 precision:1.0000 recall:0.4266
이 결과는 정확도 하나보다 더 많은 정보를 줍니다. TP:4455는 high_risk를 맞게 찾은 수이고, FP:0은 low_risk를 high_risk로 잘못 예측한 오탐이 없다는 뜻이며, FN:5989는 high_risk를 놓친 수입니다.
QA가 특히 봐야 하는 것은 FP와 FN입니다. FP와 FN은 둘 다 오류지만 운영 의미가 다릅니다. FP가 늘면 불필요한 알림이나 후속 처리가 증가할 수 있고, FN이 늘면 중요한 샘플을 놓칠 수 있습니다.
| 오류 유형 | 발생 조건 | 운영 영향 |
|---|---|---|
| FP | 점수가 임계값 이상이지만 실제 라벨은 비교 클래스 | 오탐 처리 비용 증가 |
| FN | 점수가 임계값 미만이지만 실제 라벨은 관심 클래스 | 주요 대상 미탐 |
혼동 행렬은 임계값 분석에서도 중요합니다. 임계값을 낮추면 FN이 줄어들 수 있지만 FP가 늘 수 있습니다. 임계값을 높이면 FP가 줄어들 수 있지만 FN이 늘 수 있습니다. 따라서 임계값 변경은 반드시 혼동 행렬 변화와 함께 보고해야 합니다.
QA 보고에서는 단순히 “정밀도가 하락했습니다”라고 쓰는 것보다 “임계값을 0.50에서 0.30으로 낮추자 FP가 0건에서 9558건으로 증가하면서 정밀도가 낮아졌습니다”처럼 원인 구조를 함께 설명하는 것이 좋습니다.
2-3-6. AUROC와 PR-AUC¶
AUROC와 PR-AUC는 특정 임계값 하나에 묶이지 않고 점수가 클래스를 얼마나 잘 구분하는지 보는 지표입니다. PR-AUC는 AUPRC로도 불리며, 정밀도-재현율(Precision-Recall) 관점에서 관심 클래스 탐지 품질을 요약합니다. 수업에서는 계산 공식보다 해석에 집중합니다. 이 지표들은 임계값을 정하기 전 모델의 점수 품질을 볼 때 유용합니다.
AUROC는 관심 클래스 샘플이 비교 클래스 샘플보다 높은 점수를 받을 가능성을 보는 지표로 이해할 수 있습니다. 클래스 비율이 비교적 균형적이면 모델의 구분력을 요약하는 데 도움이 됩니다. 그러나 관심 클래스가 매우 적은 상황에서는 AUROC가 좋아 보여도 실제 관심 클래스 탐지 품질이 충분하지 않을 수 있습니다.
PR-AUC는 정밀도/재현율 관계를 기반으로 하는 지표입니다. 관심 클래스가 적고 관심 클래스 탐지가 중요한 불균형 데이터(imbalanced data)에서는 AUROC보다 PR-AUC가 더 민감하게 품질 변화를 보여줄 수 있습니다. 실습 코드의 pr_auc는 평균 정밀도(Average Precision, AP)를 계산한 값이며, 강의에서는 PR-AUC/AUPRC 계열의 요약값으로 해석합니다. 도구나 문헌에 따라 PR 곡선 아래 면적과 평균 정밀도(Average Precision, AP)를 구분해 부를 수 있으므로, 보고서에서는 사용한 계산 방식을 함께 남기는 것이 안전합니다.
| 지표 | 보는 관점 | QA 해석 |
|---|---|---|
| AUROC | 점수의 전체 구분력 | 임계값과 무관한 모델 구분력 확인 |
| PR-AUC | 관심 클래스 탐지 품질 | 관심 클래스가 적은 불균형 데이터에서 더 중요 |
scikit-learn Model evaluation은 정밀도, 재현율, ROC AUC, 평균 정밀도(Average Precision)처럼 서로 다른 평가 함수를 구분해 설명합니다. 이 구분은 모든 지표가 같은 현상을 설명한다는 오해를 막는 데 도움이 됩니다. 2일 수업에서는 계산식보다 지표별 확인 관점과 QA 해석 범위에 집중합니다.
2-4 Lab에서는 기준 validation 데이터셋과 품질 저하 validation 데이터셋을 같은 모델로 비교합니다. 이때 AUROC와 PR-AUC가 함께 낮아지면 특정 임계값 하나의 문제가 아니라 점수 구분력 자체가 약해졌을 가능성을 원인 후보로 둡니다.
| 데이터셋 | AUROC | PR-AUC | QA 해석 |
|---|---|---|---|
vital_signs_valid_baseline.csv |
0.7116 |
0.7999 |
기준 validation 데이터에서의 점수 구분력 |
vital_signs_valid_degraded.csv |
0.6965 |
0.7806 |
데이터 품질 저하 후 구분력 약화 후보 |
AUROC와 PR-AUC가 높더라도 운영 임계값에서 FP/FN이 허용 범위를 넘으면 배포 승인 기준을 만족하지 못할 수 있습니다. 반대로 임계값 기반 지표가 일시적으로 좋아도 AUROC나 PR-AUC가 낮아졌다면 점수 구분력 자체가 약해졌을 가능성이 있습니다.
따라서 QA는 AUROC, PR-AUC를 최종 승인 지표 하나로 쓰기보다 임계값 기반 지표와 함께 봐야 합니다.
2-3-7. 보정과 점수 해석 주의¶
보정은 점수가 실제 확률처럼 해석 가능한지 확인하는 주제입니다. 예를 들어 점수가 0.8인 샘플 100개 중 실제 관심 클래스가 약 80개라면 점수가 확률적으로 잘 보정되어 있다고 말할 수 있습니다. 그러나 많은 모델의 점수는 클래스를 구분하기 위한 값일 뿐 실제 확률이 아닐 수 있습니다.
scikit-learn Probability calibration은 모델 점수가 실제 확률처럼 해석 가능한지 별도로 확인해야 한다는 점을 설명합니다. QA에게 중요한 메시지는 간단합니다. 점수가 높다는 말과 실제 확률이 높다는 말은 다릅니다. 보정을 확인하지 않은 상태에서 점수를 확률로 표현하면 보고서가 실제보다 강한 의미를 갖게 됩니다.
보정은 Mention 수준으로만 다룹니다. 핵심은 score = 실제 확률이라고 단정하지 않는 것입니다. QA 보고서에서 “실제 관심 클래스 확률 80%”처럼 표현하면 실제 의미보다 강한 해석이 될 수 있습니다. 교육 자료에서는 “관심 클래스 점수가 0.8” 또는 “임계값 기준상 관심 클래스로 분류됨”처럼 표현하는 것이 안전합니다.
| 표현 | 권장 여부 | 이유 |
|---|---|---|
score = 0.8 |
권장 | 모델 출력값을 중립적으로 설명 |
관심 클래스 점수가 높음 |
권장 | 확률 단정 없이 해석 |
실제 관심 클래스 확률 80% |
비권장 | 보정 확인 없이는 단정하기 어려움 |
보정은 Appendix의 다중 분류(multi-class)와 최신 AI 시스템 품질 주제에서도 다시 연결될 수 있습니다. 기본 학습 범위에서는 점수 해석 주의만 기억하면 됩니다.
2-3-8. 회귀 모델과 기타 모델 지표 개요¶
회귀, 추천, 비전 AI(Vision AI) 지표는 Mention 또는 Appendix로 다룹니다. 2일 실습은 이진 분류 품질 확인에 집중합니다. 이유는 QA 관점에서 점수, 임계값, 예측, 혼동 행렬을 이해하는 것이 AI 품질 검증의 기본 구조를 잡는 데 가장 적합하기 때문입니다.
회귀 모델은 연속값을 예측하므로 정확도나 정밀도/재현율이 아니라 MAE, RMSE 같은 오차 지표를 봅니다. 추천 시스템은 순위화(ranking) 품질을 보기 때문에 NDCG, MAP 같은 지표가 사용될 수 있습니다. 비전 AI(Vision AI)의 객체 탐지(object detection)는 IoU, mAP 같은 지표가 중요합니다.
| 모델 유형 | 대표 지표 | 처리 수준 |
|---|---|---|
| 이진 분류 | 정밀도, 재현율, AUROC, PR-AUC | 본문 실습 |
| 회귀(regression) | MAE, RMSE | Mention |
| 추천(recommendation) | NDCG, MAP | Appendix |
| 비전 AI 객체 탐지(object detection) | IoU, mAP | Appendix |
QA 관점에서 중요한 것은 모델 유형이 달라져도 “데이터 품질, 모델 지표, 운영 관측을 연결한다”는 원칙은 같다는 점입니다.