2장 마무리: 모델 지표를 QA 판단으로 바꾸기¶

2장의 결론은 모델 지표(metric)를 숫자표로 끝내지 않고, 비교 가능한 조건과 함께 QA 판단으로 남기는 것입니다. 현재 운영 입력 샘플의 실패 양상을 validation 기준에서 재현한 품질 저하 평가 데이터셋에서는 검증 실패와 지표 변화가 함께 확인되므로, 데이터 품질 저하를 모델 지표 변화의 강한 원인 후보로 남깁니다.

2장을 마친 뒤에는 모델 평가 결과를 다음 질문으로 설명할 수 있어야 합니다.

확인 질문	2장에서 남길 근거	판단 문장
데이터가 지표 해석에 적합한가	검증 규칙(validation rule), Great Expectations Demo	제한 사항을 남기고 평가 결과를 해석
정확도(Accuracy)만 보고 있지 않은가	정밀도(Precision), 재현율(Recall), 혼동 행렬(Confusion Matrix)	오탐(FP)과 미탐(FN)을 분리해 설명
임계값 변경 영향을 설명할 수 있는가	임계값별 정밀도, 재현율, FP, FN	운영 기준 변경 효과를 분리
데이터 품질 저하와 지표 변화를 연결했는가	기준 validation 데이터셋과 품질 저하 validation 데이터셋 비교, 점수(score)/예측(prediction) 분포	입력 품질을 원인 후보로 남김
비교 조건을 기록했는가	`model_test_eval.json`, `validation_degradation_comparison.json`, 선택적 MLflow tracking	나중에 같은 조건으로 재비교 가능

다음 장으로 가져갈 판단 기준은 다음 다섯 가지입니다.

판단 기준	의미
데이터 검증은 지표 해석의 전제	라벨(label), 필수 컬럼, 범위 오류가 흔들리면 지표 해석도 제한됨
혼동 행렬은 오류 방향의 근거	같은 정확도라도 FP와 FN의 운영 의미는 다름
임계값은 운영 기준	같은 점수도 임계값에 따라 예측과 FP/FN이 달라짐
PR-AUC(AUPRC)는 관심 클래스(Positive class) 탐지 품질 참고	불균형 데이터에서는 정확도보다 관심 클래스 탐지 품질을 더 잘 보여줄 수 있음
평가 기록은 회귀 판단의 증거	데이터셋(dataset), 특성(feature), 라벨 값 표준화 기준, 모델 버전, 임계값을 함께 남겨야 비교 가능

QA 코멘트는 단순히 “지표가 높다/낮다”로 쓰지 않습니다. 어떤 조건에서 어떤 숫자가 나왔고, 어떤 추가 확인이 필요한지까지 남깁니다.

아래 코멘트의 validation/품질 저하 비교값은 artifacts/experiments/chapter_02/validation_degradation_comparison.json과 artifacts/reports/chapter_02_model_quality_comparison.md에서 확인한 prepared artifact 값입니다. 직접 재생성하지 않은 경우에는 보고서에도 “prepared artifact에서 확인한 값”이라고 남깁니다.

데이터 검증 결과, 라벨 기준은 통과했지만 현재 운영 입력 샘플의 실패 양상을 재현한
품질 저하 validation 데이터셋에서는
`heart_rate` 결측값 1501건과 `oxygen_saturation` 범위 오류 1201건이 확인되었습니다.

같은 기준선 모델과 임계값 `0.50`에서 품질 저하 validation 데이터셋은
기준 validation 데이터셋보다 정밀도가 1.0000에서 0.9828로 낮아졌고,
FP는 0건에서 110건으로 증가했고, FN은 9017건에서 9413건으로 증가했습니다.
PR-AUC도 0.7999에서 0.7806로 낮아졌습니다.
교육용 품질 저하 validation 데이터셋에는 일부 라벨 반전(label flip)도 포함되어 있으므로,
허용 라벨 검증 통과와 정답 기준 흔들림 가능성을 분리해서 확인합니다.

QA 판단:
입력 특성 품질 저하가 점수와 예측 분포를 흔들었을 가능성이 있습니다.
모델 자체 문제로 단정하지 않고, 점수 분포와 오류가 발생한 행(row)을 추가 확인합니다.

이 코멘트에서 중요한 것은 조건과 근거가 함께 있다는 점입니다. 데이터 품질 신호, 지표 변화, FP/FN 변화, 추가 확인 항목이 모두 있어야 후속 조치가 가능합니다.

2장에서 만든 최종 산출물은 모델 성능표 하나가 아닙니다.

산출물	확인할 내용
검증 리포트	데이터 조건과 실패 규칙
모델 평가 결과	정확도, 정밀도, 재현율, 혼동 행렬, AUROC, PR-AUC
임계값 비교 결과	FP/FN 균형과 운영 기준 후보
기준 validation 데이터셋과 품질 저하 validation 데이터셋 비교	데이터 품질 저하와 지표 변화의 연결
평가 기록	데이터셋, 특성, 라벨 값 표준화 기준, 모델 버전, 임계값, 지표

현재 증거로는 데이터 품질 저하가 지표 변화의 강한 원인 후보입니다. 같은 모델과 같은 threshold에서 비교했기 때문에 모델 자체 변경 가능성은 낮아졌지만, 실제 API가 같은 모델 버전과 threshold로 동작하는지는 아직 별도 증거가 필요합니다.

다음 확인은 평가 기준이 실제 API와 서빙 환경에서도 유지되는지입니다. 모델 파일이 같아도 API 입력 스키마(schema), 특성 순서, threshold, model_version, 응답 필드가 달라지면 운영 품질 판단이 흔들릴 수 있습니다.