주요 용어¶
이 페이지는 용어를 외우기 위한 목록이 아닙니다. 본문에서는 중요한 용어가 처음 등장할 때 간략히 설명하고, 이 페이지는 읽다가 헷갈릴 때 다시 확인하는 참고표로 사용합니다.
AI 품질 기본 용어¶
AI 품질을 읽을 때는 데이터, 모델 출력, 운영 신호를 구분해야 합니다. 아래 용어는 1장과 2장에서 반복해서 등장합니다.
| 용어 | 의미 | 실습 예시 |
|---|---|---|
| 특성(feature) | 모델 입력으로 사용하는 값 | 심박수(heart rate), 산소포화도(oxygen saturation), heart_rate |
| 라벨(label) | 모델 평가에서 정답으로 보는 값 | 원본 Risk Category, 값 표준화 후 high_risk/low_risk |
| 클래스(class) | 라벨(label)이나 예측(prediction)이 가질 수 있는 범주 | high_risk, low_risk |
| 관심 클래스(Positive class) | 관심 있게 찾으려는 클래스(class) | high_risk |
| 비교 클래스(Negative class) | 관심 클래스가 아닌 비교 기준 클래스(class) | low_risk |
| 관심 클래스 표본 수(Positive support) | 평가 데이터 안의 관심 클래스 샘플(sample) 수 | high_risk 샘플(sample) 수 |
| 점수(score) | 관심 클래스(Positive class)일 가능성을 나타내는 모델 출력 | risk_score = 0.72 |
| 임계값(threshold) | 점수(score)를 최종 클래스(class)로 바꾸는 기준 | threshold = 0.50 |
| 예측(prediction) | 임계값(threshold)을 적용한 최종 모델 판단 | high_risk 예측 |
| 지표(metric) | 예측(prediction)과 라벨(label)을 비교한 품질 수치 | 정확도(Accuracy), 정밀도(Precision), 재현율(Recall) |
오류 유형과 평가 용어¶
분류 모델의 품질은 맞았는지 틀렸는지만 보지 않고, 어떤 방향으로 틀렸는지도 함께 봅니다. 특히 관심 클래스(Positive class)를 기준으로 FP와 FN을 구분합니다.
| 용어 | 의미 | QA 관점 |
|---|---|---|
| TP | 관심 클래스(Positive class)를 관심 클래스로 맞게 예측 | 탐지 성공 |
| TN | 비교 클래스(Negative class)를 비교 클래스로 맞게 예측 | 비탐지 성공 |
| FP | 비교 클래스(Negative class)를 관심 클래스로 잘못 예측 | 과도한 탐지 |
| FN | 관심 클래스(Positive class)를 비교 클래스로 잘못 예측 | 놓친 탐지 |
| 정밀도(Precision) | 관심 클래스로 예측한 것 중 실제 관심 클래스 비율 | 알림이 얼마나 정확한지 확인 |
| 재현율(Recall) | 실제 관심 클래스 중 모델이 찾아낸 비율 | 놓친 관심 클래스가 얼마나 적은지 확인 |
| 혼동 행렬(Confusion Matrix) | TP, TN, FP, FN을 함께 보여주는 표 | 오류 방향 분리 |
| AUROC | 여러 threshold에서 클래스 구분 성능을 보는 지표 | 전반적 구분력 참고 |
| PR-AUC | 정밀도-재현율(Precision-Recall) 곡선 아래 면적 | 클래스 불균형(class imbalance) 상황에서 중요 |
운영 품질 용어¶
운영 환경에서는 정답 라벨(label)을 즉시 알 수 없는 경우가 많습니다. 그래서 로그와 지표를 통해 품질 변화를 관측합니다.
| 용어 | 의미 | 확인 목적 |
|---|---|---|
request_id |
요청 하나를 추적하기 위한 ID | 특정 요청의 입력, 응답, 로그 연결 |
model_version |
응답에 사용된 모델 버전 | 의도한 모델 사용 여부 확인 |
| 검증 실패(validation failure) | 입력 스키마(schema)나 데이터 규칙 실패 | 입력 품질 또는 API 계약 문제 확인 |
| 지연 시간(latency) | 요청에 대한 응답 지연 시간 | 운영 성능 저하 확인 |
| 오류율(error rate) | 요청 중 오류가 발생한 비율 | API 기능 또는 운영 장애 확인 |
| 점수 분포(score distribution) | 운영 요청에서 점수(score)가 분포하는 모습 | 모델 출력 변화 확인 |
| 예측 분포(prediction distribution) | 운영 요청에서 예측(prediction)이 분포하는 모습 | 특정 class 급증 확인 |
| 모델 산출물(model artifact) | 학습 후 서빙에 사용하는 모델 파일과 관련 설정 | 모델 재현과 버전 추적 |