01. AI 품질과 데이터 품질 기초¶
데이터 품질 확인의 목적은 모델 평가를 시작할 기준 데이터가 믿을 수 있는 상태인지 판단하는 것입니다. 1장은 Kaggle Human Vital Sign Dataset을 교육용으로 정리한 data/vital_signs_evaluation_baseline.csv를 읽고, 데이터 구조, 라벨(label), 특성(feature) 범위, 클래스(class) 분포를 모델 평가 전 근거로 정리합니다.
이 장에서 수강생은 생체신호 기반 위험 알림 AI 서비스의 품질/운영 담당자로서 평가용 기준 데이터의 상태를 확인합니다. 과정 전체에서는 high_risk 예측 비율 증가 운영 시나리오를 반복해서 추적하지만, 1장에서 직접 운영 로그를 분석하지는 않습니다. 먼저 “모델 평가를 시작할 기준 데이터는 어떤 상태였는가”를 확인해야 합니다. 이 기준은 4장과 5장에서 보는 운영 기준선과 구분합니다.
| 기준 | 내용 |
|---|---|
| 맡는 일 | 모델 평가 전에 데이터 조건이 충분한지 판단 |
| 이번 장의 상황 | 평가용 기준 데이터에서 모델 평가 전제를 확인하고, 이후 high_risk 예측 비율 증가 운영 시나리오를 해석할 첫 근거 확보 |
| 확인 증거 | 필수 컬럼, 결측치, 이상치, 라벨 분포, 관심 클래스 표본 수(Positive support) |
| 판단 산출물 | 모델 평가 전 판단과 데이터 품질 QA 코멘트 |
1. 공통 운영 시나리오 적용¶
공통 운영 시나리오 high_risk_prediction_shift는 1장에서 원인 확정 대상이 아니라 기준 데이터 확인 대상으로 들어옵니다. API는 정상 응답을 반환하지만, high_risk 예측 비율은 0.2167에서 0.4583으로 증가했고 평균 점수는 0.5020에서 0.6402로 상승했습니다. 1장의 판단은 “운영 변화의 원인이 무엇인가”가 아니라 “모델 평가를 시작할 기준 데이터가 믿을 수 있는가”입니다.
| 항목 | 1장에서의 적용 |
|---|---|
| 이번 장의 역할 | 평가용 기준 데이터가 모델 평가를 시작할 수 있는 상태인지 확인 |
| 새로 확인하는 증거 | 필수 컬럼, 라벨 기준, 범위, 클래스 분포 |
| 후보 상태 변화 | 기준 데이터 구조 문제는 약화하고, 운영 입력 변화와 설정 변경 후보는 남김 |
| 보고서 문장 | 기준 데이터는 필수 컬럼과 라벨 분포가 확인되어 모델 평가를 시작할 수 있습니다 |
| 다음 질문 | 데이터 조건이 흔들릴 때 같은 모델과 threshold의 지표가 어떻게 바뀌는가 |
2. 1장에서 해결할 문제와 상황¶
데이터 품질은 모델 평가를 시작하기 전에 확인해야 하는 첫 번째 품질 조건입니다. 특성(feature)은 모델 입력으로 쓰는 값이고, 라벨은 평가에서 정답으로 보는 값입니다. 1장에서는 이 두 가지가 평가 가능한 상태인지 확인하고, 결측치, 이상치, 라벨 오류, 클래스 불균형이 왜 모델 평가의 전제 조건이 되는지 이해합니다.
1장은 기준 데이터의 상태를 먼저 고정합니다. 이후 장에서는 현재 운영 입력 샘플의 검증 실패, 운영 입력 변화를 재현한 품질 저하 평가 데이터셋, API 응답, 운영 로그, drift 리포트를 봅니다. 1장에서 기준 데이터의 행 수, 라벨 분포, 범위 오류를 확인해 두어야 뒤에서 나타나는 변화가 데이터 조건 변화인지, 모델 지표 변화인지, 운영 입력 변화인지 구분할 수 있습니다.
data/vital_signs_evaluation_baseline.csv 기준 데이터 확인
→ 필수 컬럼과 label 기준 확인
→ 결측치와 범위 오류 확인
→ 관심 클래스 표본 수 확인
→ QA 판단: 모델 평가를 시작할 기준 데이터로 사용 가능
1장에서 먼저 확인할 항목은 이후 모델 평가와 운영 관측 질문으로 이어집니다. 아래 표는 기준 데이터에서 먼저 확인하는 항목과 이후 장에서 이어질 질문을 정리한 것입니다. 1-1은 기능 정상과 품질 판단의 차이를, 1-2는 점수(score)와 임계값(threshold)의 연결을, 1-3부터 1-5는 데이터 품질 확인과 QA 판단을 실제 기준 데이터 값으로 설명합니다.
| 기준 데이터 증거 | 1장에서의 판단 | 이후 장에서 이어질 질문 |
|---|---|---|
| 데이터 구조 | 평가 대상 데이터 규모와 구조 확인 가능 | 같은 스키마가 현재 운영 입력 샘플과 API 입력에도 유지되는가 |
| 라벨 분포 | 관심 클래스 표본 수 부족 여부 확인 | 지표 변화가 클래스 구성 변화 때문인지 확인 |
| 라벨 기준 | 라벨 기준으로 지표 계산 가능 | 품질 저하 평가 데이터셋이나 운영 배치에서도 라벨 기준이 유지되는가 |
| 범위 검증 | 명백한 입력 범위 문제 확인 | 이후 범위 오류가 생기면 지표가 흔들리는가 |
이 장의 핵심은 기준선을 만드는 것입니다. 1장만으로 운영 이상 원인을 확정하지 않습니다. 대신 “현재 기준 데이터는 모델 평가를 시작할 수 있다”는 판단을 남기고, 2장에서 현재 운영 입력 변화를 재현한 품질 저하 평가 데이터셋과 모델 지표 변화를 비교할 준비를 합니다.
3. 사례를 QA 질문으로 바꾸기¶
1장의 핵심 확인 관점은 데이터 확인 결과를 모델 평가 전 판단과 연결하기 위한 기준입니다. 같은 현상도 어떤 관점으로 바라보느냐에 따라 확인할 자료가 달라집니다. 아래 항목들은 1-1부터 1-5까지 이어지는 판단 기준입니다.
| 확인 관점 | 핵심 질문 | 확인할 근거 |
|---|---|---|
| AI 품질의 차이 | 기능 동작과 AI 품질 판단을 구분할 수 있는가 | API status, 입력 데이터, 예측 비율 |
| 데이터와 모델의 연결 | 데이터 오류가 모델 평가 전제를 어떻게 흔드는가 | 특성 분포, 이상치, 결측치, 라벨 기준 |
| 데이터 품질 이슈 | 결측치, 이상치, 라벨 오류, 클래스 불균형을 구분할 수 있는가 | 스키마(schema), 범위 규칙(range rule), 관심 클래스 표본 수, 클래스 비율 |
| 실습 결과 해석 | Pandas 확인 결과를 품질 리포트로 정리할 수 있는가 | 컬럼 목록, 결측치 요약, 범위 검증 결과 |
| QA 판단 | 현재 데이터로 모델 평가를 진행해도 되는가 | 리포트 세부 항목, 제한 사항, 후속 조치 |
이 표는 암기해야 할 목록이 아니라, 각 절을 읽을 때 사용할 기준입니다. 각 절을 읽을 때 “이 내용이 어떤 확인 관점과 연결되는가”를 함께 보면, 데이터 탐색이 단순 통계 확인에서 모델 평가 전 판단으로 이어집니다.
4. 1장 학습 흐름¶
1장의 흐름은 품질 이상 사건의 원인 후보를 데이터 관점에서 좁혀 가는 순서입니다. 먼저 AI 품질의 차이를 이해하고, 데이터가 모델 평가와 연결되는 구조를 확인합니다. 그 다음 데이터 품질 이슈를 원인 후보로 나누고, Lab에서 실제 데이터를 확인한 뒤, 마지막에 모델 평가 전 판단으로 정리합니다.
| 문서 | 역할 | 확인할 것 | 다음으로 이어지는 질문 |
|---|---|---|---|
| 1-1 AI 품질의 개요 | 기능 정상과 AI 품질을 신뢰할 수 있는 상태의 차이 이해 | 기존 SW QA와 AI QA의 확인 대상 차이 | API가 정상이어도 품질 이상일 수 있는가 |
| 1-2 데이터, 모델, 운영 품질의 연결 | 데이터, 모델 출력, 예측의 기본 연결 확인 | 특성, 라벨, 점수, 임계값의 역할 | 예측 변화의 원인 후보는 무엇인가 |
| 1-3 데이터 품질의 중요성 | 데이터 품질 이슈를 원인 후보로 구분 | 결측치, 이상치, 라벨 오류, 클래스 불균형 | 어떤 데이터 문제가 평가 신뢰도를 흔드는가 |
| 1-4 Pandas 기반 데이터 품질 확인 실습 | 실제 CSV에서 데이터 품질 확인 | 컬럼, 결측치, 범위 오류, 관심 클래스 표본 수 | 리포트에 어떤 제한 사항을 남겨야 하는가 |
| 1-5 모델 평가 전 데이터 품질 결과 해석 | 리포트 결과를 QA 판단으로 전환 | 평가 가능, 조건부 평가, 평가 보류 판단 근거 | 모델 평가를 진행해도 되는가 |
| 1장 마무리 | 사례, Lab, 판단 기준 연결 | 최종 QA 코멘트 형식 | 어떤 질문을 모델 평가 단계로 남길 것인가 |
이 흐름에서 1-4 Lab의 핵심은 많은 코드를 작성하는 것이 아니라, 데이터 품질 확인 결과를 직접 만들어 보는 것입니다. 1-5는 그 결과를 단순 출력으로 두지 않고, 모델 평가를 진행할지 판단하는 문장으로 바꾸는 단계입니다.
5. 산출물과 판단 기준¶
1장의 산출물은 모델 평가 전에 남겨야 할 품질 근거입니다. 산출물은 data/vital_signs_evaluation_baseline.csv의 데이터 조건을 설명하고, 예측 비율 변화가 데이터 구조 문제인지 아닌지 먼저 구분하기 위한 근거로 사용합니다. Lab은 uv run python labs/prepare_data.py와 labs/ch01_data_quality/pandas_data_quality_lab.ipynb에서 직접 확인할 수 있고, 준비된 리포트는 artifacts/reports/chapter_01_quality_report.md에 남습니다.
| 산출물 | 실행 또는 확인 경로 | 보고서에 남길 필드 | 판단에 쓰는 방식 |
|---|---|---|---|
| 데이터 스키마 확인 결과 | data/vital_signs_evaluation_baseline.csv와 1-4 Lab |
행 수 20002, 컬럼 수 17, 필수 컬럼 누락 없음 |
모델 입력과 라벨 비교가 가능한지 확인 |
| 결측치 확인 결과 | artifacts/reports/chapter_01_quality_report.md |
필수 컬럼 결측 없음, 평가 전제 충족 | 모델 입력과 평가 해석의 제한 사항 기록 |
| 이상치 확인 결과 | 1-4 Lab의 범위 검증 셀 | 범위 검증 실패 0건 |
수집 오류와 유효 극단값 구분 |
| 라벨 분포 확인 결과 | artifacts/reports/chapter_01_quality_report.md |
high_risk 10416, low_risk 9586 |
평가 데이터가 주요 클래스를 충분히 포함하는지 확인 |
| 데이터 품질 리포트 | artifacts/reports/chapter_01_quality_report.md |
평가 가능 여부 True, 제한 사항, QA 코멘트 |
모델 평가 진행, 제한 사항 기록 후 평가 진행, 평가 보류 판단의 근거 |
따라서 1장의 읽기 목표는 데이터 품질 항목을 외우는 것이 아닙니다. 확인 결과를 근거로 “현재 데이터로 모델 평가를 진행할 수 있는가”, “어떤 제한 사항을 함께 보고해야 하는가”, “먼저 보완해야 할 데이터 문제가 있는가”를 설명하는 것이 목표입니다. 현재 준비된 기준 데이터에서는 평가 전제가 충족되므로, 2장으로 넘어갈 때 남길 보고서 문장은 “기준 데이터는 필수 컬럼과 라벨 분포가 확인되어 모델 평가를 시작할 수 있으나, 현재 운영 입력 샘플의 실패 양상을 재현한 품질 저하 평가 데이터셋에서 같은 조건이 유지되는지 별도 검증이 필요합니다”입니다.
6. 문서 목록¶
아래 순서대로 읽으면 데이터 품질 확인 결과를 모델 평가 전 QA 판단으로 연결할 수 있습니다. 각 문서는 독립적으로 읽을 수 있지만, 처음 학습할 때는 순서대로 읽는 편이 좋습니다.
| 순서 | 문서 | 확인할 내용 |
|---|---|---|
| 1 | AI 품질의 개요 | 기능은 정상인데 품질이 이상한 상황 이해 |
| 2 | 데이터, 모델, 운영 품질의 연결 | 데이터가 점수, 임계값, 예측으로 이어지는 기본 흐름 |
| 3 | 데이터 품질의 중요성 | 결측치, 이상치, 라벨 오류, 클래스 불균형 원인 후보 |
| 4 | Pandas 기반 데이터 품질 확인 실습 | 실제 CSV에서 원인 후보를 확인하는 Lab |
| 5 | 모델 평가 전 데이터 품질 결과 해석 | 리포트 결과를 모델 평가 전 판단 표현으로 바꾸는 방법 |
| 6 | 1장 마무리 | 사례, Lab, QA 판단을 하나의 흐름으로 정리 |
| 7 | 전체 참고문헌 | 출처와 추가 학습 자료 |