신분증 OCR 모델 학습을 위한 가상 데이터 생성하기
들어가며안녕하세요! 케이뱅크 데이터서비스팀에서 AI 모델 개발을 하고 있는 김하영입니다.이번 포스팅에서는 신분증 OCR PoC를 진행하면서 겪었던 데이터 수집의 어려움을 공유하고, 이를 극복하기 위해 어떤 방법들을 적용했는지 간단하게 소개하고자 합니다.데이터 수집의 문제점우수한 성능의 신분증 OCR 모델을 개발하려면 대량의 신분증 데이터셋이 필수적입니다. 그러나 데이터를 수집하기에는 현실적으로 다양한 어려움이 있습니다. 개인 정보 포함여러분들도 아시다시피, 신분증에는 많은 개인 정보가 포함되어 있습니다. 먼저, 주민등록증에는 얼굴 사진, 이름, 주민등록번호, 주소 등 민감 정보가 존재합니다. 운전면허증에는 더불어 운전면허번호와 6자리 보안코드 등이 추가로 존재하지요. 이로 인해 대량의 원본 데이터를 획득..
2023.12.15