2021년 09월 28일_첫 오류 값 발견!
<배정업무>
개방데이터 품질진단 및 개선(파일)
<배정파일>
○○광역시 ○구_사업자폐기물 배출자 신고현황_20○○0○03
○○광역시 ○구_1인당 지방세 부담액_201○1○3○
○○광역시 ○구_노인여가복지시설_20○○1○30
○○광역시 ○구_불법주정차단속현황_20201○○7
○○광역시 ○구_사업자폐기물 배출자 신고현황_20○1○○03
등등
첫 오류값 발견!✨
공공데이터 청년인턴 일경험수련생 근무 7일만에 첫 오류값을 발견했다.
그동안에는 잘 정비된 데이터 파일들을 받아서 보고서만 생성했는데, 이날은 처음으로 GDQ File진단결과가 오류 값을 나타내는 붉은색으로 물들었다.
업무배정 받은 파일 중 2개 파일에 오류값이 있었다.
1.
[○○광역시 ○구_1인당 지방세 부담액_201○1○3○]
오류내역 :
과세년도, 지방세 금액, 인구수, 세대수 컬럼의 형식이 잘못되어 표준형식으로 정비했다.
날짜 컬럼의 경우 육안상으로는 컬럼형식에 문제가 없는데, 진단 결과에는 날짜(YYYY)데이터가 부정확하다고 나온다.
아마 공백이 입력되어있는 듯하다.
지방세 금액과 인구수는 표준형식으로 수정했으나 과세년도는 여전히 수정되지 않아서 진척도 관리시스템에 정비불가파일로 업로드했다.
<데이터건수 : 3 / 전체 컬럼수: 9>
*컬럼명 - 진단규칙*
시도명 - 문자열
시군구명 - 문자열
자치단체코드 - 수량
과세년도 - 날짜 > YYYY
주민 1인당 부담금액 - 계산식 > 산식 > [지방세 금액] 컬럼 ÷ [인구수] 컬럼
세대당부담금액 - 계산식 > 산식 > [지방세 금액] 컬럼 ÷ [세대수] 컬럼
지방세 금액 - 금액
인구수 - 수량
세대수 - 수량
[○○광역시 ○구_사업자폐기물 배출자 신고현황_20○○0○03]
오류내역 :
전화번호 컬럼의 전화번호들이 표준형식과 다르게 입력되어 정비했다.
진척도 관리 시스템에 오류 보고서와 정비파일을 업로드했다.
<데이터건수 : 21 / 전체 컬럼수: 8>
*컬럼명 - 진단규칙*
시도 - 문자열
시군구 - 문자열
상호 - 문자열
사업자등록번호 - 번호>사업자번호
사업장 주소 - 문자열
전화번호 - 번호>전화번호
폐기물 종류 - 문자열
성상구분 - 문자열
이외에도 헷갈리는 부분이 있어서 기술매니저님에게 메일을 보내 확인받고 파일을 제출했다. 오픈 카톡방의 몇몇 사람들을 보면, 잘 모르겠는 컬럼을 그냥 '문자열'로 설정한다. 진단규칙을 문자열로 설정하면 GDQ File진단프로그램에서 오류 값을 검출하지 않기때문이다. 그러나 괜히 편하자고 멋대로 진단규칙을 설정하면, 나중에 공공데이터 포털에서 공공데이터를 이용하는 사람들에게 피해를 줄 수 있으니 책임감을 갖고 일해야한다.