이것저것/공공데이터 일경험 수련생(2021년)

2021년 11월 05일_업무일지

Iam_im2 2021. 11. 5. 18:40
728x90

<배정업무>
개방데이터 품질 진단 및 개선(파일)

<배정파일>
전라남도 ○○군_하수도 요금 징수 현황_201○○2○○.csv
경상북도_○○시_도로안전표지_20○○0510_○○2○○○○34○○93_○○5○○.csv
경상남도_○○군_도시공원정보_20○○10○○_16○○65○○12○○0_5○○3.csv
한국○○○○원_재정통계BRIEF_총수입 추이_20○○06○○
○○광역시도시철도공사_연구개발과제 추진현황_20○○○○12
K○○CA 개발과 이슈 목록.csv



등등





1. 업무

[전라남도 ○○군_하수도 요금 징수 현황_201○○2○○.csv]
데이터 건수 : 28
컬럼 수 : 23


<오류>
개방데이터 품질 진단 및 개선 가이드에 따르면 금액, 수량 등의 빈값은 -(줄표)나 0을 입력하지않고 null 상태로 둬야한다. 그러나 이 파일의 금액들은 빈값에 모두 -(줄표)를 입력해놓았다. 5개의 컬럼에 각 20여개씩 오류가 있었고, GDQ FIle진단 프로그램을 이용해 모두 빈값으로 수정했다.







[경상북도_○○시_도로안전표지_20○○0510_○○2○○○○34○○93_○○5○○.csv]
데이터 건수 : 560
컬럼 수 : 22

<오류>
노선번호 컬럼에 노선번호 데이터 이외에 날짜 데이터가 함께 입력되어있었다. 오류를 수정해야할 지, 정비불가 처리해야할지 매니저님에게 여쭤보니 노선번호 데이터가 정상적으로 입력된 값을 기준으로하여 날짜 데이터는 오류로 검출하라는 답변을 받았다. 그래서 N-NN형식을 제외한 나머지를 오류로 검출했다. 노선번호 컬럼에 오류 데이터가 500건있었다.

 

 

728x90