이것저것/공공데이터 일경험 수련생(2021년)

2021년 12월 08일_업무일지

Iam_im2 2021. 12. 8. 19:34
728x90

<배정업무>
개방데이터 품질 진단 및 개선(파일)

<배정파일>
한국○○○○진흥원_통합사업관리_NT○○ 논문.csv
○○도_주유소 현황.csv
○○도_전기사업업체현황.csv
한국○○○○진흥원_통합사업관리_NT○○ 지식재산권.csv
○○광역시 ○구_카페현황.csv
○○시 숙박업.csv
○○광역시 ○구_식품위생업소현황.csv
○○도_인공어초 설치 좌표 현황.csv






1. 업무
오늘은 배정 받은 업무의 75%에 오류값이 있었다. 그동안 당일 배정 받은 업무 대비 오류값이 가장 많은 날이었다.
여는 파일의 대부분에서 오류가 나와 뭔가 잘못 설정한 줄 알았다.



[○○도_인공어초 설치 좌표 현황.csv]
테이블명: N2○○○○○8○7
데이터 건수 : 900
칼럼 수 : 12

<오류>
시설년도 칼럼에 연도값이 '0'으로 입력되는 오류가 1개 있었다.





[○○도_주유소 현황.csv]
테이블명: N2○○○○○9○3
데이터 건수 : 692
칼럼 수 : 6

<오류>
전화번호 칼럼에 오류값이 3개 있었다. 전화번호 칼럼은 000-000-0000 형식이어야하는데 '000 -000-0000' 으로 국번 다음에 띄어쓰기가 입력되는 오류가 있었다.






[○○광역시 ○구_식품위생업소현황.csv]
테이블명: N2○○○○○8○8
데이터 건수 : 4,041
칼럼 수 : 5

<오류>
전화번호 칼럼에 오류값이 2719개 있었다. 전화번호 칼럼은 000-000-0000 형식이어야하는데 '000 -000-0000' 으로 지역번호 다음에 띄어쓰기가 입력되는 오류가 있었다.





[○○광역시 ○구_카페현황.csv]
테이블명: N2○○○○○9○0
데이터 건수 : 186
칼럼 수 : 8

<오류1>
전화번호 칼럼에 오류값이 60개 있었다. 전화번호 칼럼은 000-000-0000 형식이어야하는데 '000 -000-0000', '000-000 -0000'으로 띄어쓰기가 입력되는 오류가 있었다.


<오류2>
전화번호 칼럼에 국번 앞에 0이 하나 더 붙어 0000-000-0000형식으로 입력된 오류가 있었다. GDQFile진단 후 결과를 한 번 더 육안진단하는데, 파일진단에서 거르지 못한 값이었다. 다만, 원본데이터를 임의 수정할 수 없어 정비파일, 정비불가 파일을 모두 업로드했다.

 

 

728x90