728x90

이것저것/공공데이터 일경험 수련생(2021년) 65

2021년 11월 03일_업무일지

개방데이터 품질 진단 및 개선(파일) ○○광역시 ○○구_물가조사현황_202○○1○○.csv ○○광역시 ○○구_물가조사현황_202○○7○○.csv ○○광역시 ○구_나트륨줄이기 참여 업소_202○○2○○.csv ○○광역시_○구_나트륨줄이기참여업소_202○○7○○.csv ○○광역시_○○소방서 무선통신장비 현황_202○○0○○.csv 20○○_○○소방서 업무용컴퓨터 보유현황.csv ○○광역시 ○구 유치원 현황_202○○101.csv ○○광역시 ○구_인구동태 현황_202○○○○1.csv ○○도_○○시_지역주택조합 현황_202○○7○○.csv ○○도 ○○시_친환경인증정보_202○○5○○.csv ○○도_○○시_가변전광표지판(안내전광판)_202○○○○7_○○291○○○○5082_○○97.csv ○○도_○○시_가변전광표..

2021년 11월 02일_업무일지

개방데이터 품질 진단 및 개선(파일) ○○○. 수도권○호선 승강장 정보.csv 한국○○통신○○진흥원_국가자격검정 ○○통계현황.xml ○○특별시_○○구_○○차량보관소_202○○804_○○28○○○○83○○6_○○4.csv ○○광역시_○○군_○○○○도서관 신착자료 현황(2021년 5월).csv ○○광역시_○○구_약수터 ○○관리현황_202○○001.csv ○○광역시_○○구_AI가 본 삼필봉 등산객 현황_202○○028.csv 등등 1. 업무 [○○광역시_○○구_AI가 본 삼필봉 등산객 현황_202○○028.csv] 테이블명 : F2000○○8○○ 데이터 건수 : 3456 컬럼 수 : 4 시간 컬럼이 HH24 형태여야하는데, 한자리로 표현되는 오류가1440건 있었다.

2021년 11월 01일_업무일지

개방데이터 품질 진단 및 개선(파일) ○○허가제+사증○○인정서+○○현황(20○○년).xml 아이○○_정부지원 ○○ 여부 ○○서류 및 확인 방법.csv (20○○.1분기)전국○○○○현황통계_국가.csv 4차 산업 혁명○○을 ○○한 ○○○○진단 기술개발 현황.csv ○○○지정사업자 ○○○실적(20○○년).csv 제주○○○○박물관_○○정보처리○○ 현황_20○○년.csv 등등 1. 업무 오늘부터 다시 GDQFlie진단 업무로 바뀌었다. 오픈 API와 랜덤으로 업무가 배정된다고 한다. 오늘은 모두 GDQFlie진단 이었다. [4차 산업 혁명○○을 ○○한 ○○○○진단 기술개발 현황.csv] 테이블명 : F2000○○5○○ 데이터 건수 : 8308 컬럼 수 : 7 날짜 컬럼 중 연도 컬럼은 YYYY형식을 따라야 하는..

2021년 10월 29일_SQL 진단 업무일지

개방데이터 품질 진단 및 개선(SQL) 서울특별시_○○구_○○장애인보호구역_20○○○○03_1○○○○466○○997_1○○3.csv 경로당현황.csv ○○광역시 ○구_문화재현황(20○○년).csv 등등 1. 업무 오늘이 SQL진단업무 마지막 날이다. 다음주 부터는 이전 업무인 파일데이터 진단과 API 진단을 병행할 예정이라고 한다. [○○광역시 ○구_문화재현황(20○○년).csv] 테이블명 : F100○○○○51 공공데이터 품질진단 수행가이드에 의하면, 빈 값은 NULL상태로 두어야 한다. 그러나 이 파일은 빈값에 - 표기를 한 컬럼이 있었다.

2021년 10월 28일_SQL 진단 업무일지

개방데이터 품질 진단 및 개선(SQL) 새○○○○청_새○○사업 매립 정보_20○○○○30.csv 새○○○○청_새○○ 광역○○시설 설치정보_20○○○○10.csv 서울특별시 ○○구_공장등록 현황.csv ○○귀가 일자별 ○○.csv 서울특별시_○○구_길관광정보_20○○○○19.csv 서울특별시_○○구_길관광정보_20○○○○08_15○○○○93○○○○7_2392.csv 등등 1. 업무 어제부터 진척도관리시스템이 파일제출이 정상작동한다. 대략 일주일만에 진단결과보고서를 제대로 된 칸에 제출하고 있다. 보고서란에 진단결과보고서를 업로드하면 진척도 관리시스템에서 오류율을 검사하는 과정이 있었는데, 시스템에서 이 과정을 없애버렸다. 덕분에 업로드가 빨라졌다. [서울특별시 ○○구_공장등록 현황.csv] 테이블명 : F..

2021년 10월 27일_SQL 진단 업무일지

개방데이터 품질 진단 및 개선(SQL) 건축물 지목별 ○○현황(월별, 동(호)수)_20○○0○○0 한국○○○원_순수토지 행정구역별 ○○현황 (월별, 면적)_202○○○30 피보증인 ○○사업 현황(20○○년 기준)_cng 피보증인 ○○사업 현황(20○○년 기준)_cng 관리관서별 ○○관련 무선국(20○○.2.).csv 관리관서별 ○○관련 무선국(20○○.4.).csv 등등 1. 업무 [관리관서별 ○○관련 무선국(20○○.2.)] 테이블명 : F100018571 엑셀서식오류 파일이다. 행렬이 서로 바뀐 파일로, 진단 제외 파일이 두 개 있었다. 이 경우에는 행렬이 바뀐 상태를 캡쳐해서 엑셀파일에 첨부한 후에 진척도 관리 시스템에서 보고서란은 공란으로 두고 정비란에 파일을 제출하면 된다. 관리관서별 ○○관련 ..

2021년 10월 26일_SQL 진단 업무일지

개방데이터 품질 진단 및 개선(SQL) 109. 수도권○○ 주소데이터 452. 대구○○ 소화기설비 국토○○○○기술진흥원_20○○년 국토○○R&D○○별 특허출원 현황. 등등 1. 업무 오늘은 데이터에 오류값이 하나도 없었다. 어제 업무하면서 궁금했던 점들을 오늘 기술매니저님한테 문의했다. 인덱스 지정하는 구문과 관련해 잘 해결되지 않는 점이 있었는데, 기술매니저님이 한 번에 알려주셨다.👍

2021년 10월 25일_SQL 진단 업무일지

개방데이터 품질 진단 및 개선(SQL) 문화○○_○○○○본부_○○○○_관람객_수_현황_20○○년 ○○-○○30. ○○첨단○○○○단지 6월 용지별 ○○ 현황 19○○년 ○○지 공시지가 등등 1. 업무 육안진단 업무를 하던 사람들은 오늘부터 파일데이터 도구 진단(GDQ File진단도구 활용)으로 업무가 전환됐다. SQL진단은 그대로 업무를 수행한다. 오늘은 배정받은 파일 수는 평소보다 적었으나, 각 파일 당 컬럼수가 22개~127개였다. 127개의 컬럼이 있는 파일을 여는 순간 몹시 막막했다. 그나마 127개 컬럼이 있는 파일은 동일 패턴이었으나 21개 컬럼이 있는 파일은 각 항목마다 각기 다른 SQL구문으로 오류검출을 해야했다. 게다가 매니저님은 오늘 휴일이라서 정말이지 말도 안되게 힘든 날이었다. 파이썬..

2021년 10월 22일_SQL 진단 업무일지_완전한 툴은 없다?!

개방데이터 품질 진단 및 개선(SQL) 한국○○공단_가축분뇨전자인계관리시스템_분뇨 배출및처리 계획_20○○1201 건설○○인력 훈련기관 정보(20○○년) ○○경찰청_VTS 관제구역도 현황_20○○○○02 등등 1. 업무 오늘은 센터 출근일이라 어제보다 업무량이 많이 줄었다. 컴퓨터를 하루종일해서 그런가 손목이 아프다. 하나의 파일에 오류가 2가지나 있었다. [건설○○인력 훈련기관 정보(20○○년)] 테이블명 : F10001○○○○ 월일 표기 오류다. 개방데이터 품질 진단 및 개선 가이드에서는 월일 표기에 '~월','~일'을 사용하지 않아야한다. 5월 20일을 표현하려면 '05-20'이 맞는 표현이다. 그러나 이 파일은 날짜 데이터이 ~월, ~일을 표시했다. 쿼리박스가 완전한 툴은 아니라는 것을 알게됐다...

2021년 10월 21일_SQL 진단 업무일지

개방데이터 품질 진단 및 개선(SQL) 한국○○공사_○○기지 월별 역률 현황분석_202○○○31 한국○○공사_○○○○기지 입항선박 데이터_2020○○30 한국○○○공단_자동차 연비표시제도_202○○○31 ○○처리시설 인증제품 정보_19○○○3 한국○○○○공단_○○산업단지 산업○○정보_생산실적_202○○○31 한국○○○○공단_○○산업단지 산업○○정보_생산실적_202○○○30 등등 1. 업무 오늘도 어제처럼 많은 업무를 배정받았다. 이제는 업무량이 이 정도로 고정되는 듯하다. [한국○○공사_○○기지 월별 역률 현황분석_202○○○31] 테이블명 : F100009○○2 엑셀서식오류 파일이다. '○○' 컬럼이 데이터입력값(2020-03-01)과 표시값(Mar-20), 쿼리박스에서의 출력값(2020-03)이 모두..

728x90