본문 바로가기

공부/Python21

[python] pandas를 활용한 간단한 csv to tsv 또는 tsv to csv csv파일과 tsv의 차이를 굳이 두자면 데이터의 구분자(delimiter)가 "콤마(,)" 인지 "탭(\t)" 인지 이다. 자주 사용하게 되는데, 자꾸 까먹고 다시 검색해보는게 싫어서 간단하게 기록한다. 아래는 pandas를 사용하여 csv를 tsv파일로 변환하는 것이다. import pandas as pd # delimiter가 콤마(,)로 된 csv파일을 불러온 후(한글이라 인코딩은 utf-8 사용) df = pd.read_csv('train_data.csv', sep = ",", engine='python', encoding = "utf-8") # 그냥 혹시 있을 결측치 제거.. df.dropna(axis=0) # delimeter를 탭(\t)으로 변경 후 저장. df.to_csv('m_train.. 2021. 9. 28.
[pandas] 대한민국 주소체계 분리해서 사전만들기 일반적인 문서(docx, pdf, pptx ... )에서 주소를 찾아야 하는 일이 생겼다. 공수가 많이 들어갈 것 같은 작업이라 미뤘지만 이제는 미룰 수 없는.. 근데 생각보다 빨리 잘 끝났다. https://www.juso.go.kr/addrlink/addressBuildDevNew.do?menu=mainJusoDb 도로명주소 DB 다운로드 | 도로명주소 개발자센터 www.juso.go.kr 위 사이트에서 대한민국 주소 데이터베이스를 다운받을 수 있었다. (우리나라도 요즘 잘해놓네...) 내가 필요한 정보는 우리나라의 도로명, 시도명, 시군구명, 읍면동명 이렇게 네가지였고 다운받은 DB를 찾아보니 적절히 분류된게 있어서 사이트에서 제공해준 [가이드]를 참고해 전처리 하였다. 전처리한 DB는 '개선_도로.. 2021. 7. 9.
[python] pyinstaller centOS에서 빌드하기(docker) 힘들게 윈도우로 빌드 성공하고.. Ubuntu20.04로 빌드도 긴 삽질끝에 성공했지만 실제로 회사에서 필요한건 CentOS였다. Pyinstaller 정말 편하고 누가 만들었는지 잘 만든거 인정하지만 운영체제마다, 심지어 같은 리눅스 계열이어도 Ubuntu에서 빌드한게 CentOS에서 실행이 안될 줄은 몰랐다.. ㅠㅠ Ubuntu에서 빌드한 파일을 CentOS에서 실행하게 되면 뜨는 Error 메세지 Error loading Python lib '/home/user/AI/main/libpython3.8.so.1.0': dlopen: /lib64/libm.so.6: version `GLIBC_2.29' not found (required by /home/user/AI/main/libpython3.8.so.. 2021. 6. 25.
[python] pyinstaller jinja2.PackageLoader Error 기존에 만들었던 pyinstaller 패키징에 에 많은 삽질이 있었지만 이 삽질은 거의 3일짜리였다.. 기존 삽질 로그 : https://bslife.tistory.com/76?category=767584 [python] pyinstaller 일곱번의 삽질 for uvicorn + FastAPI pyinstaller 란.. python 파일을 패키징해서 executable 형식으로 만들어주는 아주 좋은 도구이다. 사용방법이 굉장히 간단해 보이지만, 실제로 적용하고 세부 설정을 하다보니 너무 할게 많았고 디버깅 bslife.tistory.com 에러 발생 과정 기존 패키징 파일은 pyinstaller를 이용하여 FastAPI(uvicorn) 를 빌드했었는데, 이 친구는 h2o AutoML을 배포하기 위한 .. 2021. 6. 24.