본문 바로가기

공부29

[DL] TypeError: TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]] 학습이 잘 돌아가던 중 1epoch가 달성되기 전에 갑자기 아래와 같은 에러가 발생했다. TypeError: TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]] 원인은 Text data에서 Tokenizing할때 결측치가 있어서였다. 분명 결측치를 제거했다고 생각했는데, 바보같이 제거한 df를 저장 안하고 to_csv를 했다.. 나는 바보다.. 해결 import pandas as pd # delimiter가 콤마(,)로 된 csv파일을 불러온 후(한글이라 인코딩은 utf-8 사용) df = pd.read_csv('train_data.csv', sep = ",", engine='python', encodi.. 2021. 9. 29.
[python] pandas를 활용한 간단한 csv to tsv 또는 tsv to csv csv파일과 tsv의 차이를 굳이 두자면 데이터의 구분자(delimiter)가 "콤마(,)" 인지 "탭(\t)" 인지 이다. 자주 사용하게 되는데, 자꾸 까먹고 다시 검색해보는게 싫어서 간단하게 기록한다. 아래는 pandas를 사용하여 csv를 tsv파일로 변환하는 것이다. import pandas as pd # delimiter가 콤마(,)로 된 csv파일을 불러온 후(한글이라 인코딩은 utf-8 사용) df = pd.read_csv('train_data.csv', sep = ",", engine='python', encoding = "utf-8") # 그냥 혹시 있을 결측치 제거.. df.dropna(axis=0) # delimeter를 탭(\t)으로 변경 후 저장. df.to_csv('m_train.. 2021. 9. 28.
[pandas] 대한민국 주소체계 분리해서 사전만들기 일반적인 문서(docx, pdf, pptx ... )에서 주소를 찾아야 하는 일이 생겼다. 공수가 많이 들어갈 것 같은 작업이라 미뤘지만 이제는 미룰 수 없는.. 근데 생각보다 빨리 잘 끝났다. https://www.juso.go.kr/addrlink/addressBuildDevNew.do?menu=mainJusoDb 도로명주소 DB 다운로드 | 도로명주소 개발자센터 www.juso.go.kr 위 사이트에서 대한민국 주소 데이터베이스를 다운받을 수 있었다. (우리나라도 요즘 잘해놓네...) 내가 필요한 정보는 우리나라의 도로명, 시도명, 시군구명, 읍면동명 이렇게 네가지였고 다운받은 DB를 찾아보니 적절히 분류된게 있어서 사이트에서 제공해준 [가이드]를 참고해 전처리 하였다. 전처리한 DB는 '개선_도로.. 2021. 7. 9.
[python] pyinstaller centOS에서 빌드하기(docker) 힘들게 윈도우로 빌드 성공하고.. Ubuntu20.04로 빌드도 긴 삽질끝에 성공했지만 실제로 회사에서 필요한건 CentOS였다. Pyinstaller 정말 편하고 누가 만들었는지 잘 만든거 인정하지만 운영체제마다, 심지어 같은 리눅스 계열이어도 Ubuntu에서 빌드한게 CentOS에서 실행이 안될 줄은 몰랐다.. ㅠㅠ Ubuntu에서 빌드한 파일을 CentOS에서 실행하게 되면 뜨는 Error 메세지 Error loading Python lib '/home/user/AI/main/libpython3.8.so.1.0': dlopen: /lib64/libm.so.6: version `GLIBC_2.29' not found (required by /home/user/AI/main/libpython3.8.so.. 2021. 6. 25.