본문 바로가기

공부29

[python] opencv를 활용한 이미지에서 표 객체 찾기(table detection) 원래 corner detect를 찾아보다가 sift, harris 알고리즘 같은걸 보고 이 알고리즘 들은 table detect에 활용이 잘 안돼서 아에 box detect 하는 방법을 찾게되었다. 이 글은 기록용.. 아래 사진에서 표 부분만 좌표를 구할 것이다 필요 Library import cv2 import numpy as np Image Binaray gray_scale=cv2.cvtColor(image,cv2.COLOR_BGR2GRAY) _,img_bin = cv2.threshold(gray_scale,150,225,cv2.THRESH_BINARY) img_bin=~img_bin 표에 컬러가 있을 수 있으니 먼저 gray_scale로 변환하고, 이진화시킴 이진화된 이미지를 반전(~) 시켜주면 아.. 2021. 5. 31.
[python] 파이썬에서의 json(str)과 dictionary 타입.. 그리고 request 기본적으로 python에서 json 타입은 없다. json.dump() 를 해버리면 이 데이터의 타입은 str 보통 request.get() 같은 통신을 할때 웹에서 json 타입의 데이터를 받아와 처리해야 하는 경우가 많은데, str타입이라 특정 키값에 접근하기 쉽지 않다. 접근하는 방법은 json(str) -> dictionary로 변환 후 key에 접근... 아래와 같이 하면 dictionary 타입으로 변환된다. json.loads (json(str) -> dictionary) import json import requests url = 'localhost:8000/api/example' res = requests.get(url) type(res.text)# str res.['key-name']#.. 2021. 5. 27.
[python] 문자열을 변수로 사용하고 싶을때 eval() 데이터 분석을 하다보면 col1, col2, col3 .... col999 와 같이 연속되는 변수가 있는 경우가 있다. 이러한 경우에, 일일히 변수값을 보려고 하면 print(col1) print(col2) print(col3) ... print(col999) 이런식으로 해야될 수도 있는데 너무 끔찍하다. 그래서 python 내장 함수인 eval() 함수(매개변수로 받은 expression (=식)을 문자열로 받아서, 실행)를 사용해 주면 for i in range(1, 999): print(eval(f"col{i}")) 깔끔하게 해결된다.. 응용은 알아서.. ps. eval()함수는 그 자체로 취약점이 될 수 있기 때문에 주의해서 사용해야 함 2021. 5. 14.
[python] PDF에서 Text 추출하기 (Extract elements from a PDF using Python) Library Name pdfminer.six Document | Source https://pdfminersix.readthedocs.io/en/latest/index.html How to Install # pip install pdfminer.six 1. pdf elements 까지 전부 추출 from pdfminer.high_level import extract_pages for page_layout in extract_pages("test.pdf"): for element in page_layout: print(element) Element 종류와 분류 알고리즘은 여기가면 볼 수 있음 2. Text만 추출 from pdfminer.high_level import extract_pages from .. 2021. 3. 10.