Library Name
pdfminer.six
Document | Source
https://pdfminersix.readthedocs.io/en/latest/index.html
How to Install
# pip install pdfminer.six
1. pdf elements 까지 전부 추출
from pdfminer.high_level import extract_pages
for page_layout in extract_pages("test.pdf"):
for element in page_layout:
print(element)
Element 종류와 분류 알고리즘은 여기가면 볼 수 있음
2. Text만 추출
from pdfminer.high_level import extract_pages
from pdfminer.layout import LTTextContainer
for page_layout in extract_pages("test.pdf"):
for element in page_layout:
if isinstance(element, LTTextContainer):
print(element.get_text())
'공부 > Python' 카테고리의 다른 글
[python] 파이썬에서의 json(str)과 dictionary 타입.. 그리고 request (0) | 2021.05.27 |
---|---|
[python] 문자열을 변수로 사용하고 싶을때 eval() (1) | 2021.05.14 |
[python] ModuleNotFoundError: No module named 'pip' pip 사라짐 (0) | 2021.01.11 |
[Python] vsCode 가상환경에서 bp(Breakpoint) 무시 Error (2) | 2020.07.07 |
[Python] 파이썬 defaultdict() 함수 ? (0) | 2017.11.03 |
댓글