Skip to content

jinyilun718/extract_annotation_from_pdf

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

介绍

你是否还在为 获取不到自己在pdf中做了注释的单词而苦恼??

你是否还因为 想记却记不住文献中的陌生单词而苦恼??

别慌,你的救星来啦。

本项目是获取在pdf中标注了注释的单词以及对应的注释,目前实现的获取的注释类型只有下划线。将单词以及注释保存到txt文本中,然后将单词导入到背单词软件中就可以背诵了(这里推荐墨墨背单词)

代码文件为extracting_word_from_pdf.py

Install

1.安装PyPDF4 pip install PyPDF4
GitHub Pages
2.安装PyMuPDF
pip install PyMuPDF
3.申请百度云文字识别应用(因为谷歌Tesseract-OCR识别不准)
(1)登录百度智能云,选择用户中心,选择文字识别
文字识别
(2)创建应用,创建好后记住应用的API Key和Secret Key,在之后请求文字识别接口要用到
文字识别

Note

1.getting_word_from_pdf.py中的PDF_PATH、PDF_FILE_NAME、SAVE_WORD_FILE 需要替换成自己的
文字识别 2.host中需要将client_id替换成应用的API Key,将client_secret替换成Secret Key

About

从pdf中获取注释,以及注释对应的word

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%