本项目是获取在pdf中标注了注释的单词以及对应的注释,目前实现的获取的注释类型只有下划线。将单词以及注释保存到txt文本中,然后将单词导入到背单词软件中就可以背诵了(这里推荐墨墨背单词)
1.安装PyPDF4
pip install PyPDF4
GitHub Pages
2.安装PyMuPDF
pip install PyMuPDF
3.申请百度云文字识别应用(因为谷歌Tesseract-OCR识别不准)
(1)登录百度智能云,选择用户中心,选择文字识别
(2)创建应用,创建好后记住应用的API Key和Secret Key,在之后请求文字识别接口要用到
1.getting_word_from_pdf.py中的PDF_PATH、PDF_FILE_NAME、SAVE_WORD_FILE 需要替换成自己的
2.host中需要将client_id替换成应用的API Key,将client_secret替换成Secret Key