介绍

你是否还在为获取不到自己在pdf中做了注释的单词而苦恼？？

你是否还因为想记却记不住文献中的陌生单词而苦恼？？

别慌，你的救星来啦。

本项目是获取在pdf中标注了注释的单词以及对应的注释，目前实现的获取的注释类型只有下划线。将单词以及注释保存到txt文本中，然后将单词导入到背单词软件中就可以背诵了(这里推荐墨墨背单词)

代码文件为extracting_word_from_pdf.py

Install

1.安装PyPDF4 pip install PyPDF4
GitHub Pages
2.安装PyMuPDF
pip install PyMuPDF
3.申请百度云文字识别应用(因为谷歌Tesseract-OCR识别不准)
(1)登录百度智能云,选择用户中心,选择文字识别

(2)创建应用，创建好后记住应用的API Key和Secret Key，在之后请求文字识别接口要用到

Note

1.getting_word_from_pdf.py中的PDF_PATH、PDF_FILE_NAME、SAVE_WORD_FILE 需要替换成自己的
2.host中需要将client_id替换成应用的API Key，将client_secret替换成Secret Key

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

介绍

你是否还在为获取不到自己在pdf中做了注释的单词而苦恼？？

你是否还因为想记却记不住文献中的陌生单词而苦恼？？

别慌，你的救星来啦。

代码文件为extracting_word_from_pdf.py

Install

Note

Files

README.md

Latest commit

History

README.md

File metadata and controls

介绍

你是否还在为 获取不到自己在pdf中做了注释的单词而苦恼？？

你是否还因为 想记却记不住文献中的陌生单词而苦恼？？

别慌，你的救星来啦。

代码文件为extracting_word_from_pdf.py

Install

Note

你是否还在为获取不到自己在pdf中做了注释的单词而苦恼？？

你是否还因为想记却记不住文献中的陌生单词而苦恼？？