mbapy.scripts
安装
确保你已经安装了 Python 3,并且已经安装了 argparse 模块。
用法
python -m mbapy.scripts.help [选项]
选项
-l
,--list
: 打印可用脚本列表和简要描述。-i
,--info
: 打印可用脚本的详细描述。
示例
打印脚本列表
python -m mbapy.scripts.help -l
打印脚本详细信息
python -m mbapy.scripts.help -i
可用脚本列表
cnipa
从 CNIPA 获取专利信息。
安装
确保已安装以下 Python 模块: - easyocr - numpy - pyautogui
使用方法
python cnipa_script.py -q "query" -o "output_directory" -m "model_path" -l
参数说明
-q
,--query
: 检索词-o
,--out
: 输出文件目录-m
,--model_path
: EasyOCR 模型目录(可选)-l
,--log
: 启用日志记录(可选)
示例
python cnipa_script.py -q "peptide" -o "E:\\peptide_patents" -m "E:\\easyocr_models" -l
注意事项
- 该脚本会从 CNIPA 下载专利信息,并在每个条目成功后保存一次。
- 请确保已安装 Chrome 浏览器,并且已配置好 Chrome WebDriver以及undetected_chromedriver。
- 请确保已准备好验证码识别所需的模型文件(如果使用了自定义模型)。
- 脚本执行过程中保持浏览器窗口最大化并且为置顶状态。
sciHub
从 SciHub 下载论文及其引用(可选)。
安装
确保已安装以下 Python 模块: - tqdm
使用方法
python scihub_script.py -i "ris_file_path" -o "output_directory" -r -l
参数说明
-i
,--ris
: RIS 文件路径-o
,--out
: 输出文件目录-r
,--ref
: 启用引用模式以下载引用(可选)-l
,--log
: 启用日志记录(可选)
示例
python scihub_script.py -i "E:\\peptide.ris" -o "E:\\peptide_papers" -r -l
注意事项
- 该脚本会从 SciHub 下载论文及其引用(如果启用了引用模式)。
- 在下载过程中,依次按下 "e" + "Enter" 键可以停止并保存会话以便下次启动时恢复进度。
sciHub_selenium
使用 Selenium 从 SciHub 下载论文及其引用(可选)。
安装
确保已安装以下 Python 模块: - requests - tqdm - wget
使用方法
python scihub_selenium_script.py -i "ris_file_path" -o "output_directory" -r -g -u -l
参数说明
-i
,--ris
: RIS 文件路径-o
,--out
: 输出文件目录-r
,--ref
: 启用引用模式以下载引用(可选)-g
,--gui
: 启用浏览器 GUI(可选)-u
,--undetected
: 启用使用 undetected_chromedriver(可选)-l
,--log
: 启用日志记录(可选)
示例
python scihub_selenium_script.py -i "E:\\peptide.ris" -o "E:\\peptide_papers" -r -g -u -l
注意事项
- 该脚本会从 SciHub 下载论文及其引用(如果启用了引用模式)。
- 请确保已安装 Chrome 浏览器,并且已配置好 Chrome WebDriver。
- 在下载过程中,依次按下 "e" + "Enter" 键可以停止并保存会话以便下次启动时恢复进度。
extract_paper
提取论文内容到 JSON 文件。
安装
确保已安装以下 Python 模块: - tqdm
使用方法
python extract_paper_script.py -i "input_directory" -o "output_file_name" -b "backend" -l
参数说明
-i
,--input
: 输入论文(PDF)文件目录-o
,--output
: 输出文件名,默认为_mbapy_extract_paper.json
-b
,--backend
: 指定后端解析器,默认为pdfminer
-l
,--log
: 启用日志记录(可选)
示例
python extract_paper_script.py -i "E:\\peptide_papers" -o "peptide_extracted.json" -b "pdfplumber" -l
注意事项
- 该脚本用于提取论文内容,并将结果保存为 JSON 文件。
- 如果论文包含书签,将会提取书签中的英文部分作为论文的章节信息。
- 如果论文无法解析或提取书签信息,将会将整篇论文内容保存为字符串。
- 请确保已安装相应的 PDF 解析器(如 pdfminer 或 pdfplumber)。