mbapy.scripts

安装

确保你已经安装了 Python 3，并且已经安装了 argparse 模块。

用法

python -m mbapy.scripts.help [选项]

选项

-l, --list: 打印可用脚本列表和简要描述。
-i, --info: 打印可用脚本的详细描述。

示例

打印脚本列表

python -m mbapy.scripts.help -l

打印脚本详细信息

python -m mbapy.scripts.help -i

可用脚本列表

cnipa

从 CNIPA 获取专利信息。

安装

确保已安装以下 Python 模块： - easyocr - numpy - pyautogui

使用方法

python cnipa_script.py -q "query" -o "output_directory" -m "model_path" -l

参数说明

-q, --query: 检索词
-o, --out: 输出文件目录
-m, --model_path: EasyOCR 模型目录（可选）
-l, --log: 启用日志记录（可选）

示例

python cnipa_script.py -q "peptide" -o "E:\\peptide_patents" -m "E:\\easyocr_models" -l

注意事项

该脚本会从 CNIPA 下载专利信息，并在每个条目成功后保存一次。
请确保已安装 Chrome 浏览器，并且已配置好 Chrome WebDriver以及undetected_chromedriver。
请确保已准备好验证码识别所需的模型文件（如果使用了自定义模型）。
脚本执行过程中保持浏览器窗口最大化并且为置顶状态。

sciHub

从 SciHub 下载论文及其引用（可选）。

安装

确保已安装以下 Python 模块： - tqdm

使用方法

python scihub_script.py -i "ris_file_path" -o "output_directory" -r -l

参数说明

-i, --ris: RIS 文件路径
-o, --out: 输出文件目录
-r, --ref: 启用引用模式以下载引用（可选）
-l, --log: 启用日志记录（可选）

示例

python scihub_script.py -i "E:\\peptide.ris" -o "E:\\peptide_papers" -r -l

注意事项

该脚本会从 SciHub 下载论文及其引用（如果启用了引用模式）。
在下载过程中，依次按下 "e" + "Enter" 键可以停止并保存会话以便下次启动时恢复进度。

sciHub_selenium

使用 Selenium 从 SciHub 下载论文及其引用（可选）。

安装

确保已安装以下 Python 模块： - requests - tqdm - wget

使用方法

python scihub_selenium_script.py -i "ris_file_path" -o "output_directory" -r -g -u -l

参数说明

-i, --ris: RIS 文件路径
-o, --out: 输出文件目录
-r, --ref: 启用引用模式以下载引用（可选）
-g, --gui: 启用浏览器 GUI（可选）
-u, --undetected: 启用使用 undetected_chromedriver（可选）
-l, --log: 启用日志记录（可选）

示例

python scihub_selenium_script.py -i "E:\\peptide.ris" -o "E:\\peptide_papers" -r -g -u -l

注意事项

该脚本会从 SciHub 下载论文及其引用（如果启用了引用模式）。
请确保已安装 Chrome 浏览器，并且已配置好 Chrome WebDriver。
在下载过程中，依次按下 "e" + "Enter" 键可以停止并保存会话以便下次启动时恢复进度。

extract_paper

提取论文内容到 JSON 文件。

安装

确保已安装以下 Python 模块： - tqdm

使用方法

python extract_paper_script.py -i "input_directory" -o "output_file_name" -b "backend" -l

参数说明

-i, --input: 输入论文（PDF）文件目录
-o, --output: 输出文件名，默认为 _mbapy_extract_paper.json
-b, --backend: 指定后端解析器，默认为 pdfminer
-l, --log: 启用日志记录（可选）

示例

python extract_paper_script.py -i "E:\\peptide_papers" -o "peptide_extracted.json" -b "pdfplumber" -l

注意事项

该脚本用于提取论文内容，并将结果保存为 JSON 文件。
如果论文包含书签，将会提取书签中的英文部分作为论文的章节信息。
如果论文无法解析或提取书签信息，将会将整篇论文内容保存为字符串。
请确保已安装相应的 PDF 解析器（如 pdfminer 或 pdfplumber）。