您的位置:首页 > 财经 > 产业 > 网站制作谁家好_58同城网招聘找工作建筑工程_关键词快速排名不限行业_开封网络推广公司

网站制作谁家好_58同城网招聘找工作建筑工程_关键词快速排名不限行业_开封网络推广公司

2025/5/14 12:34:07 来源:https://blog.csdn.net/xinling3539/article/details/145926265  浏览:    关键词:网站制作谁家好_58同城网招聘找工作建筑工程_关键词快速排名不限行业_开封网络推广公司
网站制作谁家好_58同城网招聘找工作建筑工程_关键词快速排名不限行业_开封网络推广公司

安装依赖库

在运行程序之前,请确保安装所需的库:

pip install pymupdf python-docx

Python 程序代码 

import os
import fitz  # PyMuPDF
from docx import Documentdef delete_pdf_first_page(input_path, output_path):"""删除 PDF 文件的第一页并保存:param input_path: 输入的 PDF 文件路径:param output_path: 输出的 PDF 文件路径"""# 打开 PDF 文件pdf_document = fitz.open(input_path)# 删除第一页pdf_document.delete_page(0)# 保存修改后的 PDFpdf_document.save(output_path)pdf_document.close()print(f"已处理并保存: {output_path}")def delete_word_first_page(input_path, output_path):"""删除 Word 文件的第一页内容并保存:param input_path: 输入的 Word 文件路径:param output_path: 输出的 Word 文件路径"""# 打开 Word 文件doc = Document(input_path)# 获取第一页的内容范围# 假设第一页的内容在前 500 个字符内(可以根据实际情况调整)first_page_content = doc.paragraphs[:10]  # 取前 10 段作为第一页内容# 删除第一页的内容for paragraph in first_page_content:p = paragraph._elementp.getparent().remove(p)# 保存修改后的 Word 文件doc.save(output_path)print(f"已处理并保存: {output_path}")def batch_process_files(folder_path, output_folder):"""批量处理文件夹中的 PDF 和 Word 文件:param folder_path: 输入文件夹路径:param output_folder: 输出文件夹路径"""# 确保输出文件夹存在if not os.path.exists(output_folder):os.makedirs(output_folder)# 遍历文件夹中的文件for filename in os.listdir(folder_path):file_path = os.path.join(folder_path, filename)output_path = os.path.join(output_folder, filename)try:# 处理 PDF 文件if filename.lower().endswith('.pdf'):print(f"正在处理 PDF 文件: {filename}")delete_pdf_first_page(file_path, output_path)# 处理 Word 文件elif filename.lower().endswith('.docx'):print(f"正在处理 Word 文件: {filename}")delete_word_first_page(file_path, output_path)else:print(f"跳过不支持的文件: {filename}")except Exception as e:print(f"处理文件 {filename} 时出错: {e}")if __name__ == "__main__":# 输入文件夹路径(包含 PDF 和 Word 文件)input_folder = "F:\\python\\pdf"  # 替换为你的输入文件夹路径# 输出文件夹路径output_folder = "F:\\python\\firstpage"  # 替换为你的输出文件夹路径# 批量处理文件batch_process_files(input_folder, output_folder)

程序说明

  1. PDF 文件处理

    • 使用 PyMuPDF 打开 PDF 文件,删除第一页并保存。

    • 注意:PyMuPDF 的 delete_page 方法直接删除指定页面。

  2. Word 文件处理

    • 使用 python-docx 打开 Word 文件,删除第一段内容(模拟删除第一页)。

    • 注意:python-docx 不支持直接删除页面,因此通过删除第一段内容来实现。

  3. 批量处理

    • 程序会遍历指定文件夹中的所有文件,自动识别 PDF 和 Word 文件并处理。

 清华大学DeepSeek整套学习资料(持续更新)链接:https://pan.quark.cn/s/24136c2b13e8

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com