Monday, March 9, 2026

Notepad++ 替换技巧

如何从 PDF 提取 T5008 数据并导入 Excel(一步一步详细说明)

很多人在准备报税资料时,会遇到一个非常常见的问题:券商提供的 T5008 通常是 PDF 文件,而不是 Excel 表格。

如果只是查看数据,PDF 没有什么问题。但如果我们需要计算总额,例如统计:

  • Box 20 — Cost or book value
  • Box 21 — Proceeds of disposition

那么 PDF 就会变得不太方便,因为我们无法直接在 PDF 中进行汇总计算。

因此,一个常见的做法就是:把 PDF 中的数据提取出来,然后导入 Excel

很多 T5008 PDF 中的数据结构看起来类似下面这样:

如果我们只是想要计算总额,其实真正需要的只有两列数据:

  • Box 20 — Cost or book value
  • Box 21 — Proceeds of disposition

下面介绍几种常见方法。


方法一:使用 AI 生成 CSV 文件

最简单的方法之一,就是让 AI 帮我们把数据转换成 CSV 文件。

基本步骤如下:

  1. 打开 PDF 文件
  2. 把表格内容复制出来
  3. 粘贴到 AI Agent(例如 ChatGPT、Claude 等)
  4. 让 AI 把这些内容转换成 CSV 文件
  5. 下载 CSV 文件
  6. 在 Excel 中打开 CSV
  7. 对 Box 20 和 Box 21 进行汇总

这种方法通常比直接把整个 PDF 上传给 AI 更可靠,因为:

  • AI 处理纯文本比处理 PDF 更准确
  • 减少了版式解析错误

不过需要注意的是:

AI Agent 并不总是可靠。

即使是看起来非常简单的任务,AI 也有可能:

  • 遗漏某几行
  • 误识别某些数字
  • 改变列顺序

因此,如果数据比较重要,仍然建议人工检查。


方法二:使用 Notepad++ 手动处理(更稳定)

如果你希望有更高的可靠性,一个非常实用的工具是 Notepad++

Notepad++ 是一个免费的文本编辑器,非常适合处理结构化文本。

基本步骤如下:

  1. 从 PDF 中复制表格内容
  2. 粘贴到 Notepad++
  3. 打开一个显示功能
View → Show Symbol → Show Space and Tab

这个功能的作用是:显示隐藏字符

打开之后,你会看到:

  • 空格
  • Tab
  • 换行符

这样我们就可以看清楚数据到底是如何分隔的。

很多 PDF 导出的文本,其实是通过 多个空格 来分隔列的。

如果分隔比较规则,我们甚至可以直接用 Space 作为分隔符导入 Excel。


如果数据比较乱怎么办?

有时候 PDF 导出的文本会出现各种问题,例如:

  • 有的地方是多个空格
  • 有的地方是 Tab
  • 有的地方两者混在一起

这时候就需要用到 Notepad++ 的替换功能。

在实际操作中,把所有分隔符统一替换为 Tab 通常是最好的选择。

例如:

多个空格 → 一个 Tab Find: + Replace: \t

如果空格和 Tab 混在一起,可以使用:

Find: [ \t]+ Replace: \t

注意:这些替换规则需要在 Notepad++ 的 Search Mode → Regular expression 模式下使用。

现在有了 AI,这些正则表达式其实也很容易生成。

如果不确定写法,可以直接让 AI 设计或者解释。


一个小技巧:只复制需要的列

如果你只需要 Box 20 和 Box 21,其实还有一个更快的方法。

很多浏览器和 PDF 阅读器支持 矩形选择

常见方法是:

  • 按住 Alt
  • 用鼠标拖动
  • 选择一整列数据

这样可以只复制某一列,而不是整张表。

不过不同系统和浏览器的操作可能不同,有时候需要使用其它组合键。


实例:删除 BUY 行,只保留 SELL 行

例如,在这个 PDF 中还有一只股票 ORLA MNG LTD NEW COM 的交易记录。

所有原始数据已经整理到这个 TXT 文件中:

查看 TXT 文件

假设我们只想保留 SELL 交易。

可以在 Notepad++ 中使用下面的正则表达式:

^.*BUY.*$

这样所有包含 BUY 的行都会被匹配。

替换之后,这些行会变成空行。

然后再使用 Notepad++ 的:

  • 去空行功能

即可清理掉这些行。

如果想一步完成,也可以直接使用:

^.*BUY.*$\R?

这个表达式会直接删除整行。


最后一步:导入 Excel

当所有分隔符都已经统一为 TabSpace 后,就可以导入 Excel。

Excel 会自动把每一列识别为一个字段。

之后就可以:

  • 对 Box 20 求和
  • 对 Box 21 求和
  • 进行进一步计算

为什么不建议直接把整个 PDF 交给 AI?

很多人会尝试把整个 PDF 文件直接上传给 AI。

理论上 AI 可以解析 PDF,但在实际使用中,经常会遇到问题,例如:

  • 表格结构识别错误
  • 数据顺序被打乱
  • 某些行被忽略

如果 PDF 页数很多,这些错误往往很难发现。

最后反而需要逐行检查。

因此,在很多情况下:

先把 PDF 转换为简单文本,再进行处理,会更加可靠。

No comments:

Post a Comment