您的位置:首页 > 财经 > 产业 > 全网营销的四大优势_安阳贴吧_东莞搜索引擎推广_看广告赚钱

全网营销的四大优势_安阳贴吧_东莞搜索引擎推广_看广告赚钱

2025/6/27 0:33:06 来源:https://blog.csdn.net/javajiawei/article/details/146127243  浏览:    关键词:全网营销的四大优势_安阳贴吧_东莞搜索引擎推广_看广告赚钱
全网营销的四大优势_安阳贴吧_东莞搜索引擎推广_看广告赚钱

本文将介绍一种简单高效的方法解决用户在上传文件到DeepSeek、ChatGPT,文心一言,AI等大语言模型平台过程中的身份证号以及手机号等敏感数据识别和脱敏问题。

DeepSeek、ChatGPT,Qwen,Claude等AI平台工具快速的被接受和使用,用户每天上传的文本数据中潜藏着大量敏感信息,大量的AI服务数据泄漏事件源于未正确处理输入数据。

  • 你是否在上传数据到deepseek,chatgpt,通义千问,豆包,腾讯元宝,纳米搜索等平台之前犹豫过?
  • 是否纠结如何快速的检查数据中是否存在敏感信息?
  • 是否受制于如何快速轻量的对这些数据进行脱敏?
  • 你是否担心数据上传到大语言模型等AI平台之后,敏感信息等会被用于特殊的用途?
  • 你是否担心数据不仅会被大模型平台获取,还会被诸多的插件应用获取?

那么本文将帮你找到答案。

如果不想了解原理和过程部分的内容,可以直接跳转到单一敏感信息脱敏章节获取使用的方法和技巧,本文的目录结构如下:
在这里插入图片描述

单一信息信息脱敏

下面将使用cyberchef对于姓名,身份证号,手机号这几种信息进行识别和脱敏。关于cyberchef内容的详细介绍,见我的专栏《Cyberchef 从入门到精通教程》,这里。

关于一些问题的解决思路,相信大家现在万事都会首先问下deepseek,看看deepseek在这方面的能力如何,询问结果如下:
在这里插入图片描述

但是可惜的是deepseek目前还是非常不擅长cyberchef的应用,因此出现了AI幻觉的问题,生成的脚本是无法被cyberchef的识别的,有非常多的错误,无法被正确的加载。这也是本文有别于AI的价值,能够帮助你高效的完成这一项工作。

上述的答案虽然结果不对,但是仍有一些地方倒是存在一些价值,就是其中的正则。对于文本文件来说,识别这些信息主要靠的是正则表达式,而deepseek在编写正则表达式这一块的能力还是很强的。

身份证/手机号测试用例

技术deepseek的回答构造一组包含身份证和手机号的测试数据如下:

手机号: 18811112222 姓名:张三 身份证:110105203505061234
手机号: 17711112222 姓名:李小四 身份证:210105203305061235
手机号: 19911112222 姓名:村中少年 身份证:310105203405061236

有了正则表达式之后,就可以使用cyberchef的正则模块,进行识别,测试deepseek给出的正则是否正确,如下:
在这里插入图片描述

在这里插入图片描述

正则识别没有问题之后,就可以进行如下的脱敏操作。

身份证号脱敏

对于身份证号,要求是先识别,然后保留前6位和后1位(标准可以按照自己要求变化),中间部分使用星号进行替换,如下:
在这里插入图片描述

对应的cyberchef脚本如下:

[{ "op": "Fork","args": ["\\n", "\\n", false] },{ "op": "Register","args": ["(\\d{6})(\\d{8})(\\d{3})(\\d|X)", true, false, false] },{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "$R1$R2" }, "***********", true, false, true, false] }
]

这里面涉及到几个关键点:

  • 正则的编写直接询问deepseek即可。
  • 关于fork的用法详见 详见我之前的文章《Cyberchef基础概念之-分叉合并-fork/merge》,详见这里。
  • 关于register的用法详见我之前的文章《cyberchef基础概念之-寄存器-Register》,详见这里。
  • 要理解$1和$2的用法

手机号脱敏

对于手机号号,要求是先识别,然后在保留前3位和后4位(标准可以按照自己要求变化),中间部分使用星号进行替换,如下:
在这里插入图片描述
对应的cyberchef脚本如下:

[{ "op": "Fork","args": ["\\n", "\\n", false] },{ "op": "Register","args": ["(1[3-9]\\d)(\\d{4})(\\d{4})", true, false, false] },{ "op": "Find / Replace","args": [{ "option": "Regex", "string": "$R0$R1$R2" }, "$R0****$R2", true, false, true, false] }
]

其他内容的脱敏

上述的敏感信息种类中可知,还存在着证件信息,金融账户信息,财产信息,网络行为信息等,例如姓名,银行卡号,车牌号,护照,邮箱,密码,IP地址等其他的敏感信息,这些信息如何脱敏处理,详见我的专栏《脱敏Deepseek/Chatgpt等AI大模型中的敏感数据》,这里。

JSON/XML脱敏

上述只是介绍了无结构的TEXT的文本的处理方法,当然有的文本文件是有格式的,那么针对JSON和XMl这两种最为常见的格式,如下处理呢,请移步至《识别并脱敏上传到deepseek/chatgpt JSON数据中的敏感信息》和《识别并脱敏上传到deepseek/chatgpt XML数据中的敏感信息》,详见这里和这里。

非文本格式文件脱敏

那么针对word,excel,ppt,pdf,各种图片文件这写常见的格式,如何处理呢,请移步我的专栏《脱敏Deepseek/Chatgpt等AI大模型中的敏感数据》,这里。

本文为CSDN村中少年原创文章,未经允许不得转载,博主链接这里。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com