您的位置:首页 > 新闻 > 热点要闻 > 能24小时挂机的云电脑_惠州市网站制作有限公司_山东网站seo_宁波seo外包快速推广

能24小时挂机的云电脑_惠州市网站制作有限公司_山东网站seo_宁波seo外包快速推广

2025/5/23 5:29:41 来源:https://blog.csdn.net/Drunk_awm/article/details/147052959  浏览:    关键词:能24小时挂机的云电脑_惠州市网站制作有限公司_山东网站seo_宁波seo外包快速推广
能24小时挂机的云电脑_惠州市网站制作有限公司_山东网站seo_宁波seo外包快速推广

这里写自定义目录标题

  • 数据处理
    • 数据获取
    • 数据标注
    • 数据清洗
    • 特征工程

数据处理

数据获取

爬虫
实际工作中大部分都是从数据库里取数

数据标注

只有一小部分有标签 大部分无标签的话
半监督学习:没标注数据和有标注数据共同使用
做法1:半监督学习 基于有标签的小部分数据进行训练 在无标签上测试得到标签 (原始数据+生成标签数据再次训练模型,更新标签)

自学习,假设我们有一些已经标注好的数据,一在小数据里训练一下模型,二再对没标好的进行预测,称为伪标号,三将两种数据合并,再进行预测,多次循环。判断标号的确信程度选择留下来的标号数据,再进行循环预测,让样本置信程度更高。

做法2:将不确定的标签交给人工标注
做法3:弱监督学习 根据数据结果人工设置筛选条件去获得一些标签 如包含“xx”关键词的就为黑样本
使用更深的神经网络或集成模型来标注数据 不需要考虑线上部署的花费

数据清洗

去掉缺失大于30%的列 确认数据类型是否正确
问题:70w数据怎么分析 一样计算方差均值吗?读取速度慢
分类数据怎么看数据分布
数据错误 进行数据清洗 超出范围、模式冲突、看模型数据分布和一致性

进行数据变换 因为对数值敏感 可能受单位影响
在这里插入图片描述

特征工程

在这里插入图片描述

随机森林 随机抽取特征生成n颗树,每个树的结果根据多数投票得到最终结果。
boosting 每颗树不是独立完成 而是顺序完成 一起合成得到一个最终的结果。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com