您的位置：首页 > 健康 > 养生 > 广州网站建设开发设计_seo搜索优化邵阳_关键词怎么提取_推广普通话的文字内容

广州网站建设开发设计_seo搜索优化邵阳_关键词怎么提取_推广普通话的文字内容

2025/12/8 20:36:00 来源：https://blog.csdn.net/2302_80567373/article/details/147409244 浏览: 次关键词：广州网站建设开发设计_seo搜索优化邵阳_关键词怎么提取_推广普通话的文字内容

广州网站建设开发设计_seo搜索优化邵阳_关键词怎么提取_推广普通话的文字内容

Spark-Streaming概述

Spark Streaming 用于流式数据的处理

Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter等，以及和简单的 TCP 套接字等等

数据输入后可以用 Spark 的高度抽象原语如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等

和 Spark 基于 RDD 的概念很相似，Spark Streaming 使用离散化流(discretized stream)作为抽象表示，叫作 DStream

DStream 是随时间推移而收到的数据的序列

Spark-Streaming的特点

易用性：Spark Streaming支持Java、Python、Scala等编程语言，可以像编写离线程序一样编写实时计算的程序
容错：Spark Streaming在没有额外代码和配置的情况下，可以恢复丢失的数据。对于实时计算来说，容错性至关重要
易整合：Spark Streaming可以在Spark上运行，并且还允许重复使用相同的代码进行批处理。也就是说，实时处理可以与离线处理相结合，实现交互式的查询操作

Spark-Streaming架构

架构图：

DStream实操

实例：

使用 netcat 工具向 9999 端口不断的发送数据，通过 SparkStreaming 读取端口数据并统计不同单词出现的次数

添加spark-streaming的依赖

代码：

在虚拟机启动netcat并发送数据

运行结果：

案例解析：

Discretized Stream 是 Spark Streaming 的基础抽象，代表持续性的数据流和经过各种 Spark 原语操作后的结果数据流。在内部实现上，DStream 是一系列连续的 RDD 来表示。每个 RDD 含有一段时间间隔内的数据

对数据的操作也是按照 RDD 为单位来进行的

计算过程由 Spark Engine 来完成

Spark-Streaming核心编程

DStream 创建

创建DStream的三种方式：RDD队列、自定义数据源、kafka数据源

RDD队列

可以通过使用 ssc.queueStream(queueOfRDDs)来创建 DStream，每一个推送到这个队列中的 RDD，都会作为一个DStream 处理

实例：

循环创建几个 RDD，将 RDD 放入队列。通过 SparkStream 创建 Dstream，计算 WordCount

运行结果：

自定义数据源

自定义数据源需要继承 Receiver，并实现 onStart、onStop 方法来自定义数据源采集

案例：

自定义数据源，实现监控某个端口号，获取该端口号内容

运行结果：

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

朝阳区离婚律师事务所推荐：专注婚姻家事法律服务机构盘点 2025年微信公众号排版工具权威评测：哪款编辑器更适合你？西电2025硕士网课——人工智能安全与伦理练习答案原生js实现文字行垂直向上滚动无限循环降ai率免费网站：提升内容原创性的实用工具超细纤维工厂TOP5权威推荐：来样定制+制造实力双认证，甄选

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989