文章目录
- 1 概述
- 2 内容摘录
- 生成式对抗网络的介绍
- GAN方法、Transformer方法和Diffusion方法发展历程
- SCALING UP THE MODEL SIZE(模型规模的扩展)
- 图像水印和归属
- 生成图像技术对社会的影响
- 正面影响:
- 负面影响:
- 有向图模型(Directed Graphical Model)
- 1. **有向图模型的定义**:
- 2. **贝叶斯网络的结构**:
- 3. **联合概率分布的分解**:
- 4. **贝叶斯网络的来源**:
- 总结:
- 马尔可夫模型(Markov Model)
- 1. **马尔可夫假设**:
- 2. **马尔可夫模型的定义**:
- 3. **有向图表示**:
- 4. **马尔可夫链与序列建模**:
- 5. **应用**:
- 总结:
- 无向图模型(Undirected Graphical Models, UGMs)
- 1. **无向图模型的定义**:
- 2. **马尔可夫随机场(Markov Random Field, MRF)**:
- 3. **团与最大团(Clique and Maximal Clique)**:
- 4. **联合概率分布的分解**:
- 5. **无向图模型的应用**:
- 6. **推理和计算**:
- 总结:
- 因子图(Factor Graphs)
- 1. **因子图的定义**:
- 2. **因子图的表示形式**:
- 3. **因子图与概率图模型的关系**:
- 4. **推理算法**:
- 5. **因子图的例子**:
- 6. **因子图的应用**:
- 总结:
- 3 阅读材料(gan原论文,以及gan教程)
1 概述
本讲主要介绍生成式对抗网络(1-24页),还介绍了有向图模型、马尔可夫模型、无向图模型等内容(36-65页)。
阅读材料是Ian Goodfellow的GAN论文以及作者自己写的教程性论文GAN Tutorial(57页)。
- 快速了解GAN原理可以看我之前写的生成式对抗网络博客(内容源自优达学城中的代码):https://blog.csdn.net/weixin_42118657/article/details/120284204
- 详细深入的研究可参考李沐的gan论文讲解:https://www.bilibili.com/video/BV1rb4y187vD
2 内容摘录
生成式对抗网络的介绍
PPT的1~24页在介绍GAN,略。
GAN方法、Transformer方法和Diffusion方法发展历程
SCALING UP THE MODEL SIZE(模型规模的扩展)
这张图片展示了不同规模的Parti模型在处理相同生成任务时的效果对比。任务的提示是:“一只穿着橙色连帽衫、戴着蓝色太阳镜的袋鼠站在悉尼歌剧院前的草地上,胸前举着一个写有‘Welcome Friends!’标语的牌子。”
图中列出了四个不同规模的模型(350M、750M、3B、20B),生成的结果随着模型规模的增加逐渐变得更加清晰和逼真:
- 350M:图像质量较低,袋鼠的特征不够细致,标语牌上的文字也不清晰。
- 750M:袋鼠的形象有所改进,但整体图像仍显模糊,标语牌的文字略微可辨。
- 3B:图像质量进一步提升,袋鼠的形象更加清晰,标语牌上的文字部分清晰,但仍有错误。
- 20B:这是效果最好的生成图像,袋鼠的特征、颜色以及背景都更加逼真,标语牌上的文字基本正确。
通过这些对比,可以看出随着模型参数的增加,生成图像的质量显著提升,尤其是在细节和准确性方面。
图像水印和归属
这张图片重点介绍了如何为生成图像增加水印,并讨论了模型归属、图像归属以及虚假图像检测的相关技术。以下是图片中的各个要点:
- Watermarking(水印):
-
数字水印是一种用于识别图像是否由生成模型创建的方法。
-
许多生成图像的方法(例如GANs, VAEs, 稳定扩散)都可以通过水印技术来增强。
-
图中显示了一个通过水印网络(Watermarking Network)将水印嵌入到数据中的流程,水印可以通过MSE损失函数进行优化。
-
Fake-image Detection(虚假图像检测):
- 目标是在没有水印的情况下识别虚假图像。
- 这是一个独立的技术,用于检测通过生成模型生成的伪造图像,即便这些图像没有明显的水印。
-
Model Attribution(模型归属):
- 这一部分旨在识别图像是由哪个生成模型创建的(例如Dalle-2 vs. SDXL)。
- 此任务在一些情况下表现得非常成功,例如通过自然水印(未刻意添加但可以识别的生成痕迹)来区分不同模型生成的图像。
-
Image Attribution(图像归属):
- 图像归属的目的是识别哪些源图像导致了新生成图像的出现。
- 这是一个极具挑战性的任务,因为需要追踪图像生成的每一步来源。
总体而言,这张图片说明了生成图像的检测与追踪技术,包括水印嵌入与检测、虚假图像的识别、生成模型的归属判定,以及生成图像的源数据追溯。
生成图像技术对社会的影响
“SOCIETAL IMPACTS OF IMAGE GENERATION” 章节探讨了生成图像技术对社会的影响,涵盖了正面和负面的方面。以下是该章节的主要内容:
正面影响:
- 为艺术家提供新工具:
-
图像生成模型为艺术创作提供了强大的新工具,艺术家可以通过这些模型生成全新的创意作品,提升创作效率。
-
加快表情包的制作:
- 随着生成图像技术的发展,普通用户可以更快捷地制作表情包和其他形式的视觉内容,这极大地促进了娱乐和社交媒体的文化传播。
负面影响:
- 版权侵犯及艺术家的失业风险:
-
生成图像技术可以在没有版权保护的情况下轻松复制或改编他人的作品,这引发了对版权侵犯的担忧。此外,随着生成技术的进步,部分艺术家可能面临失业的风险,因为机器可以完成原本由人类完成的艺术创作。
-
社会创造力的下降:
- 依赖生成模型进行创作可能导致人类社会整体创造力的下降,因为自动化技术减少了人类的主动创作过程。
-
去人性化内容的产生:
- 生成图像技术可能会被滥用于制作非道德、去人性化或冒犯性的内容,这类内容可能造成社会伤害或争议。
-
假新闻和虚假现实的增加:
- 生成图像技术使得伪造现实变得更加容易,可能被用于制造假新闻或虚假现实,增加了事实核查的难度。
-
脱离现实:
- 生成图像通常不基于现实,随着生成视频等技术的进步,这可能导致社会对现实的感知逐渐被虚拟内容所取代。
-
视频生成的未来发展:
- 视频生成技术即将到来,这将进一步扩大生成内容的应用领域,可能带来更多的正面和负面影响。
有向图模型(Directed Graphical Model)
“DIRECTED GRAPHICAL MODEL” 章节介绍了有向图模型(Directed Graphical Model),这种模型在概率图模型中起到重要作用。以下是该章节的主要内容:
1. 有向图模型的定义:
- 有向图模型是一类使用有向边表示随机变量之间的依赖关系的概率模型。在图中,节点代表随机变量,边代表这些变量之间的条件依赖关系。
- 贝叶斯网络(Bayesian Network):有向图模型的一个重要实例是贝叶斯网络,它表示的是一组变量的联合分布。每个节点的值依赖于其父节点,这种依赖关系通过条件概率分布(CPD)来描述。
2. 贝叶斯网络的结构:
- 定性规格(Qualitative Specification):网络的结构通过一个有向无环图(DAG)来描述,这个图表示变量之间的依赖关系。
- 定量规格(Quantitative Specification):除了图的结构外,还需要指定条件概率分布(Conditional Probability Distributions, CPDs)来描述每个变量在给定父节点时的概率分布。
3. 联合概率分布的分解:
- 贝叶斯网络可以表示联合概率分布的分解形式。对于一个随机变量集 { X 1 , X 2 , . . . , X T } \{X_1, X_2, ..., X_T\} {X1,X2,...,XT},其联合分布可以表示为:
P ( X 1 , X 2 , . . . , X T ) = ∏ t = 1 T P ( X t ∣ parents ( X t ) ) P(X_1, X_2, ..., X_T) = \prod_{t=1}^{T} P(X_t | \text{parents}(X_t)) P(X1,X2,...,XT)=t=1∏TP(Xt∣parents(Xt))
其中, parents ( X t ) \text{parents}(X_t) parents(Xt) 表示在有向图中 X t X_t Xt 的父节点。
4. 贝叶斯网络的来源:
- 先验知识:贝叶斯网络的结构可以基于先验知识构建,例如对因果关系的了解或专家评估。
- 从数据中学习:如果没有现成的先验知识,也可以通过数据进行结构学习(structure learning),自动生成最优的网络结构。
总结:
该章节详细描述了有向图模型,特别是贝叶斯网络的定义、结构、联合分布的分解方式以及构建网络的来源。这种模型在表示变量之间的条件依赖关系时非常有用,广泛应用于机器学习和统计推断中。
马尔可夫模型(Markov Model)
根据PPT中的内容,马尔可夫模型(Markov Model) 是一种有向图模型,主要用于描述随机过程中的状态转移,假设当前状态只依赖于前一个状态,而与之前的所有状态无关。这种依赖性称为 马尔可夫性。以下是PPT中关于马尔可夫模型的具体介绍:
1. 马尔可夫假设:
- 马尔可夫假设 表示对于一系列随机变量 { x 1 , x 2 , . . . , x T } \{x_1, x_2, ..., x_T\} {x1,x2,...,xT},当前时刻的状态 x t x_t xt 仅依赖于前一个时刻的状态 x t − 1 x_{t-1} xt−1,即:
P ( x t ∣ x 1 , x 2 , . . . , x t − 1 ) = P ( x t ∣ x t − 1 ) P(x_t | x_1, x_2, ..., x_{t-1}) = P(x_t | x_{t-1}) P(xt∣x1,x2,...,xt−1)=P(xt∣xt−1)
- 换句话说,未来的状态只取决于当前状态,而与过去的状态无关,这种性质是马尔可夫模型的核心。
2. 马尔可夫模型的定义:
- 马尔可夫模型定义了一个序列变量的联合分布,具体公式为:
P ( x 1 , . . . , x T ) = P ( x 1 ) ∏ t = 2 T P ( x t ∣ x t − 1 ) P(x_1, ..., x_T) = P(x_1) \prod_{t=2}^{T} P(x_t | x_{t-1}) P(x1,...,xT)=P(x1)t=2∏TP(xt∣xt−1)
- 这种分布通过条件概率来描述状态之间的转移,每个状态只依赖于其前一状态,从而减少了建模复杂度。
3. 有向图表示:
- 马尔可夫模型可以通过有向图来表示,每个节点代表一个随机变量(即一个状态),有向边表示状态间的条件依赖关系。
- 图中的每个节点只与它的前一节点相连,这种结构简化了依赖关系,便于推理和计算。
4. 马尔可夫链与序列建模:
- 马尔可夫模型在许多序列建模任务中应用广泛,比如时间序列预测、语音识别、自然语言处理等。
- 通过马尔可夫假设,可以有效简化对序列数据的处理,只需要考虑相邻状态间的转移概率。
5. 应用:
- 隐马尔可夫模型(Hidden Markov Model, HMM) 是马尔可夫模型的一个扩展,广泛用于语音识别、手写识别等领域,模型不仅考虑状态的转移,还引入了观察变量,来处理实际观测和隐藏状态之间的关系。
总结:
马尔可夫模型是一种有向图模型,假设当前状态只依赖于前一个状态。它通过条件概率分布描述状态间的转移关系,并且在时间序列等序列建模任务中有广泛应用。其核心思想是利用马尔可夫假设来简化复杂的随机过程。
无向图模型(Undirected Graphical Models, UGMs)
**无向图模型(Undirected Graphical Models, UGMs) **是一种用于表示随机变量之间依赖关系的概率模型,与有向图模型不同,无向图模型中的边没有方向。以下是无向图模型的主要内容:
1. 无向图模型的定义:
- 在无向图模型中,图的边是无向的,表示两个随机变量之间的相互依赖关系,而不是条件依赖关系。节点代表随机变量,节点之间的边表示这些变量之间的依赖。
- 无向图模型通常用于描述对称的依赖关系,例如在图像处理和空间统计建模中。
2. 马尔可夫随机场(Markov Random Field, MRF):
- 无向图模型的一个常见例子是马尔可夫随机场(MRF)。MRF中的每个随机变量仅与其邻居直接相互依赖,即一个节点的值只依赖于其相邻节点。
- 局部马尔可夫性:给定其邻居节点,节点的条件概率只依赖于这些邻居节点,而与图中其他节点无关。
3. 团与最大团(Clique and Maximal Clique):
- 团(Clique) 是无向图中一组完全连接的节点集合。一个团中的每对节点之间都有一条边。
- 最大团(Maximal Clique) 是不能通过加入额外节点来扩展的团。
- 团在无向图模型中非常重要,因为无向图模型的联合概率分布通常表示为团之间的函数乘积。
4. 联合概率分布的分解:
- 无向图模型中的联合概率分布可以表示为团的函数乘积。通常定义一个**势函数(Potential Function)**来描述每个团中的依赖关系。联合概率分布 P ( X ) P(X) P(X) 表示为:
P ( X ) = 1 Z ∏ C ∈ Cliques ψ C ( X C ) P(X) = \frac{1}{Z} \prod_{C \in \text{Cliques}} \psi_C(X_C) P(X)=Z1C∈Cliques∏ψC(XC)
其中, ψ C ( X C ) \psi_C(X_C) ψC(XC) 是定义在团 C C C 上的势函数, Z Z Z 是一个归一化常数(称为分区函数),确保 P ( X ) P(X) P(X) 是一个有效的概率分布。
5. 无向图模型的应用:
- 无向图模型广泛用于图像处理(如图像分割)和空间统计等领域。它们适合处理变量之间的对称依赖关系。
- 例如,马尔可夫随机场常用于描述图像像素之间的相互关系,以便在图像中识别出不同的区域。
6. 推理和计算:
- 在无向图模型中,推理任务往往通过变量消除、信念传播等算法进行。这些算法可以在图结构的基础上进行局部推理,从而简化全局推断问题。
总结:
无向图模型是一种概率图模型,用于描述随机变量之间的对称依赖关系。其关键特征是使用势函数定义在团上的依赖关系,联合分布通过这些势函数的乘积表示。无向图模型在图像处理和空间统计中具有广泛应用。
因子图(Factor Graphs)
**因子图(Factor Graphs) **是一种用于表示概率分布的图模型,它将变量和因子分开表示,广泛应用于概率推理中。因子图可以表示有向图模型和无向图模型,适合处理复杂的概率分布。以下是因子图的主要内容:
1. 因子图的定义:
- 因子图是一种 双分图(Bipartite Graph),包括两类节点:变量节点(Variable Nodes) 和 因子节点(Factor Nodes)。
- 变量节点代表随机变量,因子节点表示变量之间的局部函数(通常为势函数或条件概率分布)。
- 边只连接变量节点和因子节点,不会出现变量节点与变量节点之间或因子节点与因子节点之间的连接。
2. 因子图的表示形式:
- 因子图通过变量节点和因子节点之间的连接来表示联合概率分布。联合概率分布可以分解为一系列因子的乘积:
P ( X 1 , X 2 , . . . , X n ) = 1 Z ∏ a ∈ F f a ( X a ) P(X_1, X_2, ..., X_n) = \frac{1}{Z} \prod_{a \in F} f_a(X_a) P(X1,X2,...,Xn)=Z1a∈F∏fa(Xa)
其中, f a ( X a ) f_a(X_a) fa(Xa) 是定义在因子节点 a a a 上的局部函数, Z Z Z 是归一化常数,确保概率分布合法。
3. 因子图与概率图模型的关系:
- 因子图可以统一表示有向图模型(如贝叶斯网络)和无向图模型(如马尔可夫随机场)。
- 贝叶斯网络 可以通过将条件概率表示为因子来转换为因子图。马尔可夫随机场 也可以通过将每个团的势函数表示为因子来转换为因子图。
4. 推理算法:
- 因子图提供了一种直观的方式来进行概率推理。常用的推理算法包括:
- 变量消除(Variable Elimination):通过消除图中的变量来计算边缘概率,但计算复杂度较高。
- 信念传播(Belief Propagation, BP):在无环因子图中,信念传播可以高效地进行推理。在有环因子图中,也可以使用近似推理的变体。
5. 因子图的例子:
- 图中的变量节点用圆圈表示,因子节点用方框表示。变量节点通过连线与因子节点相连,表示这些变量通过该因子相互关联。
- 因子可以是单一变量的函数(称为一元因子)或多个变量的联合函数(如二元因子、三元因子等)。
6. 因子图的应用:
- 因子图广泛应用于多种推理和学习任务,包括图像处理、机器学习中的推断问题、以及许多需要高效表示和处理复杂概率分布的领域。
总结:
因子图是一种双分图结构,用于表示概率分布。它将变量与局部因子分开,使复杂的联合概率分布可以被分解为因子乘积。因子图能同时表示有向和无向图模型,并且为推理算法(如变量消除和信念传播)提供了基础框架。
3 阅读材料(gan原论文,以及gan教程)
原论文:https://arxiv.org/pdf/1406.2661
教程(作者本人写的教程性论文,57页):https://arxiv.org/pdf/1701.00160
全称: | 《Generative Adversarial Nets》 |
---|---|
时间: | 2014年6月 |
作者人数: | 8人,蒙特利尔大学 |
论文地址: | https://arxiv.org/pdf/2004.05150 |
李沐视频摘录:
1- (趣事)当年GAN文章发表NeurIPS时的审稿人之一就是LSTM算法作者,其在1992年有篇跟GAN思路很相似的文章PM,该审稿人与GAN团队对GAN技术的原创性后面有很多争论。。。
2- 李沐:“很多时候人类的技术发展就是这样,一个真实有用的技术会在不同领域不断被人重新发现,给予新的名词。然后大家会把功劳归给那个教会了大家这个算法的人,而不是最早发明他的人。”
3- gan的收敛是非常不稳定的,也是不好判定的,之后有很多工作对其改进。
4- 李沐:真正伟大的工作,不在乎你的那些想法在别的地方已经出现过还是没有,关键是你能否给大家展示说用这个东西,在这个应用上可以取得非常好的效果,然后能够让别人信服,跟你继续往下做,然后把整个领域做大。