
使用非平衡响应理论理解循环神经网络
引用
Lim S H . Understanding Recurrent Neural Networks Using Nonequilibrium Response Theory[J]. 2020.
摘要
循环神经网络(RNN)是一种受大脑启发的模型,其广泛的应用于机器学习,以进行连续数据的分析。本工作有助于使用非平衡学说的响应理论更深度地理解RNN如何处理输入信号。对于一类由输入信号驱动的连续时间随机RNN(SRNN),我们为其输出推导出一个沃尔泰拉级数的序列表示。这种表示法是可解释的,并将输入信号从SRNN结构中分离出来。序列的核是一些递归定义的相关函数,其与完全决定输出的无扰动动力学相关。利用这种表示的联系及其对粗糙路径理论的影响,我们确定了一个通用特征——响应特征,其被证明是输入信号的张量积的特征与自然支撑基础。特别地,我们展示了仅优化了读出层的权重,而隐藏层的权重保持固定、未被优化的SRNN,这可被看作是在与响应特征相关的再生核希尔伯特空间中执行的核机器。
介绍
从时间序列分析到自然语言处理,序列化数据出现在广泛的场景中。在没有数学模型的情况下,从数据中提取有用信息,以学习一个数据生成系统是很重要的。
循环神经网络(RNN)是一类受大脑启发的模型,其专门为学习序列数据而设计,被广泛地应用于从物理学到金融的各个领域。RNN是具有反馈连接的神经元网络,从生物学角度比其他适应性模型更具说服力。特别地,RNN可以使用它们的隐藏状态(记忆)来处理输入的可变长度序列。它们是动力系统的通用逼近器,且其本身可被视为一类开放动力系统。
尽管RNN近期在储备池计算、深度学习和神经生物学方面取得了创新和巨大的经验成功,但很少有研究关注RNN工作机制的理论基础。缺乏严格的分析限制了RNN在解决科学问题方面的实用性,并可能阻碍下一代网络的系统设计。因此,深入了解该机制对于阐明大型自适应架构的特性,以及彻底改变我们对这些系统的理解而言至关重要。
特别地,人们可能会问的两个自然且基础的问题是:
Q1:随着时间推移的输入信号如何驱动RNN产生输出?
Q2:它们的响应是否有一个普遍的机制?
本工作的主要目标之一是解决上述问题,以非平衡统计动力学中的非线性响应理论为出发点,针对连续时间RNN的随机版本,简称SRNN(其隐藏状态被注入了高斯白噪声)进行分析。我们的方法是跨学科的,为现有的RNN理论增加了令人耳目一新的观点。
随机循环神经网络(SRNN)
本文固定过滤概率空间(filtered probability space) ,E代表对P的期望,T>0。C(E, F)代表从E到F的连续映射的巴拿赫空间,其中E和F是巴拿赫空间。
表示Rn上所有有界连续函数的空间。N:={0, 1, 2, . . . },Z+:={1, 2, . . . }且R+:= [0, ∞)。上标T表示转置,∗表示邻接。
模型
我们对我们的SRNN考虑如下模型。所谓激活函数,是指一个非常数的、利普希茨连续且有界的实值函数。激活函数的例子包括sigmoid函数,如实践中常使用的双曲切线等。
定义2.1(连续时间SRNN)令t ∈ [0, T], 为确定的输入信号。连续时间的SRNN描述为以下空间状态的模型:
其中,公式1是隐藏状态 的随机微分方程(SDE),带有漂移系数φ:
、噪声系数
和定义在
上的r维维纳过程
,而公式2定义了一个可观测的激活函数
。
我们考虑SRNN的输入仿射版本,其中:
其中, 是正稳定的,
为激活函数,
和
为常量,
为转换输入信号的常量矩阵。
从现在开始,我们将 SRNN 称为由(1)-(3)定义的系统。SRNN的隐藏状态描述了一个处理输入信号的非自主随机动力系统。常数Γ、W、b、C、σ和f中的参数(如果有的话)定义了SRNN(架构)的(可学习)参数或权重。对于 T > 0,与 SRNN 相关联的是输出函数 ,其定义为可观测的f的期望值(集合平均值):
SRNN的非平衡响应理论
预备知识和符号
在本小节中,我们简要回顾马尔可夫过程的预备知识并介绍我们的一些符号。
令t ∈ [0, T], 且
是归一化的输入信号。在SRNN(1)-(3)中,我们认为信号
是驱动SDE的小振幅γ(t)的扰动:
未扰动的SDE是Cu设置为零的系统:
其中, 且
。过程 h 是时间齐次马尔可夫过程
的扰动,它不一定是稳定的。
扩散过程h和 分别与一族无穷小生成元
和
相关,它们是二阶椭圆算子,定义为:
对于任何可观察的 ,其中
。我们将与 h 关联的转移算子
定义为:
对于 ,和转移算子
(其为一个马尔科夫半群),它们都是与
相关联的。
此外,可以在概率测度空间上定义上述生成元和转移算子的L2伴随矩阵。我们分别用 和
表示与h和
关联的伴随生成器,分别用
和
表示与h和
关联的伴随转移算子。我们假设初始测度和过程定律具有关于勒贝格测度的密度。将初始密度表示为
,
满足与
关联的前向柯尔莫果洛夫方程(FKE)。
我们采取自然的假设,即扰动和未扰动过程都有相同的初始分布 ,这通常不是无扰动动力学的不变分布
。
关键思想和形式推导
首先,我们将推导出SRNN的输出函数在驱动输入信号方面的表示。我们的方法源于非平衡统计动力学的响应理论。在下文中,我们假设任何无限级数都是明确定义的,且求和和积分之间的任何互换都是合理的。
固定一个T>0,令 足够小并且
首先,请注意概率密度 的FKE是:
其中 ,而:
关键思想是,由于ε> 0很小,我们寻求形式为ρ的微扰展开:
将其代入FKE并匹配ε中的阶数,我们得到以下方程层次:
ρn的形式解可以通过迭代获得。形式化的描述,我们记 。在不变分布是稳定的特殊情况下,
与时间无关。
请注意,n ≥ 2时, ,在n ≥ 2时,解ρn通过递归关系而得:
因此,假设下面的无穷级数绝对收敛,我们有:
接下来,我们考虑SRNN的隐性动力学的标量值观测值 ,并研究输入信号扰动引起的该观测值的平均偏差:
对于扰动动力学的可观察值的平均值可写为:
在不丧失一般性的情况下,我们在下文中取 ,即f(h)被认为是均值为零的(相对于ρinit)。
我们有:
其中
是一阶响应核,它们是相对于 ρinit 的仅无扰动动力学函数的平均值。请注意,为了获得上面的最后一行,我们分部积分并假设ρinit>0。
该式表达了阿加瓦尔型的非平衡波动-耗散关系。在平稳不变分布的情况下,我们使用(向量值)响应核,恢复统计力学中众所周知的平衡波动-耗散关系:
其中 。在线性 SRNN(即φ(h, t)在h中是线性的)和f(h) = h的特殊情况下,其可简化为
的协方差函数(相对于ρ∞)。
到目前为止,我们已经研究了线性响应机制,其中,响应线性地依赖于输入。现在我们通过将上述推导扩展到n≥2的情况。我们表示 ,可得
其中 ,
是n阶响应核:
且
n = 2, 3, . . .时,
请注意,这些高阶响应核与一阶响应核类似,是相对于 ρinit 的一些仅无扰动动力学的函数的平均值。
基于上述结果可得:
其中 是递归定义的时间相关核。更重要的是,这些核完全由SRNN的未扰动动力学以明确的方式确定。因此,SRNN 的输出函数可以写成(实际上是唯一的)上述一系列形式。该陈述在后文中得到了精确表述,从而解决了 (Q1)。
现在我们关注(Q2)。通过展开技术,我们可以得到:
其中, 是与时间和信号
无关的常数。该表达式以系统的方式将驱动输入信号从 SRNN 架构中分离出来。粗略地说,它告诉我们,SRNN对输入信号的响应可以通过将两部分的乘积相加得到,其中一个描述了SRNN的未扰动部分,一个是经过时间变换的输入信号的迭加积分。这一声明在后续得到了更精确的阐述,它是解决(Q2)的起点。
主要结果
假设
为了简单和直观,我们对SRNN使用以下相当严格的假设。 这些假设可以通过增加技术成本(我们不在这里追求)或通过计算近似结果来证明是合理的。
回想一下,我们正在处理确定性输入信号 。
假设4.1 固定T>0并让U成为 的开集。
(a) 对所有t∈[0, T]来说都是足够小的。
(b) 在所有 时,
,并且以概率1存在一个紧集K⊂U,使得在所有
情况下,
。
(c) 系数a: 和f:
为分析函数。
(d) 是正定的,
是正稳定的(即,Γ 的所有特征值的实部都是正的)。
(e) 初始状态 是一个根据概率密度ρinit分布的随机变量。
假设4.1(a)意味着我们使用幅度足够小的输入信号。这对于确保某些无穷级数以足够大的收敛半径绝对收敛非常重要。(b) 和 (c) 确保一些理想的规律性和有界性。特别地,它们意味着a、f和它们所有的偏导数都是有界的,且在整个t∈[0, T]上,ht和 利普希茨连续。(d) 意味着系统受到的是非退化噪声的抑制和驱动,这确保了无扰动系统可以指数稳定。(e)是我们分析的自然假设,因为h是
的一个扰动。
除非另有说明,否则假设4.1是本文中隐含的假设。
进一步符号化。我们现在提供一个空间及其符号的列表:
* L(E1, E2):从E1到E2的有界线性算子的巴拿赫空间(其中||·||表示适当空间上的范数)
* :具有紧支撑的类
的实值函数空间
* :类
有界实值函数空间
* :
上有界绝对连续度量的空间,其中
,ρ表示度量µ的密度
* :ρ加权的Lp空间,即函数f的空间,使得
,其中ρ是加权函数。
SRNN 输出泛函的表示方法
在保证不丧失一般性的情况下,我们将在下文取p=1并假设 。
定义4.1 (响应函数) 令 是一个有界的可观察对象。对于t∈[0,T],令Ft是C([0, t],R)上的泛函,定义为
,
表示Ft相对于γ的n阶泛函导数。对于n∈Z+,如果存在局部可积函数
,对于所有测试函数
,使得
则 被称为可观测f的n阶响应函数。
接下来,在t∈[0,T]中,令 是任意可观察函数,且
。
命题4.1 (响应函数的显式表达式) 对于n∈Z+,令 为f的n阶响应函数。那么,对于
:
(a)
(b) (高阶A-FDT)此外,如果 ρinit 为正,则
其中
推论4.1 令n∈Z+,且 。假定在
上有另一个函数
,使得对于所有的
,有
那么 几乎处处成立。
定理4.1 (记忆表示) 令t∈[0,T],SRNN的输出泛函 是N→∞的极限:
其中 在命题4.1中给出。该极限存在,且是唯一的收敛的沃尔泰拉级数。如果Gt是另一个具有响应函数
的这样的级数,那么Ft=Gt。
定理4.2 (无记忆表示) 假设算子 有一个明确定义的本征函数展开。那么,SRNN的输出函数
有一个收敛级数展开,这就是N, M→∞的极限:
其中 是常数系数,取决于pi、li、
的特征值和特征函数、f和ρinit,但与输入信号和时间无关。在这里,pi∈{0, 1, . . . , M}、li∈{1, 2, . . . , m}。
命题4.2 (确定的深度SRNN的表示) 令Ft和Gt是两个SRNN的输出函数,相关的截断沃尔泰拉级数分别具有响应核 核
,n=1,…,N,m=1,…,M。那么
是具有N+M个响应核的截断沃尔泰拉级数:
当且仅当r=1,…,N+M,其中
如果Ft和Gt是沃尔泰拉级数(即N,M=∞),则在r = 1, 2, . . . 上, 是具有上述响应核
的沃尔泰拉级数(只要它是明确定义的)。
此外,定理4.2中的陈述适用于 ,即
在定理4.2的假设下允许指定形式的收敛级数展开。
定义4.2 (路径特征) 令X∈C([0, T], E)为有界变差路径。X的特征是T((E))的元素S,定义为
其中
当且仅当n ∈ Z+, 。
令 为
的典范基,那么我们有:
用 表示对偶配对,有
定理4.3 (特征方面的无记忆表示) 设p是一个正整数,并假设输入信号u是一个有界变差路径。那么SRNN的输出函数Ft是 在p→∞的极限,其是路径特征的线性泛函,
(可通过向量化与
进行识别),其中
,即
其中,bn(t)仅取决于t的系数。
将SRNN表述为核机器
我们现在考虑一个监督学习(回归或分类)的环境,我们给定N个训练输入输出对 ,其中un∈χ,为
中有界变差的路径空间,yn∈R,使得对于所有n,有
,这里FT是一个连续目标映射。
考虑优化问题:
其中G是具有范数 的假设(巴拿赫)空间,
为一个损失函数,R(x)是一个在x中严格增加的实值函数。
受定理4.3的启发(将G视为由SRNN引入的假设空间)我们将表明,该问题的解决方案可以表示为对训练样本的核扩展。
在下文中,考虑希尔伯特空间:
其中P是适当加权的 序列空间,其遵循序列形式为
,其中
Pn(t)是[0, T]上的正交多项式。令 表示H上的对称福克空间,
表示L∈Z+时
的L折张量积。
命题4.3 令L∈Z+。考虑映射 ,定义为:
其中K是H上的核,存在一个唯一的RKHS,表示为具有范数 的
,其中K为再生核。
定理4.4 (表示定理) 考虑时间增加的路径 ,其中un是χ中
值的输入路径,v是P中
值向量。那么:
(a) 假设空间为 的前文所述优化问题的任何解都允许以下形式的表示:
其中cn∈R,N是训练输入-输出对的数量。
(b) 令L ∈ Z+。如果我们转而考虑路径,表示为 ,在时间ti∈[0, T]上,通过对L+1个数据点进行线性插值获得
,则相应优化问题的任何解都具有
的假设空间,表示形式为:
其中αn∈R,l=1,…,L时, 。
结论
在本文中,我们使用非平衡统计动力学的非线性响应理论作为起点,解决了关于一类随机循环神经网络 (SRNN) 的两个基本问题,这些网络可以是人工或生物网络的模型。特别地,我们能够以系统的、逐级的方式来描述SRNN对扰动的确定性输入信号的响应,为这些SRNN的输出函数推导出两种类型的序列表示,以及在驱动输入信号方面的深度变体。这提供了对由这些驱动网络所引起的记忆和无记忆表示的性质的探究。此外,通过将这些表示与路径特征的概念联系起来,我们发现响应特征集是 SRNN 在处理输入信号时从中提取信息的构建块,揭示了SRNN运行的普遍机制。特别地,我们通过表示定理表明,SRNN可以被看作是在与响应特征相关的再生核希尔伯特空间上运行的核机器。
从数学的角度来看,放宽这里的假设,并在驱动输入信号是粗略路径的一般设置中工作会很有趣,输入信号的规律性可能会发挥重要作用。人们还可以通过采用此处开发的技术来研究 SRNN 如何响应输入信号和噪声驱动(正则化)中的扰动。到目前为止,我们一直专注于介绍中提到的“公式化优先”方法。这里获得的结果表明,可以通过设计有效的算法来利用离散化响应特征和相关特征在涉及时间数据的机器学习任务中的使用,来研究”离散化的下一步”,例如在科学与工程中预测由复杂动力系统产生的时间序列。