复杂自适应系统(Complex adaptive stems,简称CAS)由适应性主体相互作用、共同演化并层层涌现出来的系统。任何CAS的建模工作,主要都归结为选择和描述有关的刺激和反应,因为各个分主体的行为和策略都由此而确定。在CAS中,任何特定的适应性主体所处环境的主要部分,都由其他适应性主体组成,所以,任何主体在适应上所做的努力就是要去适应别的适应性主体。
霍兰围绕适应性主体这个最核心的概念提出了在复杂适应系统模型中应具备的七个基本特性, CAS的7个基本点包括对所有CAS都通用的4个特性和3个机制,分别是聚集、非线性、流、多样性、标志、内部模型以及积木。其中前四个是复杂适应系统的通用特性, 它们将在适应和进化中发挥作用; 后三个则是个体与环境进行交流时的机制和有关概念。
目前我所初步定的研究方向为基于深度强化学习的电动汽车充电站推荐,接下来将结合电动汽车充电站推荐的研究领域,分析、提炼和阐述其CAS的基本特点和机制,具体分析如下:
(1) 基于深度强化学习的电动汽车充电站推荐领域的聚集
聚集有两个含义, 第一个含义是指简化复杂系统的一种标准方法, 即是把相似的主体聚集成类, 相互作用, 这是指主体聚集的条件。在这个意义上讲, 聚集是构建复杂适应系统模型的主要手段之一。聚集的第二个含义是指较为简单的主体的聚集相互作用, 必然会涌现出复杂的大尺度行为。
在我所研究的深度强化学习的电动汽车充电桩领域,我认为其CAS的基本特点聚集,主要通过使用智能交通中心接收到的监控数据来构建交通矩阵和网络拓扑的交通信息预处理过程,在这个过程中,交通网络可以建模为加权有向图,并为每条链接分配权重,并且通过Dijkstra算法获得最短时间路径。
(2) 基于深度强化学习的电动汽车充电站推荐领域的非线性
非线性指主体以及它们的属性在发生变化时, 并非遵从简单的线性关系。复杂适应系统理论认为个体之间相互影响不是简单的、被动的、单向的因果关系, 而是主动的适应关系。在这种情况下, 线性的、简单的、直线式的因果链已经不复存在, 实际的情况往往是各种反馈作用(包括负反馈和正反馈)交互影响的、互相缠绕的复杂关系。
在电动汽车充电站推荐的充电站信息预处理过程,就是非线性的。充电站信息预处理过程主要是与分布在城市周围的所有充电站进行通信,并估计未来电动汽车充电请求的充电等待时间。从充电站接收的充电状态信息包括正在充电的电动汽车数量和正在等待的电动汽车数量。在充电站信息预处理过程中,使用此信息来计算所有充电站的可用充电时间和预期等待时间。此外,可用充电时间和预期等待时间用于特征提取过程。
(3) 基于深度强化学习的电动汽车充电站推荐领域的流
流可以看成是有着众多节点与连接者的某个网络上的某种资源的流动。一般来说, 节点即是指主体, 而连接者表明可能的相互作用。在复杂适应系统中, 网络上的流动因时而异, 节点和连接会随着主体的适应和不适应而出现或消失。因此, 无论是流还是网络, 皆随时间而变化, 它们是随着时间的流逝和经验的积累而反映出变易适应性的模式。
关于电动汽车充电站推荐领域的特征提取过程,就有无数的流经过网络。在特征提取过程中,将交通信息预处理过程、充电站信息预处理过程和电动汽车获取的信息作为输入。特征提取为每个充电站提取对应请求的特征状态,例如预期行驶时间、行驶距离、到达时间和充电时间。特征提取所得的特征将作为充电站选择过程的输入,即马尔可夫决策过程模型中的状态。为了获得电动汽车的预期到达时间、充电时间和充电量等特征,首先要选择从电动汽车当前位置到充电站的路线,即流。
(4) 基于深度强化学习的电动汽车充电站推荐领域的多样性
复杂适应系统的多样性是一种动态模式, 其多样性是复杂适应系统不断适应的结果。每一次新的适应都为进一步的相互作用和新的生态位开辟了可能性。如果与前面讲到的聚集结合起来看, 这就是系统从宏观尺度上看到的结构的涌现, 即所谓自组织现象的出现。
采用Dijkstra算法和加权图,来寻找每个充电站的最短时间路径,并根据该路径,计算到达充电站的预期时间。构建了电动汽车的能耗模型和时间模型,分别表示了充电站状态和交通状况。
(5) 基于深度强化学习的电动汽车充电站推荐领域的标志
在聚集体形成的过程中, 始终有一种机制在起作用, 这种机制就是标志。在复杂适应系统理论中, 标志是为了聚集和边界生成而普遍存在的一个机制。标志能够促进选择性相互作用, 为了相互识别和选择, 主体的标志在主体与环境的相互作用中是非常重要的。设置良好的、基于标志的相互作用, 为筛选、特化和合作提供了合理的基础, 这就使介主体和组织结构得以涌现。标志是隐含在复杂适应系统中具有共性的层次组织结构背后的机制。
当电动汽车提出充电请求后,充电导航中心计算出相应的预期总时间。在DQN的训练中,预期总时间作为MDP的奖励函数。描述充电站的特征状态,且这些特征状态是在当前时间节点下的估计值,即是标志。
(6) 基于深度强化学习的电动汽车充电站推荐领域的内部模型
霍兰用内部模型来定义实现主体实现某项功能的机制。在复杂适应系统中, 当适应性主体接收到大量涌入的输入时, 就会选择相应的模式去响应这些输入, 而这些模式最终会凝固成具有某项功能的结构——内部模型。
基于深度强化学习的电动汽车充电站推荐研究将路径和充电站推荐问题建模为转移概率已知的MDP。MDP是序列决策制定问题的一种典型形式,由有限状态空间、有限动作集、转移概率和奖励函数构成。即为本研究领域的内部模型。
(7) 基于深度强化学习的电动汽车充电站推荐领域的积木
复杂系统常常是在一些相对简单的部件的基础上, 通过改变它们的组合方式而形成的。因此, 事实上的复杂性往往不在于块的多少和大小, 而在于原有积木的重新组合。概括地说,思路如下: 把下一层次的内容和规律作为内部模型封装起来, 作为一个整体参与上一层次的相互作用, 暂时忽略或搁置其内部细节, 而把注意力集中于这个积木和其他积木之间的相互作用和相互影响, 因为在上一层次中, 这种相互作用和相互影响是关键性的、起决定性作用的主导因素。
在电动汽车充电站推荐的过程中,深度强化学习模型的作用其实就是积木的一个过程,使用深度Q值网络为电动汽车推荐最佳路线和充电站。
以上就是结合电动汽车充电站推荐的研究领域,分析、提炼和阐述其CAS的基本特点和机制的全部内部。
,