基于时序差分的动态信道分配算法*

时间：2023-04-12 11:48:55

基于时序差分的动态信道分配算法*一文创作于：2023-04-12 11:48:55，全文字数：11730。

王娟，史冬阳，邵浚哲

（1.南京邮电大学计算机学院、软件学院、网络空间安全学院，江苏南京 210023；2.浩鲸云计算科技股份有限公司，江苏南京 211100）

0 引言

随着科学技术的不断进步，通信技术也在飞速地发展。据工信部统计，2020 年中国移动通信基站总数达931 万个，5G 网络建设在逐步推进。移动通信设备每年以惊人的速度增加，预计到2025 年将达到59 亿，意味着用户对移动蜂窝网络带宽的需求也越来越高。

在移动通信网络中，无线电频谱覆盖的范围通常被划分为多个不相交且固定大小的区域，称为蜂窝，又被称作小区（cell）。每个小区由自己的基站（BS,Base Station）提供服务，基站通过无线收发器使移动用户接入无线网络提供语音传输等服务[1]。研究如何高效地利用有限且宝贵的带宽资源，可以更好地提高服务质量（QoS,Quality of Service），满足用户的需求[2-3]。

然而，移动通信网络作为提供带宽资源的整体，其通信无线电频谱带宽资源被划分为信道，移动用户必须拥有本小区的信道资源独占访问权才能不受干扰地进行通信。采用多址接入方式可以提高信道资源的利用率，诸如码分多址、时分多址和频分多址等技术，带宽资源被划分成互不干扰的信道供用户共享使用[4]。若不指定特定的多址接入技术，在移动通信网络中信道是资源分配的基本单位[5]。目前对信道分配算法的研究有固定分配和动态分配两种。固定信道分配（FCA,Fixed Channel Allocation），其分配给每个小区的信道个数固定且一成不变。优点是实现简单，但是它不能适应网络动态变化的通信流量。可能会出现网络一部分小区信道全部占用而无法满足再次到来的呼叫请求，而另一部分小区存在信道闲置，造成网络信道不均衡使用甚至出现浪费的情况[6-7]。动态信道分配（DCA,Dynamic Channel Allocation）指网络中所有的信道按需分配给不同的小区，信道和小区之间没有固定分配关系，算法需要进行实时计算，具有很高的复杂性[8-11]。Nie 等人在移动通信网络中使用强化学习优化动态资源分配算法，可以降低算法的计算复杂度[12]。然而，在蜂窝网络用户的高移动性以及高通信流量情景下，提高切换呼叫性能的信道分配算法的研究较少。基于此，本文根据用户移动模型分析了切换呼叫的时空特性，开展基于强化学习的动态信道分配算法，进一步提高切换呼叫的性能。

1 相关知识

1.1 信道分配

信道的分配必须避免同信道干扰（CCI,Co-Channel Interference）才能被小区复用[13]。换句话说，为不小于最小重用距离的两个小区的用户分配同一信道，既能保证通信质量又能提高信道复用效率。如图1 中移动蜂窝网络小区划分的同信道分配集合，相同字母标识的六边形代表同信道小区，该移动蜂窝网络的最小重用距离为3，相同字母表示分配给小区的相同的信道集合，这样分配信道不会发生干扰。

图1 移动蜂窝网络小区

1.2 强化学习

强化学习（RL,Reinforcement Learning）是一种机器学习方法，由智能体和环境两部分组成[14]。

图2 中智能体与环境交互，在时刻t观察周围环境的状态st，根据当前状态执行动作at，然后智能体会收到环境反馈的一个即刻奖励rt+1，进入下一个状态st+1。策略π定义为从状态到动作的映射。强化学习最终目的是使智能体从环境中获得的奖励最大。衡量策略的好坏用状态价值函数V值和状态行动值函数Q值表示，它们的计算分别用式(1) 和式(2) 表示：

图2 强化学习过程

其中，r为即刻奖励，γ为奖励折扣因子。

时序差分（TD,Temporal Difference）、QLEARNING都是基于无模型的强化学习算法[15-16]。二者求解问题的最终形式表现为利用V值和Q值，选择获得最大奖励的动作策略。

2 基于TD的动态分配算法

2.1 相关定义

用户移动时位置将发生变化，用户离开当前服务小区，此时服务该用户的基站随之变化，在移动蜂窝网络中，把这种情况称为区间切换（Handoff）。通常，移动蜂窝网络为一个用户的呼叫分配一个信道资源，用户发生呼叫切换时在当前小区的呼叫结束，则释放为其分配的信道资源。如图3 所示，箭头表示移动用户切换的方向，灰色标识区域是25 号小区移动用户可能切换的六个邻居小区。

图3 移动蜂窝网络的邻区切换

定义小区n的冲突小区I(n) 是指与n距离小于d的小区集合，用式(3) 表示：

其中，d是最小重用距离。

I(25)={18,19,24,26,31,32,11,12,13,20,27,33,39,38,3 7,30,23,17}为图3 中25 号小区的冲突小区集合。

定义小区n的合理信道集A(n) 是指小区n和冲突小区均空闲的信道，用式(4) 表示：

其中，xmk(t) 指m小区信道k的当前状态，m是小区n的冲突小区。信道分配算法为图3 所示的25 号小区用户呼叫分配信道k时满足k∈A(25)。

定义小区n的邻区N(n) 是指与n距离为1 的小区集合，用式(5) 表示：

其中，dist(n,m) 表示小区n与m的距离。

不难看出，由于用户的高速移动，呼叫发生切换，则切换时刻t当前小区的呼叫结束，同时邻区产生新呼叫（切换呼叫），结束呼叫和切换呼叫发生的时间一致；切换呼叫发生的位置一定在它的邻区，因此移动蜂窝网络切换呼叫具有时空相关性。基于时序差分的动态信道分配算法*

2.2 TD算法

本文把信道分配问题看作马尔可夫决策过程（MDP,Markov Decision Process），使用TD 求解。MDP 模型进一步形式化描述为：

（1）状态：st=(xt,et)，xt表示移动蜂窝网络信道分配情况，et表示呼叫事件。其中，具体使用xnk(t)={0,1}表示信道的占用与空闲。n表示小区，k表示网络信道，xnk=1表示占用，xnk=0 表示空闲。呼叫事件有新呼叫（new）、切换呼叫（handoff）、结束呼叫（end）三种。

（2）动作：at=k，k∈{1,2,…K}。执行动作a就是从合理信道集合中选取一个信道k分配给当前小区n的呼叫。若当前小区无合理信道则拒绝呼叫。

（3）即刻奖励r：执行动作从环境获得的奖励，它的计算用式(6) 表示：

（4）TD 求解MDP 模型

MDP 信道分配求解是通过采取的动作策略从环境获取的奖励最多，在强化学习TD 算法中，一般使用V 值评判当前环境状态下执行动作策略的优劣，选择状态值最大的策略执行动作就能从环境中得到最大奖励。因此，使用TD 即可求解动态的信道分配问题。

利用2.1 节切换呼叫的时空相关性，切换

提醒您：因为《基于时序差分的动态信道分配算法*》一文较长还有下一页，点击下面数字可以进行阅读！

《基于时序差分的动态信道分配算法*》在线阅读地址：基于时序差分的动态信道分配算法*

上一篇：全景视频实时拼接技术研究与实现

下一篇：面向6G多载波多模态融合组网及关键技术探究*