《武汉工程大学学报》  2024年02期 231-236   出版日期:2024-04-28   ISSN:1674-2869   CN:42-1779/TQ
基于改进合成少数类过采样技术的
非概率可靠性指标解



在实际工程中,各种不确定性因素会对结构的性能产生较大的影响,在进行设计或优化时必须加以考虑。根据不确定因素产生的机理和物理意义,将结构的不确定性分为模糊性和随机性,分别建立模糊可靠性理论和概率可靠性理论,其中概率可靠性理论在工程中得到了广泛运用[1]。该理论以参数的分布函数为基础,在实际工程中往往无法得到足够的数据来准确定义参数的分布函数。同时概率可靠度对参数误差十分敏感,微小的误差可能会使计算结果出现较大的偏差。
在工程实际中,想要得到参数的分布函数往往比较困难,但其边界容易确定。针对概率可靠性理论的不足,Ben-Haim[1-2]采用凸集合界定不确定参数的波动范围,建立基于区间变量的非概率可靠性理论。Elishakoff [3]认为结构的安全是一个模糊概念,即结构不确定性变量在被允许的范围内波动,则结构是安全可靠的,所以用凸集模型描述不确定性是对概率可靠性理论的有力补充。郭书祥等[4]忽略变量之间的相关性,建立了区间模型,该模型已经广泛运用在工程中[5-8]。求解非概率可靠性指标最直接的方法是定义法[4],但对于高度非线性问题容易造成较大的误差,使结果失去参考价值。
郭书祥等[9]提出非概率可靠性指标的3种求解方法,分别是定义法、转换法和优化法,这3种方法可以较好地求解线性功能函数的非概率可靠性指标。江涛等[10]认为非概率可靠性指标存在于标准化区间向量张成的凸域及其扩展空间中通过原点和凸域顶点的有限条超射线与标准化失效面的某个交点处,基于此观点提出一维优化算法,通过求解有限个一元方程来获得非概率可靠性指标。陈旭勇等[11]根据功能函数的单调性,大大减少一元方程的数量,提出改进一维优化算法;樊建平等[12]采用功能函数的切平面与极限状态曲面交线对非线性功能函数进行线性化处理,提出空间搜索法;崔智勇等[13]将微粒群算法引入非概率可靠性指标的计算中,为非概率可靠性指标的求解提供了新的思路。针对极限状态曲面与坐标轴局部平行的情况,李世军等[14]使用梯度投影法求解非概率可靠性指标;樊建平等[15]指出最可能失效点依赖于极限状态函数的极值点和根值点,提出了区间模型非概率可靠性指标全局最优解法;陈旭勇[16]为了解决功能函数不易显式化的复杂结构非概率可靠性指标的求解,将传统响应面法和改进一维优化算法相结合,提出非概率响应面法。
当功能函数非线性程度较低时,以上求解方法具有良好的表现,当极限状态曲面存在多区域、局部闭合的特殊情况时,上述算法可能会失效。合成少数类过采样技术[17](synthetic minority oversampling technology,SMOTE)作为一种解决数据非平衡问题的采样技术,可以简洁、高效地获取大量少数类样本,故而在金融、数据挖掘、医学等领域得到了广泛运用[18-19]。
本文基于非概率可靠性指标的几何意义,对标准SMOTE算法的采样方式做出2点改进,提出了基于改进SMOTE算法的非概率可靠性指标解法,通过3个算例证明了本方法的有效性和适用性。方法的提出可以更好地解决高度非线性情况下非概率可靠性指标的求解问题,进一步提升了非概率可靠性理论的工程实用性。
1 非概率可靠性指标
非概率可靠性分析是将影响结构功能的不确定参数定义为区间变量,基于结构的功能要求,在标准化的空间中寻得绝对安全凸域的最大范围值,并用该值来度量结构的可靠程度。
影响结构功能的参数为[Y=[y1,y2,?,yn]],其中任意的参数[yi]有:[yi∈[yLi,yUi]],[yLi]和[yUi]分别为参数[yi]的下界和上界,称[yi]为区间变量。令
[yCi=12(yLi+yUi) , yRi=12(yUi-yLi)] (1)
式(1)中:[yRi]表示区间变量的偏差,反映了区间变量的离散程度,[yCi]为区间变量的中值,表征其平均大小。进一步对区间变量做正则化处理得:
[yi=yCi+yRiδi] (2)
式(2)中:[δi=[-1,1]]为标准化区间变量。基于结构的失效准则建立功能函数,并将标准化的区间变量代入功能函数中:
[G=g(δ)=g(δ1,δ2,?,δn)] (3)
式(3)中:[δ=(δ1,δ2,?,δn)∈Cδ={δ:δi≤1,i=1,2,?,n}][?C∞δ=δ:δi∈(-∞,+∞),i=1,2,?,n],[Cδ]是由[δ]张成的对称凸域,[C∞δ]是[Cδ]在无限空间中的扩展。
定义[g(δ)=0]为标准化空间中的极限状态曲面,表示使结构性能处于临界状态的参数集合,非概率可靠性指标定义为:
[η=min(δ∞)=minδ1,δ2,?,δn∞] (4)
非概率可靠性指标[η]的几何意义为:在标准化区间变量的拓展空间中,按无穷范数度量的从坐标原点到极限状态曲面的最短距离。如图1所示,当η[>]1时表示结构处于绝对安全的状态;而η[≤]1时,表示结构的安全状态不确定。
<G:\武汉工程大学\2023\第4期\张 梦-1.tif>[安全域
G > 0][失效域
G < 0][极限状态曲面
G=0][0][45°]
图1 非概率可靠性指标的几何意义
Fig. 1 Geometric significance of non-probabilistic
reliability index
2 标准SMOTE算法
SMOTE算法作为一种合成少数类数据的过采样算法,在处理类别不平衡问题时具有极高的效率。其核心思想是:对少数类样本进行分析,基于少数类样本人工合成新样本并将新样本添加至数据集中。SMOTE算法避免了一般过抽样算法通过机械地复制增加少数类样本所导致的过拟合问题。
设存在某一不平衡数据集。少数类样本集[X=xi|i=1,2,?,m]中的某个元素为[xi],求得该元素到其他少数类样本的欧氏距离,搜索得到[k]个近邻。若该数据集的采样倍率为N,则从该元素的[k]个近邻中随机采集[N(N≤k)]个样本[xj|j=1,2,?,N]。在[xi]与[xj|j=1,2,?,N]之间随机生成1个新的样本[xnew(i, j)],每个元素便可以生成N个新的样本。将新生成的少数类样本与初始少数类样本组合,便可产生新的样本集。其中随机生成新样本的插值公式如下:
[xnew(i, j)=xi+rand(0,1)×(xj-xi), j=1,2,?,N]
(5)
式(5)中:rand(0,1)为随机函数,表示在[0,1]中生成的随机数。SMOTE算法的原理示意如图2所示。
<G:\武汉工程大学\2023\第4期\张 梦-2.tif>[x2][x1][0][多数类数据样本点
少数类数据样本点
新生成数据样本点]
图2 SMOTE算法合成少数类样本示意图
Fig. 2 Schematic diagram of minority samples
synthesized by SMOTE algorithm
从图2中可以看出:SMOTE算法的采样是在少数类样本的连线上进行的,相比机械地复制原始样本点,SMOTE算法具备更高的效率。
3 基于改进SMOTE算法的可靠性指标的求解
标准化参数的拓展空间中,极限状态曲面的高精度拟合可以实现最容易失效点的准确定位,从而求得非概率可靠性指标。但极限状态曲面附近的样本集属于参数空间中的极少量类数据,对于此类类别不平衡问题,若在样本空间中采用直接抽样的方式来获得临界点,由于样本数目巨大,算法会出现执行效率低、甚至无法得到结果的问题。采用改进的SMOTE算法可以在很大程度上解决上述问题,从而得到准确的非概率可靠性指标。
3.1 对标准SMOTE算法的改进
鉴于求解非概率可靠性指标问题的特殊性,为了提升求解效率和精度,首先对标准SMOTE算法的采样方式进行改进。
从初始样本中筛选的少数类样本即位于极限状态曲面附近的样本分为失效和安全两种状态,目标是从少数样本中获得无限靠近极限状态曲面附近的样本点。若采用标准算法中的采样方法,会造成在失效点间或者安全点间采样,这样获得的样本点无限靠近极限状态曲面的可能性较低。采用样本分类策略将筛选出的少数样本分为失效集[S=xi| i=1,2,?,m]与安全集[R=xj| j=1,2,?,n]两类,以某一安全点[xj]为基准,计算该点到所有失效点的欧氏距离,与满足限制条件的失效点[xi]间生成新样本,如图3所示。遍历所有的安全点,完成采样工作。
极限状态曲面在标准化空间中呈现狭长的特征。参考标准SMOTE算法,从安全集[R={xj| j=1,2,?,n}]中抽取1个元素,依据采样倍率在失效集[S={xi| i=1,2,?,m}]中随机抽取k个元素作为新样本点生成的导向点,使生成的新样本点远离临界区域的可能性增加,造成采样效率低下。采用超球限制策略,以某一安全点[xj]为中心,半径为[r]的超球范围内的所有失效点的集和[Sr={xl|l=1,2,?,q}]作为生成新样本点[xnew(i, l)]的导向点,增加产生的新样本点靠近极限状态曲面的概率,从而提高采样效率,采样示意如图3所示。
<G:\武汉工程大学\2023\第4期\张 梦-3.tif>[x2][0][x1][多数类数据样本点
新生成数据样本点][少数失效类数据样本点
少数安全类数据样本点]
图3 改进SMOTE算法合成少数类样本示意图
Fig. 3 Schematic diagram of minority samples
synthesized by improved SMOTE algorithm
3.2 非概率可靠性指标的求解
由非概率可靠性指标的物理意义和工程意义可知,最可能失效点一定位于坐标原点附近,故而高精度拟合坐标原点附近的临界曲面即可实现最可能失效点的识别。基于改进SMOTE算法的非概率可靠性指标解的主要步骤为:
(1)依照功能要求,建立功能函数,并将参数标准化;
(2)确定初始采样区域即超立方体(中心为参数空间原点)边长a及采样数量n,采用拉丁超立方采样法进行初始采样;
(3)设置少数类样本(位于极限状态曲面附近)的限定值m,将初始样本中满足关系[-m<g(Y)<m]的样本筛选出来并添加到少数类数据集H中;
(4)依照功能函数的状态将少数类样本集分为安全集R与失效集S两类;
(5)设置SMOTE算法中新样本点的采样区域限定值即超球的半径r,采用改进SMOTE算法完成样本的添加工作,并将新的样本添加入少数类数据集H中;
(6)设置拟合极限状态曲面精度限定值[μM],将少数类样本集H中满足条件[-μM<g(Y)<μM]的样本点筛选出来添加进拟合极限状态曲面的失效集S中;
(7)遍历拟合极限状态曲面的失效集S的所有元素,依照无穷范数最小值的原则,获得最容易失效点,从而得到非概率可靠性指标[η]。
4 算 例
4.1 算例1
参数标准化后的某非线性功能函数表达式为:[G=(y1-7/4)2+(y2-4/5)2-4y3+5.5]。
采用全局最优解法[15],得到最容易失效点为(1.404 8,0.800 0,1.404 8),非概率可靠性指标η=1.404 8。采用本文方法,设采样的超立方体边长a=4,初始采样数量n=453,新样本点的生成范围r=0.8,少数类样本点限定值m=0.5,拟合极限状态曲面样本点精度限定值[μM=0.001],分析得到最容易失效点为(1.402 1,0.765 8,1.405 5),非概率可靠性指标η=1.405 5,函数值G=8.795×10-6。
对比全局最优解法的解析解,本文方法得到的非概率可靠性指标值与理论值存在较小的误差(0.05%),2种方法搜索到的最容易失效点误差最大的坐标分量为0.05%,上述两类误差值远远小于工程中的误差允许限值5%,说明本方法具有一定的可行性。分析产生误差的原因是在标准化参数空间中采用拉丁超立方抽样法获得的原始参数较少或者是由于生成新的样本点时,迭代的次数较少(本文均迭代1次)。在实际运用中,可根据求解结果的精度要求,选择合适的初始采样数量n或生成新样本点的迭代次数。
4.2 算例2
设参数标准化后的测试函数表达式为:[G=-0.6x2-0.8y2+1.4cos(3πx)+0.6cos(4πy2)+0.6]。该函数是用来测试算法稳定性与全局性的经典函数。该函数呈现多极值,极限状态曲线呈现局部闭合、多区段的特点。
采用本文提出的算法,设采样的超立方体边长a=4,初始采样数量n=602,少数类样本点限定值m=0.9,各个少数类样本点的采样范围r=0.8,拟合极限状态曲面样本点的精度限定值[μM=0.001]。经过计算可得该功能函数的极限状态曲线和最容易失效点,如图4所示。
<G:\武汉工程大学\2023\第4期\张 梦-4.tif>[-2 -1 0 1 2
x][2
1
0
-1][y]
图4 临界曲线示意图
Fig. 4 Schematic diagram of critical curves
求得位于极限状态曲线上的最容易失效点为(0.245 8,-0.245 9),函数值G=5.07×10-4,非概率可靠性指标η=0.245 9。本文所提出的方法在处理极限状态曲面呈现多区域、局部闭合的情况具有良好的计算效果,容易得到全局最优解。
4.3 算例3
如图5所示的悬臂梁,梁上受力点距离固定端的距离分别为L1和L2,在L1和L2处分别作用的集中荷载为F1和F2。在荷载作用下梁中产生的弯矩最大值Mmax与梁所能承受的极限弯矩Mcr满足关系式Mmax>Mcr时,结构失效。设有界不确定参数分别为[F1∈[4.4,5.6] kN],[F2∈[1.7,2.3] kN],[L1∈[1.8,2.2] m],[L2∈[4.5,5.5] m],[Mcr∈[32,40] kN?m],试求该结构的非概率可靠性指标。
建立功能函数为:
[G=Mcr-F1L1-F2L2]
对区间变量作正则化变换,将变换后的变量代入功能方程,可得标准化的功能函数为:[G=36+4u1-(5+0.6u2)(2+0.2u3)-(2+0.3u4)(5+0.5u5)]。
通过一维优化算法[10]分析得到最容易失效点为(-1.744 6,1.744 6,1.744 6,1.744 6,1.744 6),非概率可靠性指标η=1.744 6。采用本文方法,设采样的超立方体边长a=4,初始采样数量n=205,新样本点的采样范围r=0.8,少数类样本点限定值m=0.5,拟合极限状态曲面样本点精度限定值为[μM=0.001]。分析得到最容易失效点为(-1.753 9,1.721 3,1.729 6,1.753 0,1.744 2),非概率可靠性指标η=1.753 9,函数值G=-3.6×10-4。
对比一维优化算法的解析解,采用本文方法得到的非概率可靠性指标与理论值相对误差为0.53%,最容易失效点的坐标分量最大相对误差为1.3%,这两类误差值均远小于工程结构中的误差限值5%。通过本算例可以看出,采用改进SMOTE算法避免了大量无意义的采样,新生成的样本点集中在极限状态曲面附近,在求解高维度情况下的非概率可靠性指标时具有较高的效率,工程实用性显著。
5 结 论
本文考虑功能函数的高度非线性,极限状态曲面呈现多区域、多闭合的情形,对标准SMOTE算法做出改进并运用于求解非概率可靠性指标。由于改进SMOTE算法采样区域集中在极限状态曲面附近,避免了过多无意义采样,以较小的计算代价获得较大的求解精度。算例表明,本文方法得到的结果与解析解的误差远小于工程中的误差限值5%,说明本文方法的有效性和正确性,在求解多变量功能函数的非概率可靠性指标时具有良好的表现。理论上,只要设置适当的求解参数,就可以求解任意复杂功能函数的非概率可靠性指标。后续研究可以考虑将改进SMOTE算法与神经网络相结合,求解隐式功能函数的非概率可靠性指标。