高倩;
针对现有网络数据流冗余去除算法易忽略数据流分类以及冗余特征强相关问题,导致冗余数据去除效率不高,网络数据存储空间利用率低,提出了基于特征识别和随机森林的网络数据流冗余去除算法。首先,依据网络数据流的五元组属性,获取数据的流属性和时间戳,计算样本数据权重值获取数据边缘分布特征,确定数据包权重,完成数据流分类;然后,采用主动采样方法提取识别网络数据流冗余信息特征;最后,引入随机森林算法构建冗余去除模型,通过特征选择与混合采样的方法对模型加以改进,通过对冗余数据进行编码替换完成去除处理。实验结果表明,应用所研究方法能够使网络带宽占用低于6 bps,提高了网络数据存储空间的利用率。