农业机械大数据清洗算法研究

福建省莆田市荔城区拱辰街道办事处 郑志良

数据清洗对农业机械大数据平台的有效应用具有积极意义[1]。为提升数据清洗的精准性和实效性,有必要对农业机械大数据清洗算法进行研究。本文在分析农业机械数据异常情况的基础上,提出了基于滑动窗口的在线清洗算法,并通过试验验证了算法的有效性,以期为农业机械大数据平台的有效运行及数据的精准应用提供参考与借鉴。

根据既有研究成果分析,本文将农业机械数据异常定义为在农业机械使用过程中的某个时间节点,服务器接收到的数据及其中的某数据要素,出现不完整、不精准等情况[2]。农业机械的运行条件较为复杂,在实际工作中,田间环境会对机械传感器的检测精度产生影响,表现为数据离散、缺失等;
作业过程中的粉尘会对传感器的检测精度产生影响,表现为数据抖动等;
农业机械发动机及供电系统的不稳定性会对传感器检测精度产生影响,表现为数据丢失、抖动等;
农业机械具体工作环境中的网络信号、电磁信号,对数据传输产生干扰,表现为数据传输延时等[3]。

需要说明的是,本文讨论的农业机械数据异常的情况,不包括作业环境合理变化导致的数据波动。

为实现农业机械大数据在线清洗,基于农业机械作业数据特征(以数值型为主),确定大数据在线清洗算法为滑动窗口法,其流程为数据异常识别—生成候选修正数据—候选修正数据的迭代修正。

2.1 数据异常动态识别

在数据异常动态识别过程中,先对数据对应的窗口区间进行方差检验,通过窗口滑动,可实现数据异常的动态识别,公式表示为:

式中,Di表示窗口;
表示窗口中数据的平均值;
dij表示窗口Di中的第j个数据;
w表示数据个数;
δ(Di)表示窗口的方差。

在实际计算过程中,若δ(Di)小于或等于选取的方差阈值,则原始数据集第i个数据为正常数据;
若δ(Di)大于选取的方差阈值,则原始数据集第i个数据为异常数据[4]。

2.2 生成候选修正数据

若确定数据为异常数据,则对其进行原始解求解,并生成候选数据集,公式表示为:

式中,di1表示窗口Di中的第1个数据;
diw表示窗口Di中的第w个数据;
x表示异常数据;
v表示选取方差阈值[5]。

通过求解计算,可以得到候选修正数据,公式表示为:

2.3 候选修正数据的迭代修正

在对候选修正数据进行迭代修正时,应用AR模型或ARX模型[6],对候选数据进行修正。

AR模型表示为:

式中,γ★i表示最终修复值;
C表示常量;
m表示阶数;
Φk表示AR模型参数;
εi表示白噪声点。

ARX模型表示为:

公式(4)和公式(5)中的Φk与m可以通过数学统计进行估算。

基于此,应对样本数据集的协方差函数进行Yule—Walker方程计算[7],公式表示为:

式中,β0、β1、…βp分别表示样本数据集的协方差函数。

将上述函数转换为矩阵形式表示为:

公式(7)中的矩阵Ap为对称可逆矩阵,所以可以得出下式:

通过Φk的计算,可以得出Φ(p)的第p个分量Φpp(偏相关函数)。

在迭代计算过程中,直至前后2次迭代的γ′i小于阈值时,停止迭代[8]。

3.1 试验材料

选择2018~2021年某省农机保护性耕作等8类型的作业数据,数据规模超过1×109,农机数据基本信息如表1所示。

表1 农机数据基本信息

结合具体农业机械作业数据情况和表1内容,确定试验环境:计算机CPU应用Inteli7;
内存为32GB;
ZooKeeper组建为3.4.6;
操作系统为CentOS7.0。

3.2 算法验证

为提升数据修复的有效性,对本研究方法的数据修复有效性进行评价,公式表示为:

式中,n表示异常数据个数;
γ★i表示修复后的异常数据;
ERMSE表示均方根误差。在具体试验中,首先选取具有一定规模和代表性的正常数据,通过人工的方式,对数据进行预处理。其次,按照一定比例,对正常数据进行异常化处理。最后,将正常数据标记为1,异常数据标记为0[8]。将预处理后的数据作为试验数据集,通过算法完成对数据的清洗,在取得各评价指标平均值后,对数据进行分析。

3.3 试验结果

选择不同规模的试验数据集,在数据预处理过程中,将5%的数据修改为正常,窗口大小设置为100,阶数设置为4,阈值设置为0.1。为提高试验的有效性,对每一个规模水平下的试验次数设置为3次,分别对修正处理的精确率、数据召回率、综合型指标、均方根误差的平均值进行取值。图1(a)为异常数据识别指标;
(b)为均方根误差与数据规模关系。

图1 异常数据识别指标、均方根误差与数据规模关系

图1(a)分析可知,精确率、综合性指标随数据量的增加而增加,当数据规模达到1×105条时,精确率在0.94左右[8],且趋于稳定,这表明本研究算法在大规模数据集清洗中具备良好的数据异常识别功能。

图2(b)分析可知,在数据规模不断增加的情况下,3种算法的均方根误差值均减小,且在达到一定数据规模后,趋于稳定。与Holistic、SWAB[9]算法相比,本文算法的均方根误差始终较小,这表明本研究算法的数据修正效果良好。

为进一步验证本研究算法的有效性,对本文算法、Holistic算法、SWAB算法进行数据异常率与均方根误差关系试验分析。在试验过程中,选取1×105条规模的数据集,窗口大小设置为100,阶数设置为4,阈值设置为0.1[9]。数据异常率不断提升的情况下,3种算法的均方根误差也逐渐增大。但与Holistic、SWAB算法相比,本文算法的均方根误差始终较小,这表明本文算法在数据异常修正方面具有精准性,且在数据异常越率低的情况下,本文算法的数据异常修正精准性越高。

农业机械大数据平台的应用是全力推进农业现代化发展的基础和保障内容。为提升农业机械数据使用的可靠性和精准性,有必要对农业机械大数据清洗算法进行深度研究。本文以实践应用为视角,阐述了农业机械数据异常的主要原因和具体表现,并结合农业机械作业特征,以数据最小变动性为原则,提出了基于滑动窗口的数据清洗算法,而且对提出的算法进行试验分析,并与Holistic、SWAB算法进行对比分析,以验证本文提出的算法的有效性。结果表明:本研究算法在大规模数据集清洗中具备良好的数据异常识别功能;
数据修正效果良好;
在数据异常修正方面具有精准性,且在数据异常率越低的情况下,本文算法的数据异常修正精准性越高。

猜你喜欢 方根修正农业机械 修正这一天快乐语文(2021年35期)2022-01-18农业机械推广应用及安全管理对策湖北农机化(2021年15期)2021-12-072021中国国际农业机械展览会河北农机(2021年8期)2021-08-242020中国国际农业机械展览会今日农业(2020年16期)2020-12-14我们爱把马鲛鱼叫鰆鯃飞天(2019年6期)2019-07-08农业机械的保养与维修分析农民致富之友(2019年17期)2019-07-01对微扰论波函数的非正交修正华东师范大学学报(自然科学版)(2019年2期)2019-06-11Pro Tools音频剪辑及修正人间(2015年8期)2016-01-09数学魔术——神奇的速算新高考·高二数学(2015年2期)2015-05-27数学魔术新高考·高二数学(2014年7期)2014-09-18

推荐访问:算法 农业机械 清洗