关键词:
特征选择
最大相关最小冗余
降维
遗传算法
近红外光谱
摘要:
近红外光谱分析技术在农业、食品、化工等领域中有着广泛的应用,但是动辄上千维近红外光谱数据,导致光谱数据的冗余度高,使得建模效果欠佳,因此对光谱数据进行特征选择是十分必要的。在众多的近红外光谱特征选择算法中,最大相关最小冗余算法((Max-Relevance Min-Redundancy,mRMR)利用随机变量之间的互信息为依据选择特征,是一种与建模方法无关的特征波长选择算法,但是mRMR在近红外光谱特征选择中的优势以及与建模方法的适配性问题仍需进一步探讨。本研究以玉米近红外光谱数据集(玉米发芽率、玉米秸秆木质素、玉米蛋白质)为对象,系统探究mRMR的特征选择性能及其与不同建模方法的适配性,并提出了一种混合方法,优化了mRMR以提升特征选择效率。
(1)验证了mRMR算法的特征选择优势。本文使用玉米发芽率近红外光谱数据集为研究对象,利用mRMR进行光谱特征选择,在此基础上分别建立偏最小二乘回归(Partial least squares,PLS)、支持向量回归(Support Vector Regression,SVR)、高斯过程回归(Gaussian Process Regression,GPR)、随机森林(Random Forest,RF)和神经网络(Back Propagation,BP)模型。实验结果显示,对于所使用的玉米发芽率数据集,与文中所用的其他特征选择方法(无信息变量剔除算法(Uninformative Variable Elimination,UVE)、竞争自适应重加权算法(Competitive Adaptive Reweighted Sampling,CARS)、连续投影算法(Successive Projections Algorithm,SPA)、遗传算法(Genetic Algorithm,GA)、变量重要性投影(Variable Importance In Projection,VIP)相比,基于mRMR的模型表现出更好的泛化性能,预测性能也更高,验证了mRMR算法在近红外光谱特征选择的优势。
(2)设计基于mRMR的混合算法实现特征选择的优化。由于过滤式的mRMR算法只能进行特征排序,不能直接给出最优特征子集,而遗传算法(Genetic Algorithm,GA)结合建模方法作为适应度函数的特征选择,能够自动选择出算法认为最好的特征子集。因此本文把mRMR和回归模型性能作为适应度函数的遗传算法相结合,将过滤式和包装式这两种特征选择方法结合,以达到自动筛选合适特征的目的。该混合算法是指在遗传算法的每次迭代中,将每个个体中mRMR认为相关性大且冗余性小的部分特征保留,将其认为相关性小或冗余性大的特征删除,通过迭代不断优选特征子集。本文采用提出的GA-mRMR混合特征选择方法,分别在课题组获取的玉米秸秆木质素近红外光谱数据和公开玉米蛋白质近红外光谱数据集上开展实验验证。在GA-mRMR和其他近红外光谱特征选择方法(UVE、CARS、SPA、迭代保留信息变量法(Iteratively Retains Informative Variables,IRIV)、GA以及mRMR)结果基础上,建立不同的回归模型,探讨GA-mRMR方法特征选择的性能表现。实验结果表明,将mRMR与遗传算法相结合的特征选择策略,综合了两种特征选择方法各自的优势,能够选择出一个确定的且预测性能好的特征子集。
(3)开发了近红外光谱降维软件。基于上述研究成果,在MATLAB环境中开发了一款基于互信息的近红外光谱降维软件。用户可以实现光谱数据的导入、预处理、样本集划分、特征选择和模型构建及结果可视化等功能,系统通过GA-mRMR混合算法自动优选特征子集,并提供其他各种特征方法进行对比,结合多种模型,该软件可完成化学成分的快速精准检测。经数据集验证,本文提出的GA-mRMR方法是一种较为合适的特征选择方法,本文提出的方法也为近红外光谱领域波长选择提供了一种新的思路,能够帮助实现对待测样品化学成分的快速且精准检测,可以为近红外光谱仪器设计和数据采集方案的优化提供指导,提高仪器性能和数据采集效率。