当前位置: 首页 > 期刊 > 《分析化学》 > 2007年第4期 > 正文
编号:11430584
偏最小二乘反向传播近红外光谱法同时测定饲料中4种氨基酸
http://www.100md.com 刘波平 秦华俊 罗香 曹树稳 王俊德
近红外光谱,饲料,偏最小二乘,人工神经网络,氨基酸,,近红外光谱,饲料,偏最小二乘,人工神经网络,氨基酸,1引言,2实验部分,3结果与讨论,4结论,References
第1页

    参见附件(37KB,1页)。

     摘要 偏最小二乘与人工神经网络联用对70个饲料样品建立起天门冬氨酸(Asp)、谷氨酸(Glu)、丝氨酸(Ser)和组氨酸(His)4种氨基酸含量的预测校正模型,以样品平行扫描光谱验证校正模型预测的准确性和重现性。用偏最小二乘法将原始数据压缩为主成分,采用单隐层的反向传播网络建模。取前3个主成分的12个数据输入网络,以Kolmogorov定理为依据,经过实验确定中间层的神经元个数为25,初始训练迭代次数为1000。偏最小二乘反向传播网络模型对样品4个组分含量的预测决定系数(R2)分别为:0.981、0.997、0979、0.946;样品平行扫描光谱预测值的标准偏差分别为:0.020、0.029、0.017、0.023。本研究为近红外快速检测在组分含量较低的样品实现多组分同时测定提供了思路。

    关键词 近红外光谱,饲料,偏最小二乘, 人工神经网络,氨基酸

     1 引言

    经典的饲料氨基酸测定方法主要采用离子交换色谱法(IEC)或高效液相色谱法(HPLC)[1~3]。这两种方法都具有很高的准确度和良好的重复性,但检测费时,费用昂贵,并需使用有毒化学试剂。近红外光谱(NIRS)分析技术的主要信息来源是有机物分子中C—H、N—H和O—H等含氢基团的倍频与合频振动,其光谱特性稳定,与传统分析方法相比,NIRS技术具有样品前处理简捷、无需化学试剂、环保、操作简单、检测速度快、稳定性好及可实现在线分析等优点[4,5]。NIRS是借助化学计量学方法如主成分分析、多元线性回归、逐步线性回归、偏最小二乘(partial least squares ,PLS)、人工神经网络(artificial neural networks,ANN)等实现定量分析。PLS能根据输出变量将原始数据压缩为主成分,用它压缩成的主成分能提高非线性模型的预测精度[6] 。ANN作为一种新兴的化学计量学方法,可以逼近任何连续的非线性曲线,是多组分同时定量测定中的一种首选方法[7] 。就目前的研究文献来看,饲料氨基酸近红外测定主要是通过建立主成分回归和偏最小二乘回归方程[8],未见人工神经网络应用于饲料氨基酸含量预测的文献报道。本实验用PLS法将光谱数据压缩为主成分,输入反向传播网络(backpropagation Network,BP),建立了同时预测饲料中4种氨基酸含量的PLSBP预测模型,结果良好。

     2 实验部分

    2.1 样品和实验仪器样品采自2005年不同厂家不同批次70个饲料样品,用粉碎机粉碎至0.45 mm粒径。采用高效液相色谱法(HPLC)测定天门冬氨酸(Asp)、谷氨酸(Glu)、丝氨酸(Ser)和组氨酸(His)4种氨基酸含量。全部样品分训练集35个,预测集35个;近红外光谱仪采用美国热电Nicolet公司的460型傅立叶拓展近红外光谱仪及近红外光纤探头; OMNIC7.0、TQ7.0及Matlab7.0 软件,石英杯。扫描范围4200~10000 cm-1,扫描次数为80次,分辨率为8 cm-1。

    2.2 图谱采集石英杯装约占容积1/4的饲料粉碎样品,置于光纤架上分直立、侧放,不同部位扫描样品近红外光谱,每个样品采集8个谱图(图1),取平均值为建模组,任取一条谱线作为验证组。

    图1 同一样品的8次近红外扫描谱图(略)

    Fig.1 Spectra of one sample scanned for 8 times

    2.3 建立PLSBP模型采用光谱分析软件OMNIC7.0 将训练集光谱转换为数据,用定量软件TQ7.0 对数据进行偏最小二乘法压缩,提取主成分,将前3个主成分的12个数据输入BP网络,以预测决定系数确定最优模型,采用预测集样品对模型进行验证。

     3 结果与讨论

    3.1 PLS压缩主成分采用光谱分析软件OMNIC7.0 将光谱转换为数据,定量软件TQ7.0 对数据进行偏最小二乘法压缩,提取主成分,表1为前3个主成分得分情况。由表1可以看出,前3个主成分得分累计贡献率达99.23%,基本可以涵盖样品信息。因此,从中选取12个数据作为神经网络输入变量。图2为全谱范围前3个主成分的图谱,其中4500~7300 cm-1波数段具有很强的特征性,基本能解释样品信息。因此,选此波数段的12个吸收峰输入BP网络。

    图2 全谱范围的前三个主成分图谱(略)

    Fig.2 PC1, PC2 and PC3 across the entire spectral region

    表1 对样品数据进行PLS压缩的前3个主成分得分(略)

    Table 1 Principal component (PC) scores of spectra data processed by Partical least square (PLS)

    3.2 BP网络参数选择

    3.2.1 隐含层神经元个数 隐含层神经元数目太多会导致学习时间过长、容错性差、不能识别没有见过的样本等问题。并不存在一个理想的解析式来确定隐含层神经元的个数,需要根据设计者的经验和多次实验来确定最佳隐含层神经元数[9] 。根据Kolmogorov经验定理,本实验隐含层的神经元个数应为25。

    3.2.2 学习速率 基于网络稳定性考虑,从小到大顺序做学习速率选取实验。实验发现,学习速率取0.1时,网络性能最好,预测误差达到最小。因此,本实验在对网络进行训练时的学习速率均采用0.1。

    图3 网络训练收敛过程(略)

    Fig.3 Process of training

    3.2.3 训练次数 训练次数是神经网络的一个重要参数。训练次数过多会造成网络的过拟和,导致结果产生偏差[10] ;训练次数过少则使网络难以收敛,达不到训练要求。本实验中,样本经PLS法压缩为主成分后,数据量比较小。因此,在网络学习前设置最大训练次数1000,实验证明,网络训练200步左右即可达到预先设定的学习误差0.001。图3为网络收敛过程。

    3.2.4 PLSBP模型 取前3个主成分的12个吸收峰作为输入,4个预测指标作为输出,采用Matlab 语言进行BP网络编程,建立一个单隐层BP网络。传递函数采用tansig和logsig函数,训练函数为trainlm。输入层向量为12个,输出层4个,隐含层神经元个数应为25,目标误差值设置为0.001。其它参数由程序随机设置。图4为网络对未知样本数据的预测结果。四项指标的预测相对误差分别为3.9%、2.6%、4.8%和4.3%,预测结果良好。

    3.4 重现性实验为检验近红外光谱预测的重现性,对一未知样品的8次扫描图谱进行预测,结果如表2所示。8次预测结果的标准差分别为0.020、0.029、0.017和0.023。可见模型的稳定性很好。

    表2 模型对同一样品8次扫描图谱的预测结果(略)

    图4 PLSBP对未知样本数据的预测结果(略) ......

您现在查看是摘要介绍页,详见PDF附件(37KB,1页)