在烟草工业生产中,物料(烟片、烟梗或烟丝)的水分含量关系到物料的物理性能(如耐加工性)和吸食口味等,是一项重要的质量指标,各个企业通常都对它严格控制。实际生产中,绝大多数企业选用闭环控制的方法使物料的水分含量稳定在某个设定水平上,其中的测量环节均使用了高性能的在线测量仪器,各种类型的近红外水分测量仪因其简单易用而成为企业的**。近红外测量是一项应用范围十分广泛的技术手段,它可以用来测量粮食、面粉、木材、烟草等多种物料中的众多成分(如水分、脂肪、糖分和烟碱等)。这项通用技术用于特定场合时必须进行适应性标定,以确定某待测成分的测量基准。测量烟草物料的水分也不例外,但笔者在实际工作中发现,在评定烟草水分仪标定质量时有一个重要的统计问题却常常被忽视。
一、近红外水分测量原理
多数物质因自身组成成分不同会吸收特定波长的近红外光,人们利用这个特点使用给定波长的近红外光(测量光)来测量这些成分的含量。如水的强吸收区域在红外光波长1430nm和1945nm处,丙烯乙二醇对应的波长为2100nm等。通常,实际测量时在特征波长之外还要使用至少一个参考波长,对该波长的红外光(参考光),待测物质不会出现强吸收现象。这样,通过比较从待测样品上反射回来的测量光和参考光的能量差异(吸光度比值)便可以大致确定样品中待测成分的含量。
测量水分时,经常使用的近红外波长组是(1230nm、1430nm、1600nm)和(1820nm、1945nm、2200nm)。定量测量前,还需要用水分含量已知的标样来确定和修正测量曲线,这也就是通常所说的标定。
二、水分测量仪的标定
标定的目的是建立可用的测量曲线。红外水分仪的标定通常分为静态标定和动态标定两种。
静态标定使用多组(一般在7组以上)水分已知的标样来建立仪器读数值,或者说仪器内部的信号值(有时也称为X因子)和实际水分值之间的关系,采用回归方法处理数据,一般情况下直线回归已经足够。换句话说,静态标定就是要确定式(1)中的系数span(跨度)和zero(零位)。
y=span×x+zero (1)
式中:x——信号值;y——测量出的水分值。
动态标定是指仪器安装使用后,通过在线取样来比较样品的仪器值和对应实验室检测值(水分通常用烘箱法测得,故也叫烘箱值)的差异,依据差值对式(1)中的零位做进一步修正,此时跨度保持不变。
三、标定质量和卡方分布
1.静态标定的质量评定
下面以某特定工艺点、特定牌号烟丝的实际标定过程为例,来说明标定的内容及对标定结果(标定质量)的评定。表1为未经静态标定的一台红外水分仪,其显示值(仪器值)和实验室值(烘箱值)的对比结果。
表1 静态标定前数据
显然,表1的24组数据中,差值“M-L”离散较大(0.08~1.26),差值的标准偏差为0.34,距离经验中的正常数值过远,因此,需要通过回归计算同时对跨度和零位进行修正。
表2是静态标定后的结果。其中的仪器值是在新的跨度和零点下仪器的显示值,新的跨度和零点是依据烘箱值和对应的X因子值经回归计算得到的。
表2 静态标定后的结果
通常,判定静态标定质量的指标有回归方程的决定系数以及残差的标准偏差。使用表2中的数据,经过简单的计算可得标定后的决定系数r2为0.997,回归残差的标准偏差为0.136,与静态标定前的0.34相比已经改进很多。此时,根据实践经验可以判定本次静态标定是成功的。
静态标定通常是在实验室内完成的,一些可能导致误差的因素(如取样、制样、标定环境、人员)比较容易控制,一般均可保证较好的标定质量。而动态标定则不然,由于部分标定工作要在生产现场就地完成,一些因素(如取样)就会对标定结果产生影响,严重时甚至会对工作产生误导。
2.动态标定的质量评定
理想状态下,动态标定是不需要的。但现实中,仪器的零位漂移总会出现,多数由于流动性等因素造成。所以,企业在实际工作中会周期性(如每月1次)地对仪器进行动态标定。具体标定时,要在红外水分仪的照射光斑处取表层烟丝样品若干组,同时记录下取样时对应的仪器值,经过必要的数据处理后,视结果决定是否要调整仪器的零位。上文中通过静态标定的仪器,随后对它进行了多次动态标定,这里选取其中一次的实例数据列于表3。
表3 动态标定数据
数据处理时,通常的做法是计算6组差值的平均值,如果结果的**值在某个临界值以内(比如说0.2,但严格的做法是使用成对样本T检验),则认为仪器没有显著的零位漂移,无须任何调整。本例中为0.19,可以认为仪器正常,此次动态标定工作顺利结束。
但是,这样做真的没有问题吗?恰恰相反,粗略地对比表3中的仪器值和烘箱值,可以发现两者的变化趋势基本是相反的。仪器值和烘箱值竟然负相关。但是,依靠6组差值的平均值却得不到任何一点这方面的信息。现有的评定方法存在缺陷。
必须使用一个新的指标把数据间的这种差异表示出来。6组差值的标准偏差可以完成这个任务。定性上看,如果仪器值和烘箱值之间存在稳定的差值,依据差值计算得到的标准偏差会很小;相反,如果仪器值和烘箱值之间的差值忽大忽小,计算得到的标准偏差就会大很多。可是,要使用标准偏差这项指标,还必须考虑在动态标定随机抽样的情况下,它的波动范围有多大,这样才能确知正常和异常的界限,保证判断的准确性。
3.卡方分布
在静态标定时,我们得到了残差的方差0.1362,该值是对线性回归模型中随机误差项方差的无偏估计,即可以认为随机误差项服从正态分布N(0,0.1362)。以静态的眼光审视动态标定时的每对数据,可以认为每个仪器值和烘箱值的差值也服从相同的分布即N(0,0.1362)。显然,这样做只会高估仪器动态使用时的准确度(与GB/T3358.1
4.9中的定义保持一致),也就是说,相同的仪器在动态使用时,其性能只会变差。我们知道,独立且同为标准正态分布的n个随机变量,其平方和服从卡方分布(Chi-square distribution),据此,我们就可以测算动态标定时“仪器值-烘箱值”的标准偏差的可能范围。
在动态标定取样6组的情况下,有
式中:x1~x6——6对仪器值和烘箱值的差值所代表的随机变量;σ——这些随机变量的标准偏差。
式(2)服从自由度为6的卡方分布。考虑实际样本标准偏差计算方法,在99%的置信水平下,5个自由度之和的取值范围在0.412和16.750之间,经过简单的推导运算可以得到5个自由度的“仪器值-烘箱值”的方差取值范围为(0.0015,0.0620),相应的标准偏差的取值范围为(0.04,0.25)。根据这个数值范围,我们就可以对该工艺点动态标定的质量进行判定,超出该范围的情况皆判定为标定异常。
按照这样的标准,我们审视表3所代表的这次动态标定,发现由实例数据计算出的标准偏差为0.31。毫无疑问应将这次动态标定判为异常。
当然,对某一工艺点动态标定时标准偏差取值范围的测算结果取决于仪器性能、工艺点物料状态、工艺点工艺状态、动态标定取样等众多因素。所以,特定工艺点的静态标定结果只能用于测算该工位动态标定时标准偏差的取值范围。
四、实际应用效果
实际工作中,我们对每次动态标定数据都计算出差值的平均值和标准偏差两项指标,先查看标准偏差是否在要求的范围内,过大或过小的数值均提示了异常的情况(实际数据还显示出:在异常情况里,偏大的次数远多于偏小的次数)。多数情况下,异常的动态标定是取样不善造成的。通过重复取样再次标定,问题都可以解决。其余情况,处理起来要复杂一些,可能要调整工艺设备,标定烘箱,甚至要重做静态标定。