指纹图谱是近年来中药质量控制的热点,对中药材及成药来说,用指纹谱进行质量控制、判别真伪是一种很有前途的方法。目前根据整体谱图进行质量控制的数据处理方法主要有模式识别与人工神经网络的方法,这两种方法都是采用计算机自动寻找大量样本谱图的统计规律,再根据所建立的规律对待测谱图进行归类,它们给出的答案是一种分类及定性的信息,不直接定量比较两张指纹图谱间的相似度。
但在很多情况下我们需要利用这种相似度的计算提供定量的评价信息,为中药质量控制提供依据。目前主要采用峰重叠率来表征谱图的相似度[4,5],这个方法在计算时仅考虑出峰的数目而不考虑峰的强度。为了能够全面反映出峰数目与峰强对指纹谱间相似度的影响,本文在多维空间向量夹角[6]的基础上提出了计算色谱指纹图谱之间相似度的方法,为中药指纹图谱质量评价提供了一个新方法。
基本原理 N个数值组成的行(x1, x2, x3,… xn)称为N维向量简记为大写字母X,定义 为向量X的模。如果存在两个向量X及Y则 称为X与Y的内积,X,Y之间的向量夹角按照(1)式计算。如果 越接近1则说明两个向量越相似[6]。 (1) 每个色谱指纹图谱都可以看作一组对应保留时间下的峰高(或峰面积)的数值,可把这组数值看作多维空间中的向量,使两个指纹图谱间相似性的问题转化为多维空间的两个向量的相似性问题,利用(1)式能够计算 来定量表征指纹图谱间的相似性。下面举一个简单的例子进一步说明向量夹角余弦的具体计算过程。假设有两张色谱图,每张色谱图包含4个色谱峰,3个是共有峰,此外每张谱图各有1个特有峰。
实际的指纹图谱往往有几十、上百个色谱峰,手工比较判断共有峰与特有峰以及计算相似度是烦琐的,因此本文使用VB6.0编制了一个小程序,只要给出两个色谱图的积分报告就能自动进行峰匹配,判断共有峰及特有峰,并将对应的数值填入向量的对应位置,计算相似度。实际计算中药指纹图谱相似度主要有以下4个步骤: (1) 在统一的样品处理与分析测试条件下获得色谱指纹图谱;(2) 进行谱图积分获得保留时间、峰高等信息;(3)根据分析时的噪声水平,将信噪比<5的色谱峰除去不作考虑;(4)用计算机自动进行两个指纹图谱之间的峰匹配。