定义:
注射剂中的异物,系指非故意存在于溶液中的除气泡外的可移动的不溶性微粒或可见的异物。一旦异物随注射液进入体内可随血液流动却不能被代谢,可能对人体造成难以发现和潜在的严重危害,因此注射剂需要对异物进行严格控制。对异物进行鉴别分析可以帮助研究者找到异物产生的原因,从而进行预防和控制。
法规:
美国药典USP <790>明确指出,注射类药品必须“基本无可见颗粒”;此外,各国药监机构亦对相关杂质提出了更为严格的定量与定性要求。
产生的来源:
注射剂中的异物通常为生产线设备、组件、包装材料等材料的脱落物、药液自身组分析出物。实际上也可能是药液自身降解产生,或与生产线或包材接触过程发生相互作用新生成的析出物。
可见颗粒识别的AI+拉曼应用
在药品特别是注射类复杂制剂的生产与质量控制过程中,可见颗粒的识别不仅关乎产品的合规性和稳定性,更直接关联到患者的用药安全。按照当前全球GMP标准,包括《美国药典》USP <790>、《中国药典》2020年版等,对于注射剂必须执行“基本无可见颗粒”的标准。生产过程中一旦在成品中检出颗粒异物,往往需要立即启动偏差调查、生产溯源,甚至面临整批报废的风险。
颗粒的来源可以是多方面的,如设备老化产生的金属屑、包装材料剥落、过滤膜碎片、灌装环节的机械性剪切产生的微粒、以及蛋白质自身在应激条件下形成的聚集物等。从监管角度看,不仅要求判断“有无颗粒”,更进一步提出必须明确“颗粒是什么”“来自何处”“是否可控”,否则难以满足对产品风险的系统性评估。而这一过程中最具挑战性的环节,正是对颗粒的快速、准确、低依赖人工经验的“化学成分识别”。
在此背景下,拉曼光谱技术凭借其高分子结构灵敏性、无损检测、可在水溶液中直接检测等优势,正在成为颗粒识别的新兴手段。其最大优势在于能够提供被测颗粒分子振动模式的“光学指纹”,从而识别出颗粒的材料类别,例如区分玻璃、聚合物、蛋白质、硅油等。
然而,拉曼技术仍面临以下几个现实限制:
・拉曼谱图波段复杂、特征峰重叠、背景荧光干扰,导致非专业人士难以快速准确解读;
・ 缺乏统一、完整的颗粒光谱参考库,尤其是在多种来源的“未知颗粒”情况下;
・不适于在高通量质控流程中单独使用,除非与智能化算法结合。
为解决上述瓶颈,将拉曼光谱与机器学习算法结合,用以自动识别多种常见可见颗粒的类型,从而显著提高检测效率和准确性,减少对操作人员主观判断的依赖。
实验设计:多颗粒模拟 + 谱图构建 + 算法训练
研究人员模拟了药品生产场景中可能出现的十类可见颗粒,包括外源性纤维类(如羊毛、纤维素),内源性聚合物(如聚丙烯 PP、聚偏二氟乙烯 PVDF、聚醚砜 PES、聚四氟乙烯 PTFE)、硅油、硅胶管、玻璃碎屑及蛋白质聚集体。这些颗粒均以人工方式制备成悬浮液,并使用532 nm激光波长的共聚焦拉曼显微系统进行谱图采集。
图1 常见可见颗粒标准溶液的拉曼光谱图。
a 纤维素;b 羊毛;c 聚丙烯;d 聚偏二氟乙烯(PVDF);e 聚醚砜(PES);f 聚四氟乙烯(PTFE);g 硅油;h 硅胶管;i 玻璃;j 蛋白质(IgG1抗体)。
拉曼光谱的测量条件为使用532 nm激光波长,激光功率为6 mW,曝光时间为6秒。图中所绘制的平均光谱来自每种可见颗粒类型的50条光谱(n = 50),阴影部分表示各平均谱图的标准差,以反映重复测量之间的波动范围。
每类颗粒采集50条光谱,共计500条样本数据,涵盖了从400 cm⁻¹到1800 cm⁻¹的拉曼“指纹区”。随后,研究人员对所有谱图进行标准化预处理,包括基线扣除、归一化、峰位提取等,并运用PCA(主成分分析)进行降维,如图2所示,常见颗粒的拉曼图谱在前三的3D图中分布,可以看出不同的可见颗粒的拉曼图谱的差异分布情况。
图2 常见可见颗粒的拉曼图谱在前三(PCs)的3D图中分布
在此基础上,研究团队将每种可见颗粒的45条(90%)光谱作为训练集和5条(10%)作为验证集。基于训练集数据,结合K折交叉验证,分别采用5种分类算法进行训练:
1. 决策树(Fine Tree)
2. 二次判别分析(Quadratic Discriminant)
3. K近邻(Fine KNN)
4. 支持向量机(Cubic SVM)
5. 子空间 K 近邻集成分类器(Subspace KNN)
图2不同类型可见颗粒的训练(验证)混淆矩阵,基于标准颗粒溶液数据,使用五种典型的机器学习算法进行模型训练和评估。混淆矩阵展示了每种模型在训练集中对各类颗粒的识别效果,其中对角线数字表示被正确分类的样本数量,非对角线数字则表示识别错误的样本数量
从图中可以看出:
a. 模型 1.23:子空间 K 近邻集成分类器(Subspace KNN),对10种颗粒类型均实现了100%分类准确率,无误判;
b. 模型 1.10:三次核支持向量机(Cubic SVM),在硅胶管与硅油的边界判别中出现1例轻微混淆,其余全部正确;
c. 模型 1.14:精细 K 近邻(Fine KNN),与 SVM 表现相近,仅在硅胶管类别出现1例误判;
d. 模型 1.5:二次判别分析(Quadratic Discriminant Analysis),在蛋白质与硅胶管的识别上表现稍弱,出现3个及以上样本的错误分类;
e. 模型 1.1:精细决策树(Fine Tree),在蛋白质样本上出现了明显偏差,有5个样本被误分类为羊毛,且对 PVDF 的判别也有偏差。
模型结果分析:准确率超98%,AI可判别高相似谱图
结果显示,五种模型均表现出极高的训练与测试准确率,其中表现最佳的subspace KNN模型在训练集和测试集中均实现了100%的分类准确率,即能够将所有可见颗粒归类为正确类型。
表1 不同算法建立的模型的预测准确率
尤其值得注意的是,在测试集中:
・ 模型能够成功区分光谱极为相似的硅油与硅胶管两类颗粒,后者在传统拉曼谱图中难以凭经验准确识别;
・ 对于容易发生荧光干扰的羊毛与蛋白质聚集物,算法亦表现出良好的稳定性;
・ PCA三维可视化展示出各类颗粒在主成分维度上的聚类性,验证了谱图间的差异可被机器有效学习并利用。
该研究证明了AI可以极大提升拉曼光谱在颗粒识别中的自动化与准确性,这个具体的流程为:从标准颗粒谱图库建设 → 拉曼数据采集 → 数据预处理 → 特征提取 → 模型训练 → 自动分类预测,可以形成一整套可以被部署于制药质量控制流程中的“智能识别方案”。
值得指出的是,拉曼+AI并非“孤勇者”,而是可以与PXRD、DSC、NIR等其他晶型检测技术形成“组合拳”策略。在实际项目中,可以先通过PXRD确认样品主要结晶状态,再用AI+拉曼实现更细颗粒度的定量分析与局部监测,形成双重保障。
同时,AI算法也可以吸收来自不同检测平台的数据,建立多模态学习模型,例如将PXRD衍射峰与拉曼光谱进行融合建模,从而进一步提高模型鲁棒性和识别范围。
总结
通过本研究及其模型表现我们可以清晰地看到,AI 与拉曼光谱的结合,正为药品制剂开发带来前所未有的效率、深度与智能化可能性。从实验室到产线,从颗粒识别到晶型解析,这项技术真正让微观结构“看得见、分得清、说得准”。
我们相信,拉曼+AI融合技术将在不久的将来,从“质控利器”走向“研发引擎”,从“检测工具”演进为“认知平台”。它不仅是技术的跨界协同,更是制药行业真正拥抱智能化、精准化未来的象征。
新阳唯康
新阳唯康是国内率先将拉曼光谱技术应用于复杂制剂中的药物固态研究的企业,配备全国最顶尖的拉曼设备,致力于为客户解决药物研发过程中最具挑战性的问题,已为各大上市药企高质量完成多个晶型研究项目,为药品上市保驾护航。
参考文献:
[1]Sheng, H., Zhao, Y., Long, X., Chen, L., Li, B., Fei, Y., Mi, L., & Ma, J. (2022). Visible particle identification using Raman spectroscopy and machine learning. AAPS PharmSciTech, 23(1), 186.