新闻与媒体 新闻与媒体
新闻与媒体
东阳光药推出药物合成大模型HEC-SynAI,实现多维驱动逆合成分析决策,致力于提升药物合成效率
发布时间:2025-11-28 浏览数:43



逆合成分析(Retrosynthetic Analysis)作为有机合成设计的核心,旨在将复杂分子逐步拆解为易得原料,是连接药物发现与产业化(CMC)的桥梁。早期的合成专家系统受限于规则覆盖范围,泛化性能有限,而近些年兴起的基于图神经网络与蒙特卡洛树搜索(MCTS)的合成专用模型尽管取得了泛化性能突破,然而其仍不能满足多步反应规划、反应条件优化、反应文献检索等该领域的核心需求。


随着大语言模型(LLM)与智能体(Agent)技术的爆发,构建一个具备化学合成领域知识、进行多模态反应信息关联推理并能通过工具调用解决复杂任务的垂直领域大模型,成为推动药物CMC合成环节数智化的关键。

图/东阳光药物合成大模型HEC-SynAI架构


打造“机理+数据+工具”多维驱动的

逆合成分析决策引擎


研发团队旨在构建一个超越传统路线预测工具的药物合成大模型(HEC-SynAI)。基于通用大语言模型的推理能力,通过监督微调(SFT)与强化学习(RL)内化反应信息与化学反应机理,并借助智能体技术动态扩展模型应用范围,实现三大核心目标:


(1)多模态深度解析:突破单一文本输入限制,具备识别化学结构、解析多步反应路线及检索化学文献的多模态交互能力。


(2)全流程智能决策:打通从逆合成拆解、反应条件推荐、反应机理分析到关键文献引用的药物合成全链路。


(3)CMC导向优化:构建包含路线产率、试剂成本、原子经济性、毒性等多因素融合的强化学习奖励模型,驱动LLM生成符合工业生产要求的合成路线。


图/HEC-SynAI多步合成规划性能基准测试


药物合成大模型HEC-SynAI


HEC-SynAI是东阳光药在CMC合成工艺数智化领域的最新突破。


首先,数据团队在整合ORD、CRD和USPTO等公开反应数据库的基础上,以标准化的内部高质量合成工艺研发实验数据为核心,构建了涵盖三百余万个单步化学合成反应、数十万个多步反应路线的合成数据中心,充分满足了单步反应物预测、多步路线规划、反应条件推荐及产率预测等模型多任务训练需求;


再者,算法团队创造性地将“编码器-解码器”大模型框架与当前国产开源大模型框架相融合开展后训练,取得了多步路线预测性能突破,其五步内最高准确率达到81%,较耶鲁大学DirectMultiStep (DMS)1 提升49%,内部测试案例效果与SciFindern、Reaxys等商业软件相当;


由此,智能体技术的应用进一步提升了大模型可及性,在化学反应信息识别与文献检索方面填补了开源合成软件空白,有效抑制了垂直领域应用幻觉,可为研究人员提供工业级合成路线的解决方案。


技术创新与应用价值



东阳光药推出的药物合成大模型HEC-SynAI通过数据、算法、系统三方面的技术革新,实现了多模态反应解析、逆合成规划、反应机理推理、反应条件优化和反应文献检索的多功能协同,进一步完善了东阳光药物智能发现平台在药物CMC数智化研发中的大模型应用版图。结合已发布的“药物分子设计”-“药代动力学”专用模型和药物制剂垂直大模型HEC-PharmAI,东阳光药现已形成从先导化合物发现优化、合成工艺开发到制剂处方设计的全链条AI赋能体系。


HEC-SynAI致力于实现有机合成规划软件领域的国产替代,将显著提升药物合成效率,降低工艺开发成本,推动药物合成研发从“实验室级路线设计”到“工业级智能制造”的跨越式发展。


参考:Shee Y, Morgunov A, Li H, et al. DirectMultiStep: Direct Route Generation for Multistep Retrosynthesis [J]. J Chem Inf Model, 2025, 65, 3903-3914.

来源:东阳光药人工智能研发中心


相关新闻