星期三
06 / 18
「科学语法」大模型LOGOS开源:以纯序列打通多领域AI4S建模
星期三 2026-06-18 17:53

据动察 Beating 监测,阿里巴巴旗下 ATH-Token Foundry 联合中国人民大学高瓴人工智能学院,开源了多领域科学生成大模型 LOGOS。不同于针对结构预测、分子生成分立训练专家模型,LOGOS 首次在 LLM 架构内实现了蛋白质、小分子、材料和化学反应的原生统一建模与生成。

核心突破在于将三维空间接触模式编码为 Token 序列。LOGOS 无需输入 3D 坐标即可捕捉空间互作,消除了预训练与下游任务的偏差。预训练语料库达 448.7 亿 tokens,完整覆盖蛋白质、小分子、化学反应等 7 类科学模态。

在六大任务评测中,1B 参数量的 LOGOS-1B 仅以 1/56 的参数规模,在多项任务上超越 56B 参数量的 NatureLM。在 AI 制药关键的口袋配体生成中,LOGOS 首次以纯序列范式击败了依赖 3D 坐标的扩散模型;在逆合成预测中取得 74.8% 的 Top-1 准确率。目前,LOGOS 已完整开源模型权重、推理代码与学术论文。