2026年AI蛋白质设计前沿技术实战培训班
会议简介
近年来,人工智能已彻底颠覆了蛋白质设计领域。以 AlphaFold、ESM、RFdiffusion 为代表的一系列 AI 工具,使得从零开始创造具有全新结构和功能的蛋白质成为可能,为生物医药、酶工程等领域带来了前所未有的机遇。然而,强大的工具也带来了新的挑战:复杂的软件环境配置、多样的模型调用方式以及从“想法”到“设计”的完整工作流整合,成为了许多研究者,尤其是初学者的现实门槛。本课程旨在系统性地解决这些问题。我们将从最基础的 Linux 与 Conda环境管理讲起,确保每位学员搭建起稳定、可复现的计算平台。课程核心将深度实践三大前沿工具:利用 ESM 模型进行序列分析与特征提取;掌握ProteinMPNN 为给定骨架设计最优序列;并通过 RFdiffusion 实现从无到有的蛋白质骨架生成。最终,我们将以一个完整的“设计靶向 EGFR 的全新结合蛋白”综合项目,串联所有技术环节,带领学员亲历从靶标分析、骨架生成、序列设计到 AI 结构验证的完整闭环,快速获得独立开展 AI 蛋白质设计的能力。因此,中国化工企业管理协会医药化工专业委员会决定于 2026 年 6 月26-28 日在杭州市举办“2026 年 AI 蛋白质设计前沿技术实战培训班”。届时将邀请行业内实践专家针对相关内容进行讲解与实操教学。参会名额有限,望各有关单位积极转发或组织相关人员尽快报名参加。
会议内容
AI蛋白质设计基础与计算环境搭建(Linux/Conda)
ESM模型在蛋白质序列分析与特征提取中的应用
ProteinMPNN蛋白质序列逆向设计实战
RFdiffusion蛋白质骨架从头生成技术
AI蛋白质设计完整工作流:从靶标分析到结构验证
综合实战项目:靶向EGFR的全新结合蛋白设计
会议日程
2026年6月26-28日
参会对象
- 1.蛋白质工程领域科研单位专家及学者;
- 2.农学、医学、药学及食品学院校及企业蛋白质功能开发负责人;
- 3.生物工程领域从业工作者。
费用标准
非会员正价
¥3500
同企业2人及以上团报价
¥3000
汇款信息
收款单位
中科凯晟(北京)化工技术研究院
开户银行
中国工商银行北京玉泉路支行
银行账号
0200063009200087710
汇款附言
汇款请注明:杭州 AI 蛋白质培训会务费。请您在回传确认表后3个工作日内办理付款,款到后会给您出具正式会议用增值税专用发票。
注册征文
培训形式
基础奠基,工具实践,实例分析,互动答疑
完成全部培训课程者由协会颁发培训证书
课程大纲
第一天:计算环境搭建与蛋白质序列设计
(6 月 27 日,上午 09:00-12:00;下午 13:30-16:30)
上午 : 模块一 & 模块二
模块一:Linux 基础 — Linux, Conda, VScode & Docker & Claude Code,kimi code
目标:为后续所有软件安装和运行扫清障碍,建立规范、可复现的科研计算环境管理能力。
Linux 基础操作精讲:
文件系统与导航: ls, cd, pwd, mkdir 的高效使用技巧。
文件管理: cp, mv, rm, vi, cat, head, tail 的实战应用。
权限管理:理解并使用 chmod 解决脚本执行权限问题。
实操:在服务器上创建课程项目目录,并进行基本的文件组织。
Conda 环境管理核心:
核心理念:通过环境隔离解决不同项目间的依赖冲突问题。
环境生命周期: 创建(create)、激活(activate)、退出(deactivate)、删除(remove)
软件包管理: 安装(install/pip install)、查看(list)、导出配置(env export)
实操:为后续的 ESM、ProteinMPNN 和 RFdiffusion 创建独立的 Conda 环境。
Docker 容器化入门:
概念对比:Docker 与虚拟机的异同,镜像(Image)与容器(Container)的核心关系。
核心命令: docker pull (拉取官方镜像), docker run (运行容器)。
应用场景:讲解如何利用 Docker 一键部署复杂的生物信息学工具。
VScode 远程开发实战:
SSH 远程连接:配置 Remote-SSH 插件,一键连接实验室服务器,本地浏览远程文件。
科研扩展生态:安装 Python、Jupyter、Docker 插件,构建蛋白质设计的编程环境。
实操:通过 VScode 连接服务器,在课程目录中创建、编辑并直接运行蛋白质生成脚本。
Claude Code & Kimi Code AI 辅助编程:
核心理念:AI 嵌入终端与 IDE,实现代码生成、重构、Debug 闭环,加速生物信息学开发。
工具定位:自主编程 Agent,自然语言直驱文件系统与脚本执行,独立完成"写代码—
运行—报错修复—结果分析"完整链路。
实操:以自然语言驱动蛋白质设计全流程——自动生成 RFdiffusion 推理脚本、批量处理 PDB 文件、解析 ProteinMPNN 序列打分输出。
模块二:ESM 模型探索 — 从安装到基础应用
目标:掌握 Meta AI 的 ESM 系列工具,为蛋白质序列分析和结构预测打下基础。
ESM (Evolutionary Scale Modeling) 简介:
蛋白质语言模型:讲解 ESM 如何将自然语言处理的思想应用于蛋白质序列。
主要应用:序列嵌入、突变效应预测、结构预测 (ESMFold)。
软件安装与环境配置:
使用 pip 在之前创建的 Conda 环境中安装 fair-esm 库。
依赖检查与 GPU 环境确认 ( torch, cuda)。
基础操作演示与实战:
获取序列嵌入 (Embeddings):编写 Python 脚本,为给定的 FASTA 序列生成高维特征表示,并解释其用途。
序列分类模型训练: 基于 ESM 提取的序列嵌入特征,构建简单的分类器,完成蛋白质功能分类或亚细胞定位预测任务。
单序列结构预测 (ESMFold):使用 ESMFold 命令行工具或 API,对一条蛋白质序列进行快速结构预测。
结果分析:解读输出的 PDB 文件,重点关注 pLDDT 分数,并使用 PyMOL 等软件进行
三维结构可视化。
实操练习:学员独立完成一个未知蛋白的结构预测,并评估预测结果的可靠性。
下午: 模块三
模块三:ProteinMPNN 深度实践 — 反向折叠与序列设计 (3 小时)
目标:精通使用 ProteinMPNN,根据给定的蛋白质骨架设计出全新的、高稳定性的氨基酸序列。
软件安装与环境配置 :
从 GitHub 克隆 ProteinMPNN 官方仓库 ( git clone)。
使用 Conda 创建专用环境并安装所有依赖项。
下载预训练好的模型权重文件,并放置到指定目录。
序列设计核心流程:
基础工作流:输入 PDB 结构文件,运行设计脚本生成候选序列。
重要参数解析:输入输出路径、生成序列数量、采样温度等。
结果文件解读:理解输出 FASTA 中的序列评分及其意义。
进阶设计技巧:
位点控制策略:固定关键残基、排除特定位置、氨基酸偏好等。
复杂体系设计:多链蛋白、同源多聚体的序列优化。
参数调优实践:通过温度参数平衡序列多样性与结构匹配度。
质量评估方法:筛选高分序列、分析氨基酸组成合理性 。
第二天:蛋白质结构生成与综合项目实战
(6 月 28 日,上午 09:-12:00;下午 13:30-16:30)
上午: 模块四
模块四:RFdiffusion 核心技术 — 从无到有生成蛋白质骨架 (3 小时)
目标:掌握蛋白质结构生成工具 RFdiffusion,实现从头设计全新拓扑结构的能力。
软件安装与环境配置:
详细安装流程:分步指导通过 git clone 获取源码,使用 Conda/Mamba 创建环境。
常见问题排查:总结安装过程中可能遇到的编译错误、依赖冲突等问题及解决方案。
结构生成操作流程:
核心脚本 run_inference.py :演示完整的命令行调用格式。
Contig 字符串详解:详细讲解如何通过 contig 字符串定义生成长度、引入已知 motif、指定二级结构等。例如: "A1-100" (生成 100 个残基), "10-20/A1-10/10-20" (在 A 链1-10 号残基两侧各生成 10-20 个残基)。
常用参数设置和输出结果解析:
inference.output_prefix: 输出文件命名
denoiser.noise_scale_ca: 主链噪声水平控制
denoiser.noise_scale_frame: 局部构象噪声控制
scaffolder.symmetry: 对称性参数(C2, D2, I 等)。
输出结果深度解析:使用 PyMOL 加载.traj.pdb 轨迹文件,观察结构生成过程,并学习如何筛选最优候选结构。
下午: 模块五 & 模块六
模块五:RFdiffusion 引导的 Binder 骨架生成
项目背景: 设计一个能够特异性结合 EGFR(表皮生长因子受体)的全新蛋白 binder,用于潜在的癌症治疗应用。EGFR 在多种癌症中过表达,是重要的药物靶点。
EGFR 靶标分析:
解析 EGFR 蛋白结构特征(621 AA,胞外域关键结合位点)。
确定设计目标:针对 EGFR 胞外域设计小分子 binder。
识别关键结合界面和潜在的相互作用热点区域。
RFdiffusion Binder 设计实操:
输入 EGFR 结构 PDB 文件,指定目标结合区域。
设置 binder 长度范围、扩散步数等关键参数。
运行脚本生成 20-50 个候选 binder 骨架。
结果筛选与评估:
筛选策略实践:从生成结果中筛选出 3-5 个最优候选骨架,并进行可视化分析,检查结合界面的合理性。
模块六:序列生成
ProteinMPNN 序列设计:
针对筛选骨架进行序列优化:输入 RFdiffusion 生成的 top3 候选骨架,固定界面关键残基,优化其余位置。
参数调整与序列生成:设置合适的采样温度,每个骨架生成 10-20 条序列。
序列筛选与优化:分析 ProteinMPNN 评分和氨基酸组成,检查界面残基的化学性质,选择每个骨架的 top3 序列进入验证阶段。
AlphaFold3 结构验证:
序列折叠预测:将 ProteinMPNN 设计的序列提交 AlphaFold3 预测,评估 pLDDT 分数。
结构比对与验证:计算预测结构与 RFdiffusion 骨架的 RMSD(目标 < 2Å),在 PyMOL中叠加比对,检查界面保持情况。
课程总结与讨论
回顾完整设计流程:靶标分析 → 骨架生成 → 序列设计 → 结构验证。
讨论挑战与改进方向,介绍后续优化策略。
课程总结与 Q&A:
回顾两天课程的核心知识点与工作流。
探讨 AI 蛋白质设计的当前局限与未来发展方向。
提供进一步学习的资源和路径建议。
开放式问答环节,解决学员所有遗留问题。
结业证书
完成全部培训课程者由协会颁发培训证书
产业简报
2026年AI蛋白质设计前沿技术行业发展趋势简报
——基于"2026年AI蛋白质设计前沿技术实战培训班"的深度洞察
一、核心趋势:AI驱动蛋白质设计从实验室走向产业化
以AlphaFold2、ESM-2、RFdiffusion为代表的AI工具已将蛋白质设计从"经验试错"推进至"计算驱动"的新范式。据本次培训班(2026年6月,杭州)所设课程体系可见,行业已形成"环境搭建→序列分析→骨架生成→序列设计→结构验证"的完整技术闭环。这标志着AI蛋白质设计正从学术研究快速向产业应用渗透,尤其在靶向EGFR等药物靶点的全新结合蛋白设计上,已具备从概念到成品的全链路落地能力。
二、关键技术方向:三大工具定义新标准
| 技术方向 | 核心工具 | 产业价值 |
|---|---|---|
| 序列分析与特征提取 | ESM模型 | 快速解析蛋白功能位点,加速靶标发现 |
| 序列逆向设计 | ProteinMPNN | 给定骨架生成最优序列,提升设计成功率 |
| 骨架从头生成 | RFdiffusion | 从零创造全新蛋白结构,突破天然蛋白限制 |
本次培训班以"靶向EGFR的全新结合蛋白"为综合实战项目,正是上述三大技术融合应用的典型场景,反映出行业对全流程实战能力的迫切需求。
三、政策驱动因素:国家战略与产业规划深度融合
《"十四五"生物经济发展规划》明确将蛋白质设计列为生物制造关键技术;《新一代人工智能发展规划》持续支持AI+生物交叉领域。浙江省作为数字经济与生物医药双高地,杭州市已出台专项政策支持AI制药产业集群建设。本次会议选址杭州,恰与地方产业政策形成共振,体现了政策引导与技术落地的深度耦合。
四、产学研生态:多元主体协同加速转化
知名研究机构:DeepMind(AlphaFold)、Meta AI(ESM)、华盛顿大学(RFdiffusion/ProteinMPNN)、中国科学院相关课题组;
代表性企业:百图生科、分子之心、晶泰科技、中科凯晟(本次承办方)、药明康德AI部门;
行业组织:中国化工企业管理协会医药化工专业委员会(主办方),发挥桥梁作用推动技术下沉。
五、应用行业与就业机会
应用领域:创新药研发(抗体/结合蛋白设计)、酶工程(工业催化)、合成生物学、农业育种、材料科学。
热门岗位:AI蛋白质设计工程师、计算生物学研究员、AI药物发现科学家、生物信息算法工程师、蛋白质工程研发主管。据行业调研,该领域年薪中位数已达35-60万元,且供需缺口持续扩大。
六、企业行动建议
尽快布局AI蛋白质设计能力:本次培训班反映的"环境配置难、工作流整合难"正是企业自建团队的核心痛点,建议优先培养具备Linux+Conda+AI工具链的复合型人才;
参与实战培训快速上手:2026年6月杭州培训班以EGFR项目为载体,是低成本获取全流程实战经验的优质通道;
关注政策红利:结合国家生物经济规划与地方AI产业政策,积极申报相关项目获取资金支持。
会议简评
推荐指数 : 8
理由:该会议聚焦AI蛋白质设计这一当下极具前沿性和产业价值的热点方向,涵盖AlphaFold、ESM、ProteinMPNN、RFdiffusion等主流工具,且采用实战培训模式而非纯讲座,对初学者友好,有完整项目驱动,实用性强。主办单位为行业协会,承办为专业技术研究院,课程设计较为系统。扣分项主要在于:会议规模较小,主办/承办方非顶级学术机构,且缺乏明确的早鸟优惠等激励机制。
预估人数规模:80-150人
理由:属于专业技术实战培训班,受限于场地(杭州)和"参会名额有限"的表述,结合AI蛋白质设计属于细分但热门的交叉领域,目标人群主要为高校研究生、科研院所研究人员、药企研发人员等,预计在80至150人之间。
