Nature | 重新定义人类蛋白质组！微小蛋白与肽素（peptidein）拓展基因组编码版图

2026-05-27编辑：RiboNext

重新定义人类蛋白质组！微小蛋白与肽素（peptidein）拓展基因组编码版图

人类基因组中约19500个经典蛋白编码基因一直被视为生命功能的核心基础，然而大量来自非编码区域的非经典开放阅读框（ncORFs）所翻译的微小蛋白，长期被排除在标准注释之外。这些隐藏的翻译产物不仅构成了“暗蛋白质组”，更在疾病发生、免疫抗原呈递与细胞命运调控中扮演关键角色。近日，TransCODE联盟联合GENCODE、PeptideAtlas、HUPO-HPP等机构在Nature发表重磅研究，通过95520次质谱实验与多组学整合分析，系统解析了7264个ncORFs的翻译产物，建立了微小蛋白的标准化注释体系，并创新性提出肽素（peptidein）新概念，同时开发ORBL进化约束算法，首次在大规模层面证实大量非经典翻译产物具有真实生物学功能，为人类蛋白质组的扩容与疾病靶点开发提供了里程碑式资源。

人类蛋白质组的隐藏维度：非经典ORF翻译的科学困境

经典蛋白质组注释长期聚焦于长度较长、进化保守性高的编码基因，而来自lncRNA、上游区域、内含子与非编码转录本的ncORFs，因其长度短、传统保守性指标不显著、难以被常规质谱检出等问题，一直被排除在参考基因集之外。尽管近年研究不断发现，这类微小蛋白广泛参与细胞稳态、肿瘤发生与抗原呈递，但缺乏统一的证据标准、注释体系与功能验证流程，导致科学界无法界定哪些ncORFs真正编码功能性分子，也无法将其纳入药物靶点与疾病遗传机制研究。更关键的是，常规蛋白质鉴定流程对短肽极度不敏感，大量产物仅能以HLA呈递多肽的形式被观测，进一步加剧了认知偏差。这项研究正是为破解这一困境，由多领域联盟共同搭建了从质谱验证、进化约束、注释分级到功能筛选的完整体系。

肽图谱框架的构建

超大规模质谱构建：覆盖9.5万实验的非HLA与HLA蛋白质图谱

为系统捕捉ncORFs的翻译产物，研究团队构建了迄今为止规模最大的人类蛋白质组验证平台，整合35亿张非HLA质谱谱图与2.4亿张HLA免疫肽组谱图，覆盖295个数据集、8.5万次质谱运行，并以GENCODE注释的7264个ncORFs为搜索库，在严格的FDR＜0.1%标准下开展分析。在常规蛋白酶解质谱数据集中，研究共鉴定到484条高可信多肽，对应183个ncORFs；而在HLA免疫肽组数据集中，检出数量大幅提升，共获得3116条多肽，对应1785个ncORFs，接近总数的四分之一。结果显示，ncORFs来源的多肽94.3%仅由HLA-I呈递，提示其主要来源于细胞内翻译池，而非胞外环境，这一特征与经典蛋白显著不同，也解释了为何常规蛋白质组学难以对其实现稳定检出。

为避免假阳性并适配微小蛋白的特殊属性，团队对所有候选多肽进行人工图谱校验、Ribo-seq翻译信号验证、合成多肽平行反应监测（PRM）确认，并系统性校正了蛋白酶偏好带来的偏差。研究发现，传统HUPO-HPP标准要求的两条≥9氨基酸多肽、覆盖≥18氨基酸的规则，对微小蛋白极不友好，导致大量真实产物被过滤。在严格过滤后，研究最终确认66个ncORFs在常规质谱中具备高可信证据，同时在HLA数据中88.7%的候选均获得Ribo-seq支持，多次研究重复检出的ncORFs验证率更是高达96.1%。研究还证实，更换非胰蛋白酶蛋白酶可显著提升微小蛋白检出率，为后续实验提供了关键技术方案。

非人类白细胞抗原（non-HLA）与人类白细胞抗原（HLA）的肽图谱库构建

HLA呈递特征解析：决定微小蛋白可检测性的关键规律

团队对HLA呈递的微小蛋白多肽开展系统特征分析，揭示了一系列关键规律。相比于未被检出的ncORFs，被检出的ncORFs具有更高的等电点、更高的RNA表达量，且C端区域更易被加工呈递，富集程度显著高于经典蛋白。长度、序列疏水性与样本来源（癌症/非癌症）对检出率影响不大，但组织类型存在微弱差异，脊髓与子宫中ncORF来源肽比例略高，而胃组织略低，提示可能存在组织特异性的翻译调控。在HLA结合预测层面，ncORF来源多肽的结合率与经典蛋白无显著差异，94.8%的检测结果与预测一致，进一步证实其真实生物学来源。

ORBL进化新算法：突破传统保守性，量化“阅读框约束”

由于多数微小蛋白不具备经典蛋白的氨基酸序列保守性，传统PhyloCSF等工具难以评估其功能潜力。为此，研究团队创新开发ORBL（ORF relative branch length）方法，不依赖氨基酸序列，而是量化起始密码子、终止密码子与开放阅读框的跨物种保守性，并通过与同类型、同长度非翻译ORF比较，得到约束分数ORBLq。分析显示，30.4%的ncORFs具有显著的ORF水平约束，其中上游ORF（uORF）比例高达45.8%，远高于随机预期。更重要的是，能被HLA多肽检出的ncORFs，其ORBL约束分数显著更高，直接证明进化约束与真实翻译产物高度相关，为功能性注释提供了核心依据。

基于质谱、Ribo-seq、进化约束与功能证据，研究建立层级化注释体系，将ncORFs分为Tier 1A–4四个等级，并正式引入肽素（peptidein）这一全新分类，用于指代已证实翻译、但暂未满足经典蛋白注释标准的微小蛋白产物，填补了“已翻译但未定级”的注释空白。Tier 1A为满足标准的新蛋白，共15个，其中3个已被GENCODE正式标注为蛋白编码基因；Tier 1B/2A/2B为高可信肽素；Tier 3–4为证据不足的候选。研究最终完成121个肽素的初步注释，为后续功能挖掘与升级注释提供了统一框架。

使用胎盘哺乳动物评分的ORBL工具概述

功能基因组筛选：鉴定泛必需肽素，揭示细胞核心功能

为直接验证肽素的生理功能，团队在8种人类细胞系中对2000余个ncORFs开展CRISPR功能缺失筛选，并结合25组CRISPR数据进行荟萃分析，最终鉴定出51个具有泛必需表型的ncORFs，其中6个同时具备HLA多肽证据与高进化约束，属于优质蛋白/肽素候选。来自OLMALINC lncRNA的c10riboseqorf92是最具代表性的功能肽素，该123氨基酸产物在85.6%的癌细胞系中为必需基因，回补实验可完全逆转敲低导致的增殖缺陷。转录组与scRNA-seq分析显示，其调控有丝分裂、染色体分离、DNA损伤应答与代谢通路，是维持细胞存活的核心分子，尽管目前仅在肿瘤模型中得到验证，暂定为肽素，但其功能重要性已毋庸置疑。

研究进一步发现，部分功能性ncORFs具有跨物种翻译保守性，如GMCL1基因的uORF（c2riboseqorf47）在人类、非人灵长类、啮齿类中均存在稳定核糖体结合信号，证实其古老而保守的功能。利用AlphaFold3、ESMFold对所有微小蛋白进行结构预测显示，大量短肽具有高结构置信度，且序列特异性显著高于随机打乱序列，提示并非天然无序片段。其中36个ncORFs具有极高置信度的稳定结构，且随机打乱后无法重现，代表具有真实结构的功能性微小蛋白。

基于函数的ncORF标注细化

研究意义：重绘人类蛋白质组，开启疾病研究新方向

这项研究是人类非经典蛋白质组研究的里程碑工作，首次在联盟层面建立了微小蛋白的标准化注释、验证与功能解读体系，并将肽素正式引入生物学概念框架，解决了长达十余年的注释争议。研究将人类蛋白质组从经典编码区域大幅扩展至 lncRNA、uORF、内含子等非编码区域，证实四分之一的ncORFs可产生稳定翻译产物，且大量具备进化约束与细胞必需功能。在转化层面，这些产物是肿瘤新抗原、免疫治疗靶点、遗传病致病位点的重要来源，也为精准微生物组干预、小分子药物开发提供了全新靶点池。随着注释体系的持续完善，大量肽素将逐步升级为正式蛋白，彻底改写人类基因组的编码图景。

原文链接：https://doi.org/10.1038/s41586-026-10459-x

上一篇： Cell | D-SPIN：从单细胞扰动数据构建调控网络，解码细胞应答的核心组织原则
下一篇：没有了

最新资讯