重新定义人类蛋白质组!微小蛋白与肽素(peptidein)拓展基因组编码版图
人类基因组中约19500个经典蛋白编码基因一直被视为生命功能的核心基础,然而大量来自非编码区域的非经典开放阅读框(ncORFs)所翻译的微小蛋白,长期被排除在标准注释之外。这些隐藏的翻译产物不仅构成了“暗蛋白质组”,更在疾病发生、免疫抗原呈递与细胞命运调控中扮演关键角色。近日,TransCODE联盟联合GENCODE、PeptideAtlas、HUPO-HPP等机构在Nature发表重磅研究,通过95520次质谱实验与多组学整合分析,系统解析了7264个ncORFs的翻译产物,建立了微小蛋白的标准化注释体系,并创新性提出肽素(peptidein)新概念,同时开发ORBL进化约束算法,首次在大规模层面证实大量非经典翻译产物具有真实生物学功能,为人类蛋白质组的扩容与疾病靶点开发提供了里程碑式资源。

经典蛋白质组注释长期聚焦于长度较长、进化保守性高的编码基因,而来自lncRNA、上游区域、内含子与非编码转录本的ncORFs,因其长度短、传统保守性指标不显著、难以被常规质谱检出等问题,一直被排除在参考基因集之外。尽管近年研究不断发现,这类微小蛋白广泛参与细胞稳态、肿瘤发生与抗原呈递,但缺乏统一的证据标准、注释体系与功能验证流程,导致科学界无法界定哪些ncORFs真正编码功能性分子,也无法将其纳入药物靶点与疾病遗传机制研究。更关键的是,常规蛋白质鉴定流程对短肽极度不敏感,大量产物仅能以HLA呈递多肽的形式被观测,进一步加剧了认知偏差。这项研究正是为破解这一困境,由多领域联盟共同搭建了从质谱验证、进化约束、注释分级到功能筛选的完整体系。

肽图谱框架的构建
为系统捕捉ncORFs的翻译产物,研究团队构建了迄今为止规模最大的人类蛋白质组验证平台,整合35亿张非HLA质谱谱图与2.4亿张HLA免疫肽组谱图,覆盖295个数据集、8.5万次质谱运行,并以GENCODE注释的7264个ncORFs为搜索库,在严格的FDR<0.1%标准下开展分析。在常规蛋白酶解质谱数据集中,研究共鉴定到484条高可信多肽,对应183个ncORFs;而在HLA免疫肽组数据集中,检出数量大幅提升,共获得3116条多肽,对应1785个ncORFs,接近总数的四分之一。结果显示,ncORFs来源的多肽94.3%仅由HLA-I呈递,提示其主要来源于细胞内翻译池,而非胞外环境,这一特征与经典蛋白显著不同,也解释了为何常规蛋白质组学难以对其实现稳定检出。
为避免假阳性并适配微小蛋白的特殊属性,团队对所有候选多肽进行人工图谱校验、Ribo-seq翻译信号验证、合成多肽平行反应监测(PRM)确认,并系统性校正了蛋白酶偏好带来的偏差。研究发现,传统HUPO-HPP标准要求的两条≥9氨基酸多肽、覆盖≥18氨基酸的规则,对微小蛋白极不友好,导致大量真实产物被过滤。在严格过滤后,研究最终确认66个ncORFs在常规质谱中具备高可信证据,同时在HLA数据中88.7%的候选均获得Ribo-seq支持,多次研究重复检出的ncORFs验证率更是高达96.1%。研究还证实,更换非胰蛋白酶蛋白酶可显著提升微小蛋白检出率,为后续实验提供了关键技术方案。

非人类白细胞抗原(non-HLA)与人类白细胞抗原(HLA)的肽图谱库构建
团队对HLA呈递的微小蛋白多肽开展系统特征分析,揭示了一系列关键规律。相比于未被检出的ncORFs,被检出的ncORFs具有更高的等电点、更高的RNA表达量,且C端区域更易被加工呈递,富集程度显著高于经典蛋白。长度、序列疏水性与样本来源(癌症/非癌症)对检出率影响不大,但组织类型存在微弱差异,脊髓与子宫中ncORF来源肽比例略高,而胃组织略低,提示可能存在组织特异性的翻译调控。在HLA结合预测层面,ncORF来源多肽的结合率与经典蛋白无显著差异,94.8%的检测结果与预测一致,进一步证实其真实生物学来源。
由于多数微小蛋白不具备经典蛋白的氨基酸序列保守性,传统PhyloCSF等工具难以评估其功能潜力。为此,研究团队创新开发ORBL(ORF relative branch length)方法,不依赖氨基酸序列,而是量化起始密码子、终止密码子与开放阅读框的跨物种保守性,并通过与同类型、同长度非翻译ORF比较,得到约束分数ORBLq。分析显示,30.4%的ncORFs具有显著的ORF水平约束,其中上游ORF(uORF)比例高达45.8%,远高于随机预期。更重要的是,能被HLA多肽检出的ncORFs,其ORBL约束分数显著更高,直接证明进化约束与真实翻译产物高度相关,为功能性注释提供了核心依据。
基于质谱、Ribo-seq、进化约束与功能证据,研究建立层级化注释体系,将ncORFs分为Tier 1A–4四个等级,并正式引入肽素(peptidein)这一全新分类,用于指代已证实翻译、但暂未满足经典蛋白注释标准的微小蛋白产物,填补了“已翻译但未定级”的注释空白。Tier 1A为满足标准的新蛋白,共15个,其中3个已被GENCODE正式标注为蛋白编码基因;Tier 1B/2A/2B为高可信肽素;Tier 3–4为证据不足的候选。研究最终完成121个肽素的初步注释,为后续功能挖掘与升级注释提供了统一框架。

使用胎盘哺乳动物评分的ORBL工具概述
为直接验证肽素的生理功能,团队在8种人类细胞系中对2000余个ncORFs开展CRISPR功能缺失筛选,并结合25组CRISPR数据进行荟萃分析,最终鉴定出51个具有泛必需表型的ncORFs,其中6个同时具备HLA多肽证据与高进化约束,属于优质蛋白/肽素候选。来自OLMALINC lncRNA的c10riboseqorf92是最具代表性的功能肽素,该123氨基酸产物在85.6%的癌细胞系中为必需基因,回补实验可完全逆转敲低导致的增殖缺陷。转录组与scRNA-seq分析显示,其调控有丝分裂、染色体分离、DNA损伤应答与代谢通路,是维持细胞存活的核心分子,尽管目前仅在肿瘤模型中得到验证,暂定为肽素,但其功能重要性已毋庸置疑。
研究进一步发现,部分功能性ncORFs具有跨物种翻译保守性,如GMCL1基因的uORF(c2riboseqorf47)在人类、非人灵长类、啮齿类中均存在稳定核糖体结合信号,证实其古老而保守的功能。利用AlphaFold3、ESMFold对所有微小蛋白进行结构预测显示,大量短肽具有高结构置信度,且序列特异性显著高于随机打乱序列,提示并非天然无序片段。其中36个ncORFs具有极高置信度的稳定结构,且随机打乱后无法重现,代表具有真实结构的功能性微小蛋白。

基于函数的ncORF标注细化
这项研究是人类非经典蛋白质组研究的里程碑工作,首次在联盟层面建立了微小蛋白的标准化注释、验证与功能解读体系,并将肽素正式引入生物学概念框架,解决了长达十余年的注释争议。研究将人类蛋白质组从经典编码区域大幅扩展至 lncRNA、uORF、内含子等非编码区域,证实四分之一的ncORFs可产生稳定翻译产物,且大量具备进化约束与细胞必需功能。在转化层面,这些产物是肿瘤新抗原、免疫治疗靶点、遗传病致病位点的重要来源,也为精准微生物组干预、小分子药物开发提供了全新靶点池。随着注释体系的持续完善,大量肽素将逐步升级为正式蛋白,彻底改写人类基因组的编码图景。
原文链接:https://doi.org/10.1038/s41586-026-10459-x