Menu
首页基因学苑行业资讯

Nature | 重新定义人类蛋白质组!微小蛋白与肽素(peptidein)拓展基因组编码版图

2026-05-27编辑:RiboNext

重新定义人类蛋白质组!微小蛋白与肽素(peptidein)拓展基因组编码版图

人类基因组中约19500个经典蛋白编码基因一直被视为生命功能的核心基础,然而大量来自非编码区域的非经典开放阅读框(ncORFs)所翻译的微小蛋白,长期被排除在标准注释之外。这些隐藏的翻译产物不仅构成了暗蛋白质组,更在疾病发生、免疫抗原呈递与细胞命运调控中扮演关键角色。近日,TransCODE联盟联合GENCODEPeptideAtlasHUPO-HPP等机构在Nature发表重磅研究,通过95520次质谱实验多组学整合分析,系统解析了7264ncORFs的翻译产物,建立了微小蛋白的标准化注释体系,并创新性提出肽素(peptidein新概念,同时开发ORBL进化约束算法,首次在大规模层面证实大量非经典翻译产物具有真实生物学功能,为人类蛋白质组的扩容与疾病靶点开发提供了里程碑式资源。

ff3ab020-c7a6-428c-81a9-57c1870d9d1b.png

人类蛋白质组的隐藏维度:非经典ORF翻译的科学困境

经典蛋白质组注释长期聚焦于长度较长、进化保守性高的编码基因,而来自lncRNA、上游区域、内含子与非编码转录本的ncORFs,因其长度短、传统保守性指标不显著、难以被常规质谱检出等问题,一直被排除在参考基因集之外。尽管近年研究不断发现,这类微小蛋白广泛参与细胞稳态、肿瘤发生与抗原呈递,但缺乏统一的证据标准、注释体系与功能验证流程,导致科学界无法界定哪些ncORFs真正编码功能性分子,也无法将其纳入药物靶点与疾病遗传机制研究。更关键的是,常规蛋白质鉴定流程对短肽极度不敏感,大量产物仅能以HLA呈递多肽的形式被观测,进一步加剧了认知偏差。这项研究正是为破解这一困境,由多领域联盟共同搭建了从质谱验证、进化约束、注释分级到功能筛选的完整体系。

b35a5657-1693-4b70-bbc7-792effa9c9b5.png

 肽图谱框架的构建

超大规模质谱构建:覆盖9.5万实验的非HLAHLA蛋白质图谱

为系统捕捉ncORFs的翻译产物,研究团队构建了迄今为止规模最大的人类蛋白质组验证平台,整合35亿张非HLA质谱谱图2.4亿张HLA免疫肽组谱图,覆盖295个数据集、8.5万次质谱运行,并以GENCODE注释的7264ncORFs为搜索库,在严格的FDR0.1%标准下开展分析。在常规蛋白酶解质谱数据集中,研究共鉴定到484条高可信多肽,对应183ncORFs;而在HLA免疫肽组数据集中,检出数量大幅提升,共获得3116条多肽,对应1785ncORFs,接近总数的四分之一。结果显示,ncORFs来源的多肽94.3%仅由HLA-I呈递,提示其主要来源于细胞内翻译池,而非胞外环境,这一特征与经典蛋白显著不同,也解释了为何常规蛋白质组学难以对其实现稳定检出。

为避免假阳性并适配微小蛋白的特殊属性,团队对所有候选多肽进行人工图谱校验、Ribo-seq翻译信号验证、合成多肽平行反应监测(PRM)确认,并系统性校正了蛋白酶偏好带来的偏差。研究发现,传统HUPO-HPP标准要求的两条≥9氨基酸多肽、覆盖≥18氨基酸的规则,对微小蛋白极不友好,导致大量真实产物被过滤。在严格过滤后,研究最终确认66ncORFs在常规质谱中具备高可信证据,同时在HLA数据中88.7%的候选均获得Ribo-seq支持,多次研究重复检出的ncORFs验证率更是高达96.1%。研究还证实,更换非胰蛋白酶蛋白酶可显著提升微小蛋白检出率,为后续实验提供了关键技术方案。

693b1318-f42c-4b8e-97ad-c3b6a1b93bb5.png

非人类白细胞抗原non-HLA与人类白细胞抗原HLA的肽图谱库构建

HLA呈递特征解析:决定微小蛋白可检测性的关键规律

团队对HLA呈递的微小蛋白多肽开展系统特征分析,揭示了一系列关键规律。相比于未被检出的ncORFs,被检出的ncORFs具有更高的等电点、更高的RNA表达量,且C端区域更易被加工呈递,富集程度显著高于经典蛋白。长度、序列疏水性与样本来源(癌症/非癌症)对检出率影响不大,但组织类型存在微弱差异,脊髓与子宫中ncORF来源肽比例略高,而胃组织略低,提示可能存在组织特异性的翻译调控。在HLA结合预测层面,ncORF来源多肽的结合率与经典蛋白无显著差异,94.8%的检测结果与预测一致,进一步证实其真实生物学来源。

ORBL进化新算法:突破传统保守性,量化阅读框约束

由于多数微小蛋白不具备经典蛋白的氨基酸序列保守性,传统PhyloCSF等工具难以评估其功能潜力。为此,研究团队创新开发ORBLORF relative branch length方法,不依赖氨基酸序列,而是量化起始密码子、终止密码子与开放阅读框的跨物种保守性,并通过与同类型、同长度非翻译ORF比较,得到约束分数ORBLq。分析显示,30.4%ncORFs具有显著的ORF水平约束,其中上游ORFuORF)比例高达45.8%,远高于随机预期。更重要的是,能被HLA多肽检出的ncORFs,其ORBL约束分数显著更高,直接证明进化约束与真实翻译产物高度相关,为功能性注释提供了核心依据。

基于质谱、Ribo-seq、进化约束与功能证据,研究建立层级化注释体系,将ncORFs分为Tier 1A–4四个等级,并正式引入肽素(peptidein这一全新分类,用于指代已证实翻译、但暂未满足经典蛋白注释标准的微小蛋白产物,填补了已翻译但未定级的注释空白。Tier 1A为满足标准的新蛋白,共15,其中3个已被GENCODE正式标注为蛋白编码基因Tier 1B/2A/2B为高可信肽素;Tier 3–4为证据不足的候选。研究最终完成121个肽素的初步注释,为后续功能挖掘与升级注释提供了统一框架。 

a3cbca45-30fe-412a-87c6-b0de15e22335.png

使用胎盘哺乳动物评分的ORBL工具概述

功能基因组筛选:鉴定泛必需肽素,揭示细胞核心功能

为直接验证肽素的生理功能,团队在8种人类细胞系中对2000余个ncORFs开展CRISPR功能缺失筛选,并结合25CRISPR数据进行荟萃分析,最终鉴定出51个具有泛必需表型ncORFs,其中6同时具备HLA多肽证据与高进化约束,属于优质蛋白/肽素候选。来自OLMALINC lncRNAc10riboseqorf92是最具代表性的功能肽素,该123氨基酸产物在85.6%的癌细胞系中为必需基因,回补实验可完全逆转敲低导致的增殖缺陷。转录组与scRNA-seq分析显示,其调控有丝分裂、染色体分离、DNA损伤应答与代谢通路,是维持细胞存活的核心分子,尽管目前仅在肿瘤模型中得到验证,暂定为肽素,但其功能重要性已毋庸置疑。

研究进一步发现,部分功能性ncORFs具有跨物种翻译保守性,如GMCL1基因的uORFc2riboseqorf47)在人类、非人灵长类、啮齿类中均存在稳定核糖体结合信号,证实其古老而保守的功能。利用AlphaFold3ESMFold对所有微小蛋白进行结构预测显示,大量短肽具有高结构置信度,且序列特异性显著高于随机打乱序列,提示并非天然无序片段。其中36ncORFs具有极高置信度的稳定结构,且随机打乱后无法重现,代表具有真实结构的功能性微小蛋白。

0e420d3b-b9e5-4f39-a2ba-e76779ae2504.png

基于函数的ncORF标注细化

研究意义:重绘人类蛋白质组,开启疾病研究新方向

这项研究是人类非经典蛋白质组研究的里程碑工作,首次在联盟层面建立了微小蛋白的标准化注释、验证与功能解读体系,并将肽素正式引入生物学概念框架,解决了长达十余年的注释争议。研究将人类蛋白质组从经典编码区域大幅扩展至 lncRNAuORF、内含子等非编码区域,证实四分之一的ncORFs可产生稳定翻译产物,且大量具备进化约束与细胞必需功能。在转化层面,这些产物是肿瘤新抗原、免疫治疗靶点、遗传病致病位点的重要来源,也为精准微生物组干预、小分子药物开发提供了全新靶点池。随着注释体系的持续完善,大量肽素将逐步升级为正式蛋白,彻底改写人类基因组的编码图景。

原文链接:https://doi.org/10.1038/s41586-026-10459-x