范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

腾讯研究成果登Nature子刊scBERT攻克单细胞测序数据分析痛点

  机器之心报道
  编辑:泽南
  新研究成果对精准医疗打开了新路。
  AI 在科研领域再次展现了实力。最近,研究人员首次将 BERT 预训练和微调的范式引入单细胞转录组数据分析中。
  9 月 27 日,腾讯在人工智能、生命科学跨学科应用领域的最新研究成果《scBERT as a Large-scale Pretrained Deep Language Model for Cell Type Annotation of Single-cell RNA-seq Data》(《基于大规模预训练语言模型的单细胞转录组细胞类型注释算法》),登上了国际顶级学术期刊《Nature》子刊《Nature Machine Intelligence》。
  腾讯在论文中创新性地提出关于单细胞注释的「scBERT」算法模型,受到评审高度认可。专家表示,该成果对于单细胞转录组测序数据分析领域未来研究具有深远意义。
  单细胞测序技术是生命科学领域的一项革命性技术。可以细粒度地观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱(细胞表达),便于更好地了解肿瘤微环境,以达到精细分析病因、精准匹配治疗方案的效果,对于「精准医疗」具有极高的应用价值。
  值得注意的是,受数据样本量小、人工干预多、过度依赖 marker gene(已报道的特异性基因)等因素的影响,单细胞测序细胞类型注释技术一直面临着泛化性、可解释性、稳定性均比较低的问题,现存的算法难以有更广泛的应用。
  针对以上问题,新研究首次提出「基于大规模预训练语言模型的单细胞转录组细胞类型注释算法」,即「scBERT」模型,首次将「transformer」(自然语言处理算法经典计算单元)运用到单细胞转录组测序数据分析领域。该模型基于 BERT 范式,将细胞中基因的表达信息转化成可被计算机理解、学习的「语言」,并对细胞进行精准标注。
  BERT 在 NLP 领域革命性地应用了自监督预训练 - 微调的范式:通过 Transformer 为基本单元构成的大规模语言模型在海量文本数据上学习通用的语言知识,随后将该模型迁移至不同下游任务中,对模型参数进行微调,建立准确、高性能的模型。该方法在 NLP 领域取得广泛的成功。
  类似的,单细胞转录组也可以抽象为每个细胞内部基因转录的语言(表达谱),其中不同的基因之间存在共表达或者差异表达的模式,也可以理解为转录的语法(基因相互作用),类比于不同单词在一个句子里的关联关系。
  当前的单细胞转录分析方法,由于引入大量人工操作而倾向于过拟合,易受批次效应影响降低泛化性。腾讯等机构提出的方法充分利用大规模公开无标注的数据集,使得模型在预训练时见过不同来源、不同组织和不同测序技术的单细胞数据,更倾向于学到跨数据集、跨批次和跨组织的单细胞表达通用知识。
  如果能将这种通用知识迁移给下游特定任务,则可以降低对下游任务精标注数据的依赖,通过微调少量参数即可获得较为准确的模型。并且在多种组织和样本中具有较强的泛化性。
  在模型中,针对单细胞测序数据特点,研究人员提出了 gene embedding 和 expression embedding,把每个单细胞表达谱特异性转化为模型的输入。在自监督预训练阶段,模型通过随机对非零表达值进行 mask,随后通过基于 Performer 的编码器编码,将输出结果与未 mask 的模型输入计算重构损失。
  训练过程中,预训练好的模型参数被用于微调任务中模型相应参数的初始化,从而把大规模自监督学习到的单细胞表达通用知识传递给下游任务。在下游任务中,编码器输出传递给细胞类型分类器,通过基于少量有类型标签数据的训练,从而微调模型参数,获得精确的细胞类型注释模型。
  该方法实现了端到端优化,从原始表达谱出发,仅通过归一化,而不经过其他任何前处理和人工经验筛选基因,以数据驱动的方式建立了整套自动化注释工具。
  模型基于 Performer 单元具有强大的表征能力,通过自注意力机制学习到基因和基因之间的相互关系,并且对单细胞整个表达谱进行复杂的整体表征,因此仅仅通过模式识别的方式,而不输入 marker gene 即可取得超越所有 SOTA 算法的效果,并且对于高相似性的亚型也具有良好的识别能力。
  模型的自监督预训练对性能具有显著的提升,也降低了后续对精标注数据的依赖。据介绍,腾讯提出的方法全程不经过降维和特征选择,使得全基因组所有基因共同组成的表达谱被模型充分学习,并且可以通过自注意力机制学习到基因之间的相互作用,以及每个基因对预测结果的贡献程度。
  为了保证全基因组内基因级别的可解释性,scBERT 在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息。此外,该模型复用了大规模的公开数据集,包含不同实验来源、批次和组织类型的单细胞数据,以保证模型能学习到更为「通用」的知识,精准捕获单个基因的表达信息及两两基因之间的作用关系。
  新模型可以定位到每个细胞的关键基因,富集分析证明了每种细胞类型对应的关键基因确实行使细胞特异性生物学功能。经统计分析和可视化验证,每种细胞类型对应的关键基因确实在该细胞类型中显著表达,其中包含已报道的 marker 基因以及未经报道的 novel marker gene。
  从结果上来看,scBERT 实现了高解释性、高泛化性、高稳定性的单细胞类型注释技术。截至目前,通过了 9 个独立数据集、超过 50 万个细胞、覆盖 17 种主要人体器官和主流测序技术组成的大规模 benchmarking 测试数据集上,该算法模型的优越性均得以验证。其中,在极具挑战的外周血细胞亚型细分任务上,相较现有最优方法的 70% 准确度提升了 7%。
  单细胞转录组测序技术在 2013 年被 Nature Method 评为 Method of the Year,而单细胞多组学技术 2020 年也被 Nature Method 评委 Method of the Year。单细胞 RNA 测序在过去十年中已被证明是生命科学领域的一项革命性技术。通过单细胞 RNA 测序可以以前所未有的粒度观察和刻画各个物种中组织、器官和有机体中单细胞分子图谱,对于探索生命的奥秘和数字化生命具有重要作用。
  在应用价值层面,该技术能给细胞中的每个基因都印上专属「身份证」,用于临床单细胞测序数据,并辅助医生描述准确的肿瘤微环境、检测出微量癌细胞,从而实现个性化治疗方案或者癌症早筛。同时,它对疾病致病机制分析、耐药性、药物靶点发现、预后分析、免疫疗法设计等领域都具有极其重要的作用。
  据了解,《Nature Machine Intelligence》只关注对该领域具有重要影响的科研成果。因其严格的评审标准,每年收录论文数量平均仅 60 篇左右。目前该期刊在计算机科学 - 人工智能领域和跨学科应用领域影响因子排名第一(IF: 25.898)。
  此前,腾讯 AI Lab 团队科研成果曾多次入选《Nature Communications》、ACL-IJCNLP 等国际权威期刊,实验室强调研究与应用并重发展。未来,腾讯会继续基于自身先进 AI 技术的积累,与下游临床、制药和生命科学基础研究领域进行密切合作,为行业贡献更多价值。
  未来,腾讯会继续基于自身先进 AI 技术的积累,与下游临床、制药和生命科学基础研究领域进行密切合作,为行业贡献更多价值。
  参考链接:
  https://www.biorxiv.org/content/10.1101/2021.12.05.471261v3

大连队递补进中超,教练组或迎三功勋助阵,昔日鲁能看好之人在列大连队在官宣递补获得中超参赛资格后,球迷就非常开心。因为,大连队要是真刀实枪地在中甲要完成冲超任务,并不是一件容易的事情。大连队在上赛季中超表现不佳,球队最终黯然降级到了中甲。大连虚拟货币买真火箭?马斯克SpaceX将支持狗狗币支付CNMO新闻马斯克表示,他的航空航天公司SpaceX很快将接受狗狗币作为商品的支付选项。而特斯拉早从1月份开始,就已经接受了这种支付方式。马斯克经常直言不讳地支持一些加密货币,他在黑客帝国降临!埋入1万微米电极窃听大脑,马斯克脑机将植入人体编辑时光拉燕桃子新智元导读黑客帝国已经离我们不远了!近日,比利时纳米数字研究机构Imec升级了Neuropixels探测器新版本,即建立一种新的探针,以神经元水平观察活体大脑。你脑陈磊时代的拼多多转型技术驱动,重仓农业成效初现作者丨布林编辑丨木鱼出品丨壹览商业字数丨1875阅读时间丨5分钟北京时间5月17日晚间,拼多多公布了2022年第一季度财报。财报显示,拼多多在今年第一季度实现营收237。94亿元,2022年养老金18连涨在即,养老金将取消与工龄挂钩?这可行吗?我国即将在6月份正式公布今年的养老金涨幅标准,这也意味着我国将实现养老金的18连涨,众所周知,自从2005年我国开始上涨养老金之后,时至今日已经到了第18个年头,很多退休人员拿到手你的养老金够花了吗?养老有道据数据显示,目前全国退休人员平均养老金为3000元,这些钱够花了吗?很多家庭,两位老人都有退休金,那么这样加起来就有六千多了,对于老年人的日常生活看病医疗等应该是足够了。当全球粮食安全告急!(附股)策略探路,思维先行,重视粮食安全板块全球粮食安全危机已经越来越严重。疫情气候俄乌冲突三重因素叠加,全球粮食价格从2020年开始就持续飙涨,2020年以来大豆价格涨幅74,玉米100领取过失业金并享受社保补贴,离退休不足一年可申请失业金吗?自己曾经领取过失业金的待遇,并且现在正在享受4050的社保补贴待遇。现在离法定退休年龄不足一年的时间了,还可以申请失业金吗?曾经享受过失业金的个人也是可以再申请失业金的。我们并不会刚刚,又一弊端爆发,下周,股市情况不妙?本周的股市明显走出了一波震荡调整的行情,上证指数虽然走出了先抑后扬的行情,但是,总归还是下跌了,只不过跌幅并不大,只有0。52而已,倒是创业板显得十分疲软。因为,创业板本周一共下跌美媒中国不能撼动苹果地位!国产手机全球第一,真我有我苹果手机又要发布新机型了!虽然很多人依然会连夜排队抢购,但更多的国人早已看出它的本来面目苹果为了不断卖出新产品,用暗门进行限速,让老型号越来越慢,倒逼老用户受不了后不得不换新手机。华为nova10系列加速曝光,华为nova9价比老人机,超低价致敬为了让手机支持5G功能,华为很可能会为该机推出专属手机壳。或许这是目前华为手机实现5G网络的唯一途径。华为nova10系列不确定是否支持5G功能。值得一提的是,由于华为nova10
原神明明挂水不如满命行秋,为什么大多数人都说夜兰是必抽卡?水系向来是原神中争议最大的元素,几乎每一个水系角色,都能引起激烈的讨论。通常来说,我们判断一个限定5星强度是否合格,要和满命4星的下位替代做对比。比如同样是水系奶妈,心海的治疗量不游戏防封?端口?是什么呢?有什么用呢?头条创作挑战赛相信我们的小伙伴们打游戏时碰到过外挂吧?大家有没有一个疑惑?为什么他们开高科技这么明显却不被封号呢?这就归功于一个叫做防封端口的东西了防封端口防封端口这个时候小伙伴们老王一本送走18技能净台,这个组队成就你发现了么?就梦幻西游的高端PK来说,净台绝对是胚子的核心技能,有没有完全是两个价值。不过,老王在近期的直播,就上演了一出大家喜欢的剧本。下面,就带大家一起去看看吧!一猴哥为了招队友有多努力?2022重庆各区县GDP公布,千亿级区已有11个,你的家乡排第几?头条创作挑战赛重庆作为我国第四大直辖市,2022年的GDP让人赞叹,先超越了我国超一线城市广州,又甩开了云南辽宁等省份,未来可能追上陕西省和江西省也不一定。2022年重庆市GDP高重庆激发新动能推进双城经济圈建设央视网消息(新闻联播)今年,重庆加速培育特色产业集群,全面推进成渝地区双城经济圈建设。一开年,重庆两江新区占地近千亩的国内最大固态电池生产基地一派繁忙,该项目建成后将加速推进重庆新非婚生子合法化给所有生命以尊重,或降低人工流产率,确有进步面我国卫健委发布的中国卫生健康统计年鉴(2020)显示我国2019年人工流产人数是976。2万。这仅仅是正规医院有记录的数据,加上一些私人诊所等不在记录内的预计超过1000万,有人预感恩生命中的一年四季又是一年转角的春天,在过去的一年四季中,我们有春天播种地欢乐有夏天挥洒汗水得奋斗也有秋季殷实的收获更有冬季萧瑟瑟寒风吹得苦涩。这年复一年的四季让我们彼此携手一起走过了岁月的灿烂和阴正月十五元宵节,除了汤圆还要吃6种吉祥美食,老传统不能丢时间一晃就来到了正月十五元宵节,它又叫上元节元夕或者灯节。它是继除夕后的第一个重要传统节日,民间常说没出十五都是年,所以十五是春节的一部分,承担着收尾工作。元宵节是一年中第一个月圆荷兰超模丽安范龙佩,诺悠翩雅2023新品系列宣传摄影意大利高级羊绒品牌诺悠翩雅(LoroPiana)开启了品牌新系列的巡游活动。此次2023新品巡游地为意大利。活动从皮埃蒙特出发,在托斯卡纳和波托菲诺稍作停留,然后再到埃奥利安群岛。DianaVreeland我身上的每一处都与时尚有关假如有牙缝,就让牙缝成为最美的特点身材高的话,就穿高跟鞋尽量更高你有个长脖子?引以为傲吧,别弯腰驼背鼻子凸出?抬头让它成为你的标志!DianaVreeland她的名字在时尚界如同数迎战韩流,收复失地!中国明星又要走出国门杀回时装周!时装周向来都是明星们争奇斗艳的名利场,中国明星更是四大国际时装周的常客。最近网上就传出即将有一大拨儿明星又要走出国门杀回时装周!图片来源网络,侵删就网传名单来看,肖战刘亦菲迪丽热巴