谷歌中国开发者社区 (GDG)
  • 主页
  • 博客
    • Android
    • Design
    • GoogleCloud
    • GoogleMaps
    • GooglePlay
    • Web
  • 社区
    • 各地社区
    • 社区历史
    • GDG介绍
    • 社区通知
  • 视频
  • 资源
    • 资源汇总
    • 精选视频
    • 优酷频道

DeepVariant:利用深度神经网络重构高度精确的基因组

2017-12-27adminGoogleDevFeedsNo comments

发布人:Google Brain 团队 Mark DePristo 和 Ryan Poplin

(在 Google 开放源代码博客上交叉发布)

在许多科学领域,特别是基因组学领域,重大突破通常都是由新技术带来的。从让人类基因组测序成为可能的 Sanger 测序到实现首批大规模全基因组实验的微阵列技术,新的仪器和工具使我们能够更深入地了解基因组,并将研究成果广泛应用于医疗、农业和生态学等领域。

基因组学中最具变革性的新技术之一是高通量测序技术 (HTS),这项技术在 21 世纪初首次实现商业化应用。HTS 让科学家和临床医生能够以较低成本快速地大规模生成测序数据。不过,HTS 仪器的输出并不是被分析个体的基因组序列 – 对于人类来说,这意味着 30 亿个碱基对(鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶)组成的 23 对染色体。相反,这些仪器产生的是大约 10 亿个短序列,称为 read。每个 read 仅代表 30 亿个碱基中的 100 个,每个碱基的错误率在 0.1-10% 的范围内。将 HTS 输出处理成单一、准确且完整的基因组序列是一项主要的突出挑战。这个问题在生物医学应用领域尤其重要,这促使瓶中基因组联盟 (GIAB) 等组织不断努力,GIAB 发布了可用于验证和基准测试的高可信度人类参考基因组,还组织了 precisionFDA 社区挑战赛,这项比赛旨在促进创新,提高基于 HTS 的基因组检测的质量和准确性。

对于基因组中的任何给定位置,在大约 10 亿个 read 中有多个 read 包含该位置的一个碱基。每个 read 与一个参考碱基对齐,然后将 read 中的每个碱基与该位置的参考碱基进行比较。当 read 包含一个与参考碱基不同的碱基时,它可能表示一个变异(真实序列的差异),也可能是错误。

今天,我们宣布 DeepVariant 的开放源代码版本,它是一种深度学习技术,可以从 HTS 测序仪数据中重构真实的基因组序列,与以前的经典方法相比,准确性显著提高。这项工作是 Google Brain 团队与 Verily Life Sciences 合作进行两年多研究的成果。DeepVariant 将变异识别任务(即基因组中的重构问题)转化为适合 Google 现有技术和专业知识的图像分类问题。

以上 4 个图像都是与参考基因组对齐的实际测序仪 read 的可视化。一个关键的问题是如何使用这些 read 来确定变异存在于两条染色体上,仅存在于一条染色体上,还是在两条染色体上都不存在。有不只一种类型的变异,其中 SNP 和插入/缺失变异最常见。A:一对染色体上真实的 SNP;B:在一条染色体上缺失;C:在两条染色体上缺失;D:由于错误引起的假变异。使用这种方式进行可视化时,很容易看出这些变异的差别。

我们从 GIAB 参考基因组开始,因为它提供了高质量的真实值(或者当前可能的最接近近似值)。使用这些基因组的多个重复,我们以编码 HTS 仪器数据的多通道张量形式生成了数千万个训练样本,然后训练基于 TensorFlow 的图像分类模型,以便从仪器生成的实验数据中识别出真实的基因组序列。尽管由此产生的深度学习模型 DeepVariant 没有关于基因组学或 HTS 的专业知识,但在一年时间内,它已经赢得了 precisionFDA Truth Challenge 挑战赛的最高 SNP 准确率奖,超越了最先进的方法。自那以后,我们进一步将错误率降低了 50% 以上。

DeepVariant 现在作为开放源代码软件发布,旨在鼓励协作和加速使用这项技术来解决现实世界的问题。为了进一步实现这个目标,我们与 Google Cloud Platform (GCP) 合作,在 GCP 上部署了当前可供使用的 DeepVariant 工作流程,利用可扩展的 GCP 技术(如 Pipelines API)优化配置,降低成本并缩短周期。这一发布让用户可以在当前的计算环境中顺利地探索和评估 DeepVariant 的功能,同时我们还提供了可扩展的云解决方案,以满足最大基因组数据集的需求。

DeepVariant 将率先利用 Google 的计算基础设施和机器学习专业知识来更好地理解基因组,以及为研究社区提供基于深度学习的基因组学工具。我们希望将 Google 技术应用于医疗保健和其他科学应用,并让更多人利用这些工作成果,目前的工作是这一宏伟目标的一部分。 <!—->

Source: DeepVariant:利用深度神经网络重构高度精确的基因组

除非特别声明,此文章内容采用知识共享署名 3.0许可,代码示例采用Apache 2.0许可。更多细节请查看我们的服务条款。

Tags: Develop

Related Articles

AMP Cache Updates

2016-12-06admin

Empowering a new generation of localization professionals

2017-06-01admin

Introducing the AIY Vision Kit: Add computer vision to your maker projects

2017-11-30admin

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

Recent Posts

  • Introducing the CVPR 2018 On-Device Visual Intelligence Challenge
  • Kubernetes best practices: How and why to build small container images
  • DeepVariant Accuracy Improvements for Genetic Datatypes
  • Congratulations to our US Grow with Google Developer Scholars!
  • Cloud SQL for PostgreSQL now generally available and ready for your production workloads

Recent Comments

  • 鸿维 on Google 帐号登录 API 更新
  • admin on 推出 CVPR 2018 学习图像压缩挑战赛
  • Henry Chen on 推出 CVPR 2018 学习图像压缩挑战赛
  • 王中 on Google 推出的 31 套在线课程
  • Francis Wang on Google 推出的 31 套在线课程

Archives

  • April 2018
  • March 2018
  • February 2018
  • January 2018
  • December 2017
  • November 2017
  • October 2017
  • September 2017
  • August 2017
  • July 2017
  • June 2017
  • May 2017
  • April 2017
  • March 2017
  • February 2017
  • January 2017
  • December 2016
  • November 2016
  • October 2016
  • September 2016
  • August 2016
  • May 2016
  • April 2016
  • March 2016
  • February 2016
  • January 2016
  • December 2015
  • November 2015
  • October 2015
  • September 2015
  • August 2015
  • July 2015
  • June 2015
  • January 1970

Categories

  • Android
  • Design
  • Firebase
  • GoogleCloud
  • GoogleDevFeeds
  • GoogleMaps
  • GooglePlay
  • Google动态
  • iOS
  • Uncategorized
  • VR
  • Web
  • WebMaster
  • 社区
  • 通知

Meta

  • Register
  • Log in
  • Entries RSS
  • Comments RSS
  • WordPress.org

最新文章

  • Introducing the CVPR 2018 On-Device Visual Intelligence Challenge
  • Kubernetes best practices: How and why to build small container images
  • DeepVariant Accuracy Improvements for Genetic Datatypes
  • Congratulations to our US Grow with Google Developer Scholars!
  • Cloud SQL for PostgreSQL now generally available and ready for your production workloads
  • Exploring container security: Protecting and defending your Kubernetes Engine network
  • BigQuery arrives in the Tokyo region
  • What’s new in Firebase Authentication?
  • Showcase your innovations at the 2018 China-US Young Makers Competition
  • Protecting WebView with Safe Browsing

最多查看

  • 谷歌招聘软件工程师 (19,918)
  • Google 推出的 31 套在线课程 (18,087)
  • 如何选择 compileSdkVersion, minSdkVersion 和 targetSdkVersion (14,903)
  • Seti UI 主题: 让你编辑器焕然一新 (11,117)
  • Android Studio 2.0 稳定版 (8,419)
  • Android N 最初预览版:开发者 API 和工具 (7,752)
  • 像 Sublime Text 一样使用 Chrome DevTools (5,611)
  • Google I/O 2016: Android 演讲视频汇总 (5,387)
  • 用 Google Cloud 打造你的私有免费 Git 仓库 (4,896)
  • 面向普通开发者的机器学习应用方案 (4,734)
  • 生还是死?Android 进程优先级详解 (4,709)
  • 面向 Web 开发者的 Sublime Text 插件 (4,002)
  • 适配 Android N 多窗口特性的 5 个要诀 (3,838)
  • 参加 Google I/O Extended,观看 I/O 直播,线下聚会! (3,419)
© 2018 中国谷歌开发者社区 - ChinaGDG