中国医疗数据创业有4大方向可走出独有特色

发布时间：2016-08-22 04:36:19 所属栏目：动态来源：网易科技

导读：（原标题：中国医疗数据创业的4大方向）（本文来自微信公众号“峰瑞资本”（微信号：freesvc），本文作者谭验、王蕾）医疗行业是数据密集型产业，数据积累亘古存在。然而，

（原标题：中国医疗数据创业的4大方向）

undefined

（本文来自微信公众号“峰瑞资本”（微信号：freesvc），本文作者谭验、王蕾）

医疗行业是数据密集型产业，数据积累亘古存在。然而，在数据的应用水平上，医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。

峰瑞资本生物医疗技术团队从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。分析显示，医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的最重要来源，来自手机App和可穿戴设备的数据开始提升数据的完整性、连续性和准确性；数据处理是个系统工程，包括清洗、整理、分析等标准环节，对数据结构化提出了更高要求；截至目前，为医疗数据买单的是B端的医疗机构、药企和保险公司，让C端的病人和医生为数据付费目前还不现实。

美国的医疗体制相对市场化，对医疗体系的投入巨大，使其在技术、服务和流程等支柱产业，都可以成为中国医疗产业发展的远景参照物。近几年，医疗数据产业在美国发展迅速。峰瑞资本生物医疗技术团队挑选了4家有代表性的美国医疗大数据公司（Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir）做案例分析。

大数据产业的出现和医疗数据投资策略分析

undefined

▲ 医疗大数据的发展带来多重健康福利。

IBM用3V定义大数据

IBM最早提出了大数据的3V定义。3V是Volume，Variety，Velocity。

undefined

Volume比较好理解，因为大数据本身的 “大” 代表了数据数量的巨大。数据量越来越大的原因很多，其中一个是现在机器和网络每天都在生成大量的数据。据统计，我们现在每两天产生的数据量约等于自人类文明开始到2013年的数据量的总和。

第二个特征是Variety，多样化。多样化主要指不同的数据来源和种类。传统意义上的数据主要来自类似excel的表格和数据库。现在人类能够分析各种形式和类型的数据，比如电子邮件、图片、视频、音频、监控仪器，等等。

第三个特征是Velocity，即数据生成的速度。比如，互联网上数据的生成是以秒甚至毫秒来计算的。再比如，基因测序仪、网络监控的录像，都在随时随地产生大量数据。

以上3个V是公认的大数据定义。在2013年波士顿的大数据峰会上，Express Scripts的首席数据科学家Inderpal Bhandar提出了Veracity的概念。Veracity主要是指数据是否有偏差、数据噪声有多大，以及是否有异常值。当业界大量积累各种来源的数据时，数据是否准确变成一个非常重大的问题，否则最后就是 “Garbage in，Garbage out”。

undefined

峰瑞观点（freesvc）：

从以上对大数据的描述可以发现，大数据对数据存储、数据传输和数据处理这3方面的能力提出了挑战。

企业在数据产生和处理端也逐渐出现了一些变化。企业开始存储海量数据，数据传输并分布式地存储到数据中心，数据在云端进行处理和分析，通过网络端进行数据的呈现并指导商业决策。

大数据的产业链分析

得益于计算能力的快速增长、数据传输能力的增长和成本的下降，以及数据储存成本的下降，大数据获得了极大的发展。

undefined

● 上游数据的产生

大数据产业的最上游是数据的产生，这包括了数据的定义和数据的搜集。数据的定义顾名思义就是定义哪些是数据。例如在搜索广告出现之前，用户点击链接本身并不产生任何价值，也就不被定义为数据。数据定义产生之后，就开始快速、准确、有效地收集数据。

● 中游数据的处理

大数据产业的中游是数据处理，其中包括了数据的准备，例如数据清洗和整合，以及数据分析，例如数据建模、可视化呈现，等等。

● 下游数据的消费

大数据产业的最下游是数据消费，例如利用数据指导商业决策，指导商业决策之后产生的结果本身又成为了新的数据，因此数据的消费和数据的产生形成了一个闭环。

在整个大数据产业的所有环节中都存在数据存储和数据管理，这两个技术贯穿了整个大数据的周期。

undefined

数据驱动型企业结构的分析

在一个通过数据驱动的商业环境中，企业组织或者技术组织结构一般分为以下3个逻辑板块。从底层到上层分别是Data engineering（数据工程），Data sciences（数据科学）和Decision sciences（决策科学）。

undefined

● 下层数据平台：通用性平台为主，完整解决方案，开源解决方案

最底层是工程性的工作，主要指对于数据底层的工程性技术解决方案，例如对原始数据进行清洗、验证和纠正，数据储存和调取。在这一层有很多的开源解决方案和系统集成服务商。

这一步的目的是收集和整理大量数据，把它变成便于数据科学家使用的方式。大部分企业或者工程师把80% 的时间花在了这一步。美国财富杂志前几天公布的数据显示，美国企业每年在大数据服务上的花费是40亿美金左右，其中40% 花在了数据整合和清洗上。可以说，整个数据工程在时间和花费上都占据了很重要的位置。

● 中层算法和数据呈现：通用性算法接口，行业专业知识，开源解决方案

处于中间层的是数据科学，这可能是大家最常听到的一个领域。现在很热的人工智能、深度学习，都属于这一层。这一层的作用是通过数据建立起对某个问题的模型。比如说，通过历史数据建立起天气预报模型，或者通过大量病理数据建立起疾病的预测或者诊断模型。

（编辑：云计算网_泰州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/3

尾页

快来新宇宙：为什么元	全民卫星电话时代还没
IDM面临翻身时刻	探路元宇宙，直播平台

中国医疗数据创业有4大方向 可走出独有特色

中国医疗数据创业有4大方向可走出独有特色