加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 站长资讯 > 动态 > 正文

中国医疗数据创业有4大方向 可走出独有特色

发布时间:2016-08-22 04:36:19 所属栏目:动态 来源:网易科技
导读:(原标题:中国医疗数据创业的4大方向) (本文来自微信公众号“峰瑞资本”(微信号:freesvc),本文作者谭验、王蕾)医疗行业是数据密集型产业,数据积累亘古存在。然而,

(原标题:中国医疗数据创业的4大方向)

undefined

(本文来自微信公众号“峰瑞资本”(微信号:freesvc),本文作者谭验、王蕾)

医疗行业是数据密集型产业,数据积累亘古存在。然而,在数据的应用水平上,医疗行业远远落后于互联网、金融和电信等信息化程度更好的行业。

峰瑞资本生物医疗技术团队从数据产生、数据处理、数据消费的角度分析了医疗数据产业链。分析显示,医院、诊所等专业医疗机构和保险机构仍然是医疗数据产生的最重要来源,来自手机App和可穿戴设备的数据开始提升数据的完整性、连续性和准确性;数据处理是个系统工程,包括清洗、整理、分析等标准环节,对数据结 构化提出了更高要求;截至目前,为医疗数据买单的是B端的医疗机构、药企和保险公司,让C端的病人和医生为数据付费目前还不现实。

美国的医疗体制相对市场化,对医疗体系的投入巨大,使其在技术、服务和流程等支柱产业,都可以成为中国医疗产业发展的远景参照物。近几年,医疗数据产业在美国发展 迅速。峰瑞资本生物医疗技术团队挑选了4家有代表性的美国医疗大数据公司(Flatiron、IBM Watson Oncology、IMS Health Oncology、Palantir)做案例分析。

大数据产业的出现和医疗数据投资策略分析

undefined

▲ 医疗大数据的发展带来多重健康福利。

IBM用3V定义大数据

IBM最早提出了大数据的3V定义。3V是Volume,Variety,Velocity。

undefined

Volume比较好理解,因为大数据本身的 “大” 代表了数据数量的巨大。数据量越来越大的原因很多,其中一个是现在机器和网络每天都在生成大量的数据。据统计,我们现在每两天产生的数据量约等于自人类文明开始到2013年的数据量的总和。

第二个特征是Variety,多样化。多样化主要指不同的数据来源和种类。传统意义上的数据主要来自类似excel的表格和数据库。现在人类能够分析各种形式和类型的数据,比如电子邮件、图片、视频、音频、监控仪器,等等。

第三个特征是Velocity,即数据生成的速度。比如,互联网上数据的生成是以秒甚至毫秒来计算的。再比如,基因测序仪、网络监控的录像,都在随时随地产生大量数据。

以上3个V是公认的大数据定义。在2013年波士顿的大数据峰会上,Express Scripts的首席数据科学家Inderpal Bhandar提出了Veracity的概念。Veracity主要是指数据是否有偏差、数据噪声有多大,以及是否有异常值。当业界大量积累各种来源的数据时,数据是否准确变成一个非常重大的问题,否则最后就是 “Garbage in,Garbage out”。

undefined

峰瑞观点(freesvc):

从以上对大数据的描述可以发现,大数据对数据存储、数据传输和数据处理这3方面的能力提出了挑战。

企业在数据产生和处理端也逐渐出现了一些变化。企业开始存储海量数据,数据传输并分布式地存储到数据中心,数据在云端进行处理和分析,通过网络端进行数据的呈现并指导商业决策。

大数据的产业链分析

得益于计算能力的快速增长、数据传输能力的增长和成本的下降,以及数据储存成本的下降,大数据获得了极大的发展。

undefined

● 上游数据的产生

大数据产业的最上游是数据的产生,这包括了数据的定义和数据的搜集。数据的定义顾名思义就是定义哪些是数据。例如在搜索广告出现之前,用户点击链接本身并不产生任何价值,也就不被定义为数据。数据定义产生之后,就开始快速、准确、有效地收集数据。

● 中游数据的处理

大数据产业的中游是数据处理,其中包括了数据的准备,例如数据清洗和整合,以及数据分析,例如数据建模、可视化呈现,等等。

● 下游数据的消费

大数据产业的最下游是数据消费,例如利用数据指导商业决策,指导商业决策之后产生的结果本身又成为了新的数据,因此数据的消费和数据的产生形成了一个闭环。

在整个大数据产业的所有环节中都存在数据存储和数据管理,这两个技术贯穿了整个大数据的周期。

undefined

数据驱动型企业结构的分析

在一个通过数据驱动的商业环境中,企业组织或者技术组织结构一般分为以下3个逻辑板块。从底层到上层分别是Data engineering(数据工程),Data sciences(数据科学)和Decision sciences(决策科学)。

undefined

● 下层数据平台:通用性平台为主,完整解决方案,开源解决方案

最底层是工程性的工作,主要指对于数据底层的工程性技术解决方案,例如对原始数据进行清洗、验证和纠正,数据储存和调取。在这一层有很多的开源解决方案和系统集成服务商。

这一步的目的是收集和整理大量数据,把它变成便于数据科学家使用的方式。大部分企业或者工程师把80% 的时间花在了这一步 。美国财富杂志前几天公布的数据显示,美国企业每年在大数据服务上的花费是40亿美金左右,其中40% 花在了数据整合和清洗上。可以说,整个数据工程在时间和花费上都占据了很重要的位置。

● 中层算法和数据呈现:通用性算法接口,行业专业知识,开源解决方案

处于中间层的是数据科学,这可能是大家最常听到的一个领域。现在很热的人工智能、深度学习,都属于这一层。这一层的作用是通过数据建立起对某个问题的模型。比如说,通过历史数据建立起天气预报模型,或者通过大量病理数据建立起疾病的预测或者诊断模型。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读