加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 服务器 > 安全 > 正文

大数据传输方法说明

发布时间:2022-07-22 09:02:12 所属栏目:安全 来源:互联网
导读:近年来,随着社会服务信息化的高速发展,在互联网、物联网、金融、物流、电磁等各方面数据都呈现指数级的增长。大数据的传输是大数据处理基本流程的重要一环,高性能的数据传输可以为后续数据分析特别是实时分析提供保障。本文简要介绍了主流的大数据传输方
  近年来,随着社会服务信息化的高速发展,在互联网、物联网、金融、物流、电磁等各方面数据都呈现指数级的增长。大数据的传输是大数据处理基本流程的重要一环,高性能的数据传输可以为后续数据分析特别是实时分析提供保障。本文简要介绍了主流的大数据传输方法和多源异构数据传输的设计方案,为大家提供参考。
  
  1、大数据传输相关背景
 
  2003年起,Google公司相继发表了Google FS、MapReduce、BigTable等3个系统(框架)的论文,说明了这3个产品的详细设计方法,为后来全球的大数据发展奠定了基础。由于数据量和效率的问题,传统的单机存储与计算已经不适应时代的发展,多节点的分布式存储逐渐取而代之,这种方法可以在多个廉价的节点上同时存储和并行计算,并且提供了很好的容错能力。
 
  基于最基本的用户需求,大数据传输机制应当遵循以下原则:
 
  (1)模型安全性。大数据计算一般是由几十个甚至上百个节点组成的,在获取数据的时候,节点与数据源之间,节点与节点之间,都会有占有较大的I/O使用率,数据传输之间必须满足必要的安全性。对于保密要求较高的数据,更要建立全面的数据保护措施,以防数据泄露。
 
  (2)传输可靠性。随着计算存储设备和数据传输通道的不断升级,数据的传输速度和效率逐渐提高。在获取数据源的时候,数据管道必须提供一个可靠的传输,以达到至少交付一次的保证。
 
  (3)网络自适应性。用户和分析设备可以根据自身的需求,适应数据传输的服务,最大化对接数据格式,达到良好的对接效果。
 
  2、主流传输方法
 
  目前在大数据的广泛应用中,Kafka、Logstash、Sqoop等都是传输数据的重要途径,这里简要介绍传输原理。
 
  Kafka
 
  Kafka最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统,常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年将该系统贡献给了Apache基金会并成为顶级开源项目。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读