据Gartner预测,到2020年全球物联网设备将达260亿台,市场规模突破1.9万亿美元。物联网时代的到来,促使越来越多的设备接入网络,大量的终端设备数据被上传到后端服务器进行分析和存储。对于后端服务而言,当上亿台智能设备的数据汇集到一起,所需传输和存储的数据量将是非常惊人的。这对后端数据存储设备的性能也将是一个异常严峻的考验。如何保障数据读写速度?如何保障数据安全不丢失?如何保障数据实时分析的时效性和准确性?
京东云列式存储服务,以应对海量数据,快速读写、实时数据分析、时序数据、分析监控等场景。列式存储是基于Hadoop且100%兼容HBase协议的高性能、可弹性伸缩、面向列的分布式数据库,轻松支持PB级大数据存储,满足千万级QPS高吞吐随机读写场景。
基于开源Apache HBase的京东云列式存储服务构建在HDFS之上,其优势在于线性扩展,随着数据量增多可以通过节点扩展进行支撑;内部管理的文件全部存储在HDFS中,备份机制健全;通过Zookeeper协调查找数据,访问速度快。
列式存储与HDFS
列式存储与HDFS相比,两者虽然都具有良好的容错性和扩展性,可以扩展到成百上千个节点。但HDFS不支持数据随机查找,不适合增量数据处理且不支持数据更新。而列式存储每一列单独存放,数据即索引,访问查询快,并且每一列由一个线索来处理,可以实现查询的并发处理。
为提升产品可靠性、安全性,京东云列式存储支持HA模式,默认双主节点,实时检测,保障业务高可靠;core节点故障时,region可秒级切换;并提供3副本数据备份。各集群通过VPC网络隔离,支持网络ACL和安全组的配置,实现多层网络防护机制。
在易用性方面,京东云列式存储无需部署维护软硬件设施,用户可以方便地根据自身业务规模,选择CPU、磁盘、网络等规格,一键快速部署集群。磁盘及节点能够灵活扩容,可轻松扩展到千台规模,满足千万级QPS及数PB级存储空间。
同时,列式存储支持phoenix、openTSDB,使集群具有支持SQL、构建二级索引、构建时序数据库的能力。
列式存储适用于对象存储、时序数据、推荐画像、时空数据、CubeDB OLAP、消息/订单、Feeds流等,涵盖物联网&车联网、金融风控、网络安全等诸多需要高吞吐随机读写的场景。
物联网&车联网
车联网,就是通过车辆终端实时采集车辆信息、轨迹信息、告警信息等数据,通过大数据平台对时间序列数据的存储和计算,实现车辆的实时监控、告警、车辆信息的实时查询等功能。
使用列式存储(HBase)作为海量数据库存储,并结合业务场景使用Phoneix创建二级索引,解决了百万车载终端实时返回的TB级别数据不间断写入,海量数据的分页查询和历史数据实时查询的压力。
车联网
金融风控
金融行业的风控一般通过运用大数据构建模型,结合用户信息、第三方企业交易数据、网络风险数据等信息,形成反欺诈、用户信用画像的方法对借款人进行风险控制和风险提示。风控系统的难点在于每天海量交易记录的实时写入、全量详单查询、近期交易实时查询,对存储的时效性和存储容量具有很高要求,传统DB无法满足。
而列式存储是基于原生HBase构建的高性能分布式数据库,针对此案例中的Spark高速流式计算,拥有快速读写能力的列式存储无疑是其最好的数据入口和出口。
大数据风控平台
网络安全
从企业信息安全角度看,态势感知产品应用日益广泛。态势感知通过对多维度海量安全和业务数据进行快速、自动化的关联分析,帮助客户建设自己的安全监控和防御体系。而网络安全数据种类繁多、数据量大,其中基础数据DNS、Flow更是能达到每秒百万级QPS。另外,该系统历史数据一般需要保存长达几个月。
面对海量数据的快速写入和历史数据快速查询的需求,列式存储(HBase)能发挥巨大价值,其高速的数据写入能力,和结合Phoneix构建二级索引达到的海量历史数据查询能力,完美的解决了难点问题。
网络安全态势感知
京东云列式存储作为一款具有高可靠性、高性能、面向列、可扩展的分布式存储系统,结合京东云强大的高可用架构,可以有效满足用户海量数据存储、实时分析等需求,并保障用户业务不中断,为用户提供安全、稳定的云上服务。
点击阅读原文,了解更多京东云列式存储服务