1. 产品简介
1.1 产品概述
针对城市时空数据更新频率高、数据体量大、数据结构复杂、查询模式独特的特点 ,京东城市时空数据引擎JUST(JD
Urban Spatio-Tempral Data Engine)采用先进的数据建模方法、数据存储技术、分布式索引技术和分析挖掘技术,为时空数据管理者提供一个稳定、高效的存储、查询和分析的平台,实现海量时空数据的便捷、高效管理。
京东城市时空数据引擎JUST(JD Urban Spatio-Tempral Data Engine)从功能模块中可细分为JUST-DB(建模、索引与查询)、JUST-DM(分析与挖掘)、JUST-GIS(地理信息系统模块)、JUST-TS(时序数据模块)及JUST-APP(可视化应用)层,详细产品框架如下图所示:
图 1.1时空数据管理平台架构图
1.1.1
JUST-DB
最底层是Database数据库(JUST-DB)层,负责对各种数据,特别是时空数据,进行存储、索引、查询和管理。引擎结合时空数据特性并针对不同时空数据模型,构建了高效的时空数据存储策略、索引机制。
•
图 1.2六大类时空数据模型
在JUST-DB的存储层实现中,我们则针对六大时空数据模型设计了十二种插件表。其中,根据空间位置和读数是否随时间变化,对带有点结构(点、线、面)的实体对象构造了九种时空数据插件表,如表1.1所示。
|
时空静态 |
空间静态时间动态 |
时空动态 |
点 |
SSPoint |
SDPoint |
DDPoint |
线 |
SSLine |
SDLine |
Ddline |
面 |
SSRegion |
SDRegion |
DDRegion |
表1.1九种时空数据插件表
中文表名 |
关键字 |
轨迹表 |
trajectory |
路网表 |
roadnetwork |
地图匹配后轨迹表 |
routeoftrajectory |
表1.2
此外,我们针对每种数据模型均设计了最合适的数据压缩机制,最高可将入库数据体量压缩至原数据的六分之一,大大节省了数据库服务器的存储开销。
•
时空数据索引查询:引擎提供四大索引,分别为空间索引、时空索引、时间索引(时间点和时间段)以及属性索引。借助这四大索引类型,极大地提升海量数据查询性能,使海量时空数据的查询、分析效率,在有限的机器资源下,比同类时空大数据引擎提升100
•
生态扩展能力:引擎采用HBase
1.1.2 JUST-DM & JUST-GIS
& JUST-TS
中间层是数据挖掘(JUST-DM)、地理信息系统(JUST-GIS)层和时序数据(JUST-TS)层。
•
图 1.3 JUST-DM应用案例
•
图 1.4 JUST-GIS能力示例
•
1.1.3 JUST-APP
最顶层是应用(JUST-APP)层,负责与业务对接,将DB、DM、GIS、TS层的能力串联起来,封装成各个领域各式各样所需的应用,一些具体应用案例如下所述:
1.1.3.1 地块指标
整合京东数据资源,规范计算口径,搭建京东城市统一的指标系统,支持多种业务场景快速、灵活地获取和分析城市数据。其中,JUST主要负责空间订单数据的存储和查询,实现了在PB级别数据当中快速筛查一个空间范围内的数据,为用户提供了良好的时空数据分析服务。
1.1.3.2 智能选址
将来源于联通手机信令扩样人口统计数据、京东数据、城市路网数据和环境业态等数据进行整合,并借助多源数据融合、时空大数据聚合、跨域学习技术实现全面的客群和环境分析,进行多源信息交叉验证,为实体店经营者提供门店智能选址与优化服务。
1.1.3.3 物流地产
从空间、时间出发,多维组合展示宏观经济、微观经济、产业分布、交通设施、地产布局、自然灾害、企业链条等数据,并基于交通、经济、地理特征、用户、企业、业态六大类指标构建完整城市(网格)潜力评分模型,帮助决策者从宏观上掌握城市物产发展潜力,辅助选址决策。同时平台支持对模型权重进行自由调整,以适应行业特征。
1.1.3.4 IoT
IoT设备产出的数据都具有时空属性。以车联网为例,海量的车辆终端在不断地产生轨迹数据,轨迹数据包含了时间和空间位置。利用JUST,实时监测车辆的行驶轨迹、是否偏航、是否进入某个限制区域等。除了实时监控外,还可以进行实时时空查询,如查询某段时间的轨迹,某段时间进入该区域的车辆等。结合大数据分析框架(如Spark)还可以进行穿越分析、区域分布热力图等。
1.1.3.5 城市防疫
在公共卫生安全领域,如何在疫情当中利用多源数据来进行人群的关联性分析是城市防疫的核心。JUST在其中展示了良好的性能,能够在TB级别的数据当中,根据已知的病例数据,推知相关联的\共轨的易感人群,同时也能够对这些人群进行量化的分析,为政府和其他公共卫生组织的疫情防控工作,降低了大量的人工筛查的成本,也成为了他们非常便捷的分析工具。