博客
关于我
Spark技术在京东智能供应链预测的应用
阅读量:797 次
发布时间:2023-04-04

本文共 1528 字,大约阅读时间需要 5 分钟。

Spark技术在京东智能供应链预测中的应用

大家晚上好!我是郭景瞻,来自京东服饰家居事业部,主要负责POP商家订单及数据挖掘等工作。今天,我和同事杨冬越一起分享《Spark技术在京东智能供应链预测中的应用》。


1. 背景

京东近年来公开了面向第二个十二年的战略规划,强调全面走向技术化,尤其是在人工智能和机器人自动化技术方面的发展。为此,京东Y事业部成立,致力于构建智能供应能力,核心目标是利用AI技术驱动零售革新。

京东的供应链体系包括256个大型仓库,主要分为RDC(区域分发中心)、FDC(区域运转中心)和城市仓等。通过大数据和机器学习技术,京东在供应链优化中扮演着关键角色,预测技术的应用能够显著降低运营成本。


2. 京东预测系统

京东预测系统主要支持销量预测、单量预测和GMV预测,涵盖RDC采购、FDC调拨、城市仓调拨等多个场景。系统架构从数据源到预测结果输出,依次包括数据输入、基础加工、核心业务、结果输出和下游系统。

核心业务层主要包含特征构建、预测算法和结果加工。特征构建通过清洗和处理基础数据生成标准特征,预测算法采用时间序列分析、机器学习等技术,结果加工则对预测输出进行异常拦截和优化。


3. 预测系统核心技术选型

预测系统的技术架构包括基础层、框架层、工具层和算法层。基础层以HDFS存储、Yarn资源调度为基础,框架层主要使用Spark RDD和Spark SQL,工具层则依赖于第三方算法包如xgboost、numpy、pandas等,算法层则涵盖机器学习(如GBDT、RNN)、时间序列(如ARIMA、Holt Winters)等多种模型。


4. Spark在预测核心层的应用

在预测系统中,Spark通过RDD和Spark SQL实现数据处理,针对模型训练和预测任务进行优化。通过将数据按品类分区、使用coalesce优化分区规则、减少Shuffle数据传输量等方式,显著提升了系统性能。


5. 结合图解Spark书进行优化

《图解Spark:核心技术与案例实战》一书以Spark 2.0版本为基础,详细介绍了Spark的核心技术和生态圈组件。在京东预测系统中,我们借助Spark的资源调度能力和优化经验,实现了更高效的模型训练和预测任务执行。


6. 答疑环节

Q1:用hive清洗完以后的数据还存在hive中吗?

清洗后数据还会存回hive,原始数据不会删,但会有大量中间数据产生,这些中间数据只会保留一段时间后自动删除。

Q2:几种细化的场景,如promotion,fast sale,商品sku的画像是否有?

对于促销等场景,系统会引入历史促销销量作为特征,结合促销计划、价格和PV敏感性等因素进行预测。快消品则需要结合商品生命周期进行分析。

Q3:按架构看,那种交互探索性的请求,类似于以前sql请求去仓库捞一下数据看看的情况,是用sparksql来支撑吗?一般响应时间大概如何?

离线数据是通过SparkSQL进行查询,响应时间依赖于集群规模、数据量和SQL复杂程度,500GB左右的数据查询时间在2分钟以内。

Q4:几种细化的场景,如promotion,fast sale,商品sku的画像是否有?

不完全是根据品类分模型,还要考虑是否高销量品、是否长尾品、是否新品、是否是季节性比较明显的商品等。

Q5:节假日因子怎么量化?

首先要进行平滑,尽量去掉其他干扰因素,再计算节假日期间与前后一段时间的均值对比,注意考虑阳历和农历,还有新品替代效应。


这就是我和杨冬越关于Spark技术在京东智能供应链预测中的应用的分享。希望对大家有所启发!如果需要更详细的技术细节,可以参考《图解Spark:核心技术与案例实战》。

转载地址:http://cnrfk.baihongyu.com/

你可能感兴趣的文章
MyEcplise中SpringBoot怎样定制启动banner?
查看>>
MyPython
查看>>
MTD技术介绍
查看>>
MySQL
查看>>
MySQL
查看>>
mysql
查看>>
MTK Android 如何获取系统权限
查看>>
MySQL - 4种基本索引、聚簇索引和非聚索引、索引失效情况、SQL 优化
查看>>
MySQL - ERROR 1406
查看>>
mysql - 视图
查看>>
MySQL - 解读MySQL事务与锁机制
查看>>
MTTR、MTBF、MTTF的大白话理解
查看>>
mt_rand
查看>>
mysql /*! 50100 ... */ 条件编译
查看>>
mudbox卸载/完美解决安装失败/如何彻底卸载清除干净mudbox各种残留注册表和文件的方法...
查看>>
mysql 1264_关于mysql 出现 1264 Out of range value for column 错误的解决办法
查看>>
mysql 1593_Linux高可用(HA)之MySQL主从复制中出现1593错误码的低级错误
查看>>
mysql 5.6 修改端口_mysql5.6.24怎么修改端口号
查看>>
MySQL 8.0 恢复孤立文件每表ibd文件
查看>>
MySQL 8.0开始Group by不再排序
查看>>