【年会主题报告】华为赵少奇:深耕数据,需要什么样的数据中心网络架构?

导读:大数据离不开云计算,数据挖掘将成为企业50%的价值来源,伴随而来的商业模式和技术创新会直接对网络产生急迫革新需求。11月28日联盟年会上,华为技术有限公司数据中心网络产品线副总裁赵少奇分享了主题为“深耕数据,需要什么样的数据中心网络架构?”报告。

11月28日,以“深耕汽车数据·助推产业发展”为主题的新能源汽车国家大数据联盟2019年会于北京友谊宾馆召开,上午的主题报告环节邀请华为技术有限公司数据中心网络产品线副总裁赵少奇分享“深耕数据,需要什么样的数据中心网络架构?”主题报告。以下为当天演讲实录摘要。

华为技术有限公司数据中心网络产品线副总裁赵少奇

各位领导、嘉宾大家中午好。我先做个自我介绍,我来自华为数据中心网络产品线,主要负责端到端的产品研发,说实话,今天非常荣幸能被邀请参加新能源汽车国家大数据联盟的2019年会,其实不仅荣幸,还有点意外,因为数据中心网络和汽车似乎它们的交集有点远。刚才包括姜主任、尹博,介绍了很多大数据人工智能的应用,随着新能源汽车以及汽车智能化的发展,汽车产生的这个数据其实是一个天量,挖掘这些数据,深耕这些数据,挖掘数据的价值,其实才是目的,挖掘这些数据更高效的挖掘,或者说更快的挖掘,需要一个什么,需要一个更高效的数据中心,以及一个更高效的数据中心网络,作为数据中心的一个互联基础。在这点上,我挺佩服大数据联盟的开放性,给我们各行各业都有一个交叉互通、交流的一个机会。刚才说到了时代,其实是时代让汽车和数据中心网络走到了一起,我们深耕数据,我们需要一个什么样的数据中心网络,先简单介绍一下,这里面绝大部分从业者可能跟汽车相关,其实我们现在在当今时代,包括云计算这些热词,基础就是数据中心,数据中心包含了服务器,传统的服务器,包含了存储,现在进入人工智能时代,还包含了GPU集群、AI芯片的智能集群,计算单位、存储单元组成了一个巨大的数据中心,数据中心网络实际上是它的一个基础设施,为这些存储、服务器、人工智能的一个处理设备之间做一个高速的互联。时至今日,我们进入了一个大数据和AI的时代,数据和智能成为新的生产资料,数据+智能,催生的是数字经济,通过人工智能的方式从大数据当中挖掘价值,实际上是最终实现一个价值变现。从数据当中挖掘价值,实际上是数字经济浪潮当中的一个秘诀,广泛的说,不一定说为了赚钱,包括刚才姜主任所描述的,我们是不是可以通过人工智能的方式,去降低我们的交通事故率,这些都是价值。其实大家都说数据是“21世纪的石油”,其实这个并不为过,其实数据产生的价值可能最终将远超过石油。这里有一个数据,我们根据华为的全球产业展望的一个预测,五六年之后,我们的数据产生量会是今天的10倍,新能源汽车智能汽车在这里面会做出很大的贡献。刚才孙院士材料里面介绍,截至11月已经282万辆,这个速度确实比我想象的还要快,其实有这么多新能源汽车产生数据,而且是时时刻刻的,不知道这个数据是不是最新的,每天220个T,峰值可能达到100G的流量,这个数据会呈指数级增长,按照每个月,刚才说15万辆的接入速度,每年可能翻倍的速度。大数据伴随着人工智能,因为大数据的挖掘必然需要人工智能的接入,在几年前我们会觉得人工智能还是一个趋势,但到今天人工智能已经变成了现实,大家可以看到人工智能数字化水平的曲线,从人脸识别,现在所有机场,包括高铁站已经全是人脸识别进入,包括银行,现在大家去办一个信用卡,办一个什么贷款,可能现场发卡,背后就是大数据人工智能在介入做风险管控,智能风控,特别提到汽车行业,车联网,新能源还有自动驾驶,包括可预测性的维护,刚才我也看到材料里面说,可以提前预警,可以降低事故率。而且大家可以看到,汽车行业在人工智能数字化水平当中处于一个爆发期,处于一个高速增长的时期,实际上汽车行业这种人工智能的泛化使用,也给我们数据中心网络提出了新的挑战。

各行各业的行业智能化,驱动着我们数据中心包括数据中心网络,进入了AI时代,前面几年听到最多的可能是云计算,云数据中心,其实这个已经变成了现实,全球有国外的微软的,亚马逊的,国内有阿里,都在做公有云,云时代就在生活当中,越来越多企业也选择了上云,云时代的特点是什么,软件定义一切,因为它是以应用为基础的,以软件为中心的,关注的就是应用的一个自动发放,这是第一点。第二点,我尽可能将资源虚拟化,做到资源的最大利用率,忙时和闲时的调度。进入AI时代不一样,AI时代,数据中心实际上变成了以数据为中心,因为需要通过数据去挖掘它的价值,产生变现,或者说产生其他增值的东西,增值的价值,是聚焦数据的,从数据当中挖掘价值才是核心。对于AI数据中心关心什么,关心我们多快好省的去挖掘数据的价值,实际上就是将数据中心的计算效率最大化。

AI时代数据中心面临着三大关键挑战,当然挑战很多,这里面只说三个关键的挑战,第一个,就是转发的挑战,其实AI计算,人工智能计算,是一个丢包敏感性业务,有一个数据大家听到会比较讶异,其实在人工智能网络,数据中心网络丢包0.1%的话,会导致AI计算性能下降50%,对于传统业务,有TCP的业务,少量的丢包问题不大,到了AI数据中心,选择的计算设备,已经从传统的通用计算,传统的硬盘,现在演进成了专用计算设备,像GPU、AI芯片,网卡的出口都是100G的。存储从硬件的磁盘,到固盘,现在其实都到了一个要求非常高的一个网络转化通道和效率,这时候用传统的TCP达不到这个性能,就选择了另外一种,很简单的一个协议,RDMA,远程DMA方式,跑到以太上面实现。解决数据中心网络,特别是以太网,现在谈的都是以太网,以太网的丢包是非常致命的因素。

第二个,部署挑战,现在业务量非常大,大家可以看到我们数据中心的集群,像公有云集群可以到十万台、二十万台,中小型可能有一千台的量,维护起来,部署挑战非常大,因为那么多的设备,那么多的网源,市场的维护工作量非常大,而且现在网络业务上线的速度非常快,靠打个申请报告,签个字,靠手动发放业务,完全不可能。对于现在,在SDN化的网络当中,部署的挑战非常大,要求我要快。另外快是一个最基础的,越快会越出错,对我们提出的挑战是,我们在发放业务过程当中又快,又不能出问题,其实有数据统计,我们在网络故障,有40%是人为操作导致的,在这点上我们怎么解决,又快,又可靠。

第三个,运维,刚才说了,体量非常大,而且现在的网络其实都是虚拟化的网络,对大家而言可能是个黑河,我出了问题,可能传统的方式失效了,无从定位,怎么办,这也是很大的问题。就是从性能、发放效率、可靠以及运维上,面对这三大挑战,华为也提出了自己的解决方案。

华为提出了三大核心的算法,智能调优网络的算法,智能校验,智能的网络运维方案,所有的技术,要基于我们的AI能力,华为在人工智能方面做了很多,特别是芯片,去年发布的,今年已经上市了。 说到AI,华为的独特优势,华为在AI投入不是说突然来一下说要做一个AI芯片,其实已经布局很多年,即使在数据中心网络,AI DCN领域,投入的算法博士好几十人,还有一些数据专家、业务专家,我特别认同姜主任说的,AI一定要跟场景结合,我们必须要有懂业务的专家去介入到AI的发展当中,我们是三家,业务的专家、数据的专家、算法的专家,来支撑华为在AI时代,不管在哪方面,都能走在最前面。希望接下来跟汽车产业一起携手,能研究创新更多的场景,去挖掘数据,契合今天的主题,深耕汽车数据,助推汽车产业的发展,谢谢大家。

内容来源:摘自演讲速记稿,有删减。

未经演讲嘉宾审阅。