华为云首席架构师独家分享:云原生2.0架构设计的8大关键趋势-4008云顶国际网站
云原生2.0是企业智能升级新阶段,企业的云化从“on cloud”走向“in cloud”,当一切应用都生于云,长于云,云架构的迭代也会进入一个新的阶段。
围绕云原生2.0,华为云首席架构师顾炯炯提出了8个关键模式: 分布式云,混合调度,应用驱动基础设施,存算分离与数据治理自动化,可信、平民化devops,基于软总线的异构集成,多模态可迭代ai模型,全方位立体式云安全。
随着云化和数字化渗透到制造类、工业互联网类场景,5g技术在to b领域应用的快速成熟,以及物联网 、ai技术的成熟,现在云的服务对象不仅是企业的后台it支撑系统,它延伸到了前端的“现场”,类似于工业场景里的近场计算。如果还是将所有的数字化应用系统都放在集中的数据中心,它的时延无法满足实时生产系统的要求。
另外,有一些行业的敏感数据不能从现场或者数据产生地直接简单的上传到云端,它存在数据安全、隐私保密的问题。再比如医疗里的基因大数据、视频监控等场景,如果所有数据都上传到云端,带宽的成本非常高昂。
所以,我们必须要引入云边端协同的分布式概念,构建分布式云的架构。 这个架构可以和核心侧架构配合,覆盖核心区域、热点区域、本地机房、业务现场等不同接入时延敏感度,数据隐私合规要求及数据上云带宽成本的应用上云场景。
举个例子,通过这样的方式,可以把云端的很多算力和计算逻辑,甚至是训练好的ai模型推送到更加靠近用户数据产生地的位置上,进行就近的计算,将海量的数据做一定的收敛、分析、脱敏等,再发送到云端进行闭环的处理和控制反馈。
在很多算法专家的努力下,华为云通过瑶光调度平台大大提高了资源的分配效率,达到甚至超过了80~90%的程度,已经接近于业界的领先水平。但是资源的实际利用率仍然处在一个比较低的水平,当然业界平均也不是特别理想,领先者差不多20%左右。为了解决这样的问题,华为云引入混合调动、柔性计算的能力,将在线和离线的不同优先级的业务,进行qos感知的智能调用,实现资源利用率最大化。
柔性计算不仅仅具备弹性的特征,保证了横向的资源扩展,而且它也能实现纵向资源规格的可大可小。目前,消费者云已经在内部验证了柔性计算的能力,可以在不改变上层业务的前提下提高利用率,实现性能的倍增。关于柔性计算的更多内容参考 华为云首席架构师顾炯炯:敢为人先,探索架构创新之路如何走。
如今,软硬件的垂直整合,特别是靠近操作系统底层的硬件和云服务基础设施层的服务软件之间的纵向整合能力,成为新的趋势,它把基础设施服务底层的硬件和相应的服务封装层打包在一起。
云服务厂商可以设计研发定制芯片,比如存储和网络的硬件卸载的芯片、匹配深度学习逻辑处理框架的芯片等等。如果有能力构建这样的软硬件垂直整合的能力,就能拥有相比其他云服务商更优的价格优势,也得以呈现自身独特的硬件、芯片优势。
有了应用驱动的基础设施之后,根据应用的性能sla需求,来定义是使用与软件完全解耦的通用硬件资源,还是匹配应用场景特殊诉求的软硬件深度协同的卸载卡或异构计算资源。
这也能发挥华为软硬件兼长的优势,我们在硬件领域有不少核心创新:一个是 sdi, 叫软件驱动的基础设施,也就是把分布式存储\分布式网络,还有hypervisor的一些系统能力从服务器卸载到pci卡上,也即sdi/擎天卸载卡。二是鲲鹏硬件支撑云存储和数据湖的处理, 鲲鹏单核处理能力虽弱于x86,但核密度则达到x86 cpu的2倍,因此在对io及内存带宽作为其性能瓶颈的大数据及分布式存储场景,是比x86更好的选择。同时,我们也在用自研的昇腾npu取代gpu构建ai平台, 它在深度学习的训练推理中体现出更高的能效比。
未来企业的所有的数据孤岛都将汇聚到云端的数据湖,进行统一生命周期的治理和管理,所以必须要解决数据计算分析的资源需求。数据湖里有各种各样的结构化、半结构化、非结构化的数据,但这些数据的分析计算和底层的存储容量之间的需求,并不是线性匹配的关系。 比如对于深度学习的场景,数据量需要不断的计算迭代,它需要更多的计算能力,相对较少的存储需求。因此在不同的业务场景下,数据分析计算和存储的要求是不一样的,最终一定要走向存算分离。
在存算分离领域里面,华为云已经积累优势,从最早的去中心化的分布式存储引擎fusionstorage开始,七年磨一剑,我们从内部验证到向外部的推广,从块存储延伸到对象存储、文件存储、分布式的集群数据库,把原先在开源架构里五花八门的底层存储技术引擎架构实现了统一。经过实际的测试,在业界同样支持存算分离数据湖架构的云场景中,华为云体现了领先30-60%以上性能优势。
再就是数据治理自动化。 现在的数据治理的还是人力密集型工作,整个过程非常低效,很难满足很多行业的要求。所以在这个架构模式里面,除了存算分离的数据库,还要构建数据治理自动化。
通过引入ai的技术,将数据的获取、清洗以及最终数据知识的提取,主题库的建立、数据目录的发布,都实现完全的自动化。用户只需要指定入湖的数据源和所属业务主题域,系统自动化创建入湖任务,底层资源根据入湖数据量自动扩缩容,智能完成入湖数据的安全等级、分级分类、隐私等级等数据标签的自动识别打标。这个能力对企业数据资产的快速沉淀能力的构建是至关重要的。
通过将一系列安全可信措施嵌入到敏捷开发运维模式, 构建所谓的devsecops流水线,实现敏捷快速迭代与严格质量管控兼顾;并通过低代码/无代码实现更多行业应用资产的沉淀, 将行业应用的开发效率再上一个新台阶。
devops实现了应用的敏捷开发,但在面向政企时,还需要满足应用质量和安全可信的要求。因此在遵循devops的同时,将安全能力集成到其中,升级成为devsecops。使用安全左移、默认安全、运行时安全、安全服务自动化/自助化、基础设施即代码(iac)等技术, 实现管理与协同、设计与开发、ci/cd、应用管理、运维、安全可信等各个环节的一体化趋势。
此外,由于传统政企开发投入有限,需要通过低码化无码化,来实现对应用进行快速构建及改造。华为云低代码平台appcube可支持多种页面类型和丰富的组件能力,基于它的服务能力编排和业务流程无代码定制,可实现灵活流程触发方式、多种权限配置方式、自定义业务编排等。
即帮助企业构建可平滑演进的it架构, 实现老旧应用与新建云原生应用,线上与线下应用的平滑融合集成。
云原生下,企业很多应用都要进行微服务解耦,遵从微服务的治理架构,进行水平扩展的架构的设计,甚至把原来的单体架构逐步进行拆解。但这个过程不是一蹴而就的,尤其是那些包袱比较重的传统行业,他们还面临很多现实的挑战。所以我们要在企业传统it架构和云原生架构之间搭建无缝的桥梁,在确保企业业务连续性最大化的前提下,实现平滑的切换和演进。
以roma connect为例,它可以通过软总线的形式,把云原生和非云原生的传统世界无缝的连接起来,支持异构的应用和数据库源的对接,也可以对接到云上开发平台、数据湖,实现无缝互通。
在架构的平滑演进中,首先需要将传统非云原生应用封装为rest接口与云原生应用对接,通过统一接口服务层apic进行开放,业务云原生应用通过标准接口即可获取老系统信息。同样的机制可以将线上线下,及部署在多云环境上企业it系统的无缝互通。
其次传统oracle/sybase等传统数据库及中间件与设备协议接入上云:云上云原生应用通过云上标准api调用、数据库访问、消息订阅等方式即可获取传统数据。
最后,通过全生命周期的api管理能力,包含从设计、发布、上架、治理的全过程,帮助企业构建整个跨地域,跨组织、跨部门的应用网络,并沉淀行业应用资产。
ai在行业落地面临的问题是能够获取到的训练数据是非常有限的,单纯的依赖数据驱动的深度学习训练,使得行业ai模型是非常难以泛化、通用化。
预训练大模型是解决ai应用开发定制化和碎片化的重要方法。 通过一个ai大模型实现在众多场景通用、泛化和规模化复制,减少对数据标注的依赖,赋能ai开发由作坊式转变为工业化开发,比如华为云之前推出的盘古大模型。
另外也要引入知识计算的能力, 类似于把知识图谱这样的能力和基于感知计算的数据驱动的ai模型互补结合起来。也就是说把知识模型和数据模型,在数据样本相对缺少的情况下结合在一起,更好服务于行业ai的落地。帮助企业打造自己的知识计算平台,整合分散在不同系统、多种形态的企业数据,形成带有建议性的知识体系。
1.0阶段的云安全服务更多的是孤立的安全能力:虚拟化安全,hyporvisor防逃逸能力,云防火墙能力其实都是割裂的,并没有跟所有的云服务形成互锁。
全方位的立体式运营安全通过打通离散的云安全服务能力,将其与其他云服务及客户应用形式互锁, 构建安全build-in的云原生应用,以及引入可信智能计算,解决跨行业数据隐私保护与流通碰撞、价值挖掘之间的矛盾。
首先通过可信智能计算提供四个核心能力,进行安全可信的数据计算。包括:
1、跨组织、跨行业的多方数据融合分析和多方横向与纵向联邦学习建模;
2、支持对接主流数据源和深度学习框架;
3、支持安全多方计算(例如同态加密,差分隐私等),并支持用户自定义隐私策略;
4、基于区块链的数据计算轨迹的可追溯可审计。
此外,为了全方位安全,还需要将全栈云(及其子集)下沉部署(连线/非连线),彻底解决敏感行业上云安全顾虑,以及将全栈云服务、企业新开发云原生应用、apaas/saas等与全栈云安全能力互锁,为用户构建体系化的云安全平台。
华为云首席架构师顾炯炯:敢为人先,探索架构创新之路如何走
10年经验总结,华为fellow教你如何成为一名优秀的架构师?
- 点赞
- 收藏
- 关注作者
评论(0)