LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革

简介: LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革 近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和

LC3视角:高性能网络技术下的阿里云盘古分布式存储技术变革

近些年,随着NVME闪存等存储技术的发展,单存储设备IO带宽已达到GB/S,延迟降低至微秒数量级,而下一代内存级非易事存储介质如Intel 3D XPoint将进一步提升存储介质性能。从整体上看,数据中心已经由传统的机械硬盘毫秒时代过渡到存储新介质的微秒时代。在性能大幅提升的同时,节点存储容量也急剧增加,达到几十TB量级。节点存储性能和容量的飞速发展,对分布式存储系统节点间的网络通信性能提出了更高的要求,因此,高性能网络技术如RDMA(Remote Direct Memory Access)技术开始应用于数据中心,RDMA技术起源于高性能计算领域(如太湖之光超级计算机),其可通过相对定制的流控机制实现高效的节点间通信。

存储和网络新技术的应用导致数据中心基层物理架构的变革,“世异时移,变法宜矣”,《吕氏春秋》的经典词句说明拥抱变化的重要性。盘古分布式存储起源于阿里云飞天系统,已历时10余年,作为自主研发的分布式存储系统,其是阿里云核心组件之一,支撑阿里云对象存储、大数据计算、块存储、文件存储等多种关键存储业务。随着发展,它越来越成为整个阿里巴巴的存储平台,支持天猫、淘宝、支付宝等更多的业务。新一代盘古存储系统充分利用NVME和RDMA等新技术,实现了高性能的存储服务,其端到端三副本写的延迟低于30微秒,逼近底层硬件的理论物理延迟,而基于盘古存储系统的ESSD云盘可以达到100us、1M IOPS的性能。

在今年的阿里618大促中,盘古作为基础存储,为天猫、淘宝电商数据库以及阿里云块存储等阿里巴巴核心业务提供了服务,而在此之前,国内外还从未有公司将RDMA&NVME等新技术应用于线上大规模数据库和云计算块存储等核心业务,盘古首次实现了这些技术在线上核心业务的大规模应用。

盘古分布式存储系统

盘古存储系统超高性能的获得离不开对存储和网络性能的极致挖掘,特别是RDMA技术的研发。盘古选择RDMA的动机包含性能和语义两个方面。在性能方面,RDMA相对于传统TCP通信,由于RDMA网卡硬件负责处理通信协议,其在延迟和CPU利用率上占有优势。点到点RDMA延迟接近1us,而同等条件下的TCP要达到20us以上;RDMA可利用一个CPU处理器核可以打满网络带宽,而TCP需要至少4个处理器核心,RDMA的CPU利用率明显高于TCP。另一方面,从语义上来说,RDMA提供了一种节点A的数据可靠发送至节点B的通信机制,并实现了远端内存访问语义。由于可靠传输,并且实现了内存语义,这使得远端处理部件(CPU、FPGA、GPU等)可以直接对一段内存编址范围内的数据进行处理。与之对应,由于TCP是字节流语义,接收方很难断定处理数据的边界,从而很难直接对数据进行加工,并且需要借助处理单元进行解析。随着大规模高性能设备的发展如AEP新存储介质和硬件协处理等专用处理芯片的发展,远端直接对数据进行处理成为盘古存储的迫切需求,因此RDMA这方面的优势更为突出。盘古分布式系统通过全用户态系统软件栈,充分利用RDMA特性,全链路盘古软件库开消低于3us,从而获得了高效的IO性能。

盘古全用户态软件栈

RDMA网络性能突出,在实际中,出于成本等因素的考虑,区别于高性能计算领域的Infiniband RDMA技术,目前数据中心广泛采用RDMA ROCE技术。ROCE RDMA技术是在可丢包的以太网上,通过“打补丁”的方式,实现无损不丢包的通信传输。在可丢包的网络实现不丢包,这本身引入了较大的风险,相对于以前的可丢包实现,其更容易引发网络系统性的风险,这也是ROCE RDMA在国内外数据中心应用的难题。简单类比一下,如果把RDMA比做高速公路,那么TCP类似于省道。高速公路采取独立的隔离机制(专用隔离的封闭道路)和专用的通行规则以到达高效通行的目的;省道更多是满足出发地和目的地之间的可达性,实现不同地点的连通,虽然其也追求高效性,但出于成本等因素的妥协,其通行性并没有严格的保证。由于独立隔离且高速运行,高速公路对于风雪、雾气等情况下的风险明显大于省道,RDMA与之类似,在高性能的同时存在较大的风险。此外,针对ROCE RDMA,不同厂商网卡和交换机的RDMA技术经验还处于积累阶段,流控策略和参数配置也存在较多的问题,因此从ROCE RDMA的网络承载者网卡和交换机来说,ROCE RDMA风险也较大。虽然ROCE RDMA存在较大的风险,盘古系统所支持的业务如电商和阿里云存储等,需要提供365*24的稳定运行,盘古面临这些风险,需要如其名做到稳如磐石,杜绝丝毫风险。在实际实现中,盘古和阿里网络团队采用软硬件协同的方法,在保证性能的同时很大程度上降低了ROCE RDMA的风险。

通过对RDMA极致性能的追求和针对可靠性的软硬件协同设计,盘古实现了基于RDMA的高效且稳定实现,并首次应用于618阿里巴巴大促数据库和阿里云块存储等核心关键业务。此外,针对云计算下的RDMA QOS服务质量、网络存储融合、基于RDMA的近存储计算等方面,盘古也展开了一系列技术研发,后续盘古将支持更多的阿里巴巴业务,并在双十一大促中进一步检验和推广,从而为用户提供高效稳定的存储服务。

相关实践学习
基于EBS部署高性能的MySQL服务
如果您通常是通过ECS实例部署MySQL来使用数据库服务,您可以参考本实验操作来搭建高性能的MySQL服务。本实验为您演示如何通过EBS ESSD云盘部署一个高性能的MySQL服务。
目录
相关文章
|
1天前
|
SQL 安全 算法
网络安全与信息安全:防御前线的关键技术与策略
【5月更文挑战第17天】 在数字化时代,数据成为新的货币,而网络安全则是保护这些宝贵资产不受威胁的盾牌。本文将深入探讨网络安全漏洞的本质、加密技术的最新进展以及提升个人和企业安全意识的有效方法。通过对这些关键领域的分析,我们旨在提供一套综合性的策略和工具,以帮助读者构建更为坚固的网络安全防线。
|
1天前
|
SQL 安全 物联网
网络安全与信息安全:防御前线的关键技术与策略
【5月更文挑战第17天】在数字化时代,网络安全与信息安全已成为维护网络空间稳定的核心。本文深入探讨了网络安全漏洞的成因、加密技术的重要性以及提升安全意识的必要性。通过对现有安全威胁的分析,文章提出了一系列防御措施和策略,旨在帮助个人和组织构建更加稳固的安全防线。
|
1天前
|
SQL 安全 网络安全
网络安全与信息安全:防御前线的关键技术与意识
【5月更文挑战第17天】在数字化时代,数据成为了新的货币,而网络安全则是保护这些资产不受威胁的保险箱。本文深入探讨了网络安全漏洞的概念、加密技术的重要性以及提升个人和企业的安全意识的必要性。通过分析当前网络环境中存在的风险,我们提出了一系列预防措施和应对策略,旨在帮助读者构建一个更加安全的数字生活和工作环境。
|
2天前
|
存储 安全 网络安全
网络安全与信息安全:防御前线的技术与意识
【5月更文挑战第16天】在数字化时代,网络安全与信息安全是维护信息完整性、确保数据流通安全的关键。本文深入探讨了网络安全漏洞的概念、加密技术的应用以及提升个人和企业的安全意识的重要性,旨在为读者提供全面的网络安全知识框架。通过对常见安全威胁的分析,我们展示了现代网络防御策略的必要性,并强调了持续教育和技术创新在保护信息资产中的核心作用。
|
3天前
|
存储 安全 物联网
网络安全与信息安全:防御前线的关键技术
【5月更文挑战第14天】在数字化时代,网络安全和信息安全已成为维护信息完整性、确保数据私密性以及保障系统可用性的基石。本文深入探讨了网络安全漏洞的概念、加密技术的重要性以及提升个人和企业的安全意识的必要性。通过分析当前网络威胁的现状,我们展示了如何应用多层防御策略来识别和防范潜在风险。此外,文中还讨论了最新的安全技术趋势和面临的挑战,为读者提供了一系列实用的知识分享,旨在增强对网络安全复杂性的理解并促进有效的安全实践。
|
3天前
|
存储 安全 算法
网络安全与信息安全:防御前线的关键技术与意识觉醒
【5月更文挑战第12天】在数字化浪潮不断推进的今天,网络安全与信息安全已成为维护社会稳定、保障个人隐私和商业秘密的重要屏障。本文深入探讨了网络安全漏洞的形成机理及其对信息系统的潜在威胁,分析了加密技术在数据保护中的应用及发展,并强调了提升全社会网络安全意识的必要性。通过综合研究,旨在为读者提供一套全面的网络安全知识框架,以及实用的防护策略。
12 2
|
3天前
|
存储 安全 物联网
网络安全与信息安全:防御前线的技术与意识
【5月更文挑战第9天】 在数字化时代,网络安全和信息安全已成为维护个人隐私、企业数据和国家安全的基石。本文将深入探讨网络安全漏洞的概念、加密技术的重要性以及提升安全意识的必要性。通过对这些关键领域的分析,我们将了解如何构建一个更加坚固的信息安全防线,并掌握保护信息不受未授权访问、泄露或破坏的策略和技术。
|
3天前
|
负载均衡 网络协议
虚拟网络技术:bond技术
虚拟网络技术:bond技术
9 0
|
3天前
|
运维 安全 网络协议
即时通讯安全篇(十四):网络端口的安全防护技术实践
网络端口因其数量庞大、端口开放和关闭的影响评估难度大,业务影响程度高、以及异常识别技术复杂度高等特点给网络端口安全防护带来了一定的挑战,如何对端口风险进行有效治理几乎是每个企业安全团队在攻击面管理工作中持续探索的重点项。
22 0
|
3天前
|
安全 物联网 网络安全
网络安全与信息安全:防御前线的关键技术与策略
【5月更文挑战第6天】在数字化时代,网络安全与信息安全已成为保护个人隐私、企业资产和国家安全不可或缺的一环。本文深入探讨了网络安全漏洞的概念、加密技术的进展以及提升安全意识的重要性。通过分析当前网络环境中存在的风险和挑战,文章提出了一系列创新的防御措施和最佳实践,旨在帮助读者构建一个更加安全的网络环境。

热门文章

最新文章


http://www.vxiaotou.com