首页>>科技 >>内容

分布式存储的分类和典型应用场景有哪些,分布式存储的分类和典型应用场景

发布时间:2023-09-26 10:36:31编辑:温柔的背包来源:

很多朋友对分布式存储的分类和典型应用场景有哪些,分布式存储的分类和典型应用场景不是很了解,每日小编刚好整理了这方面的知识,今天就来带大家一探究竟。

分布式存储的分类和典型应用场景有哪些,分布式存储的分类和典型应用场景

本文来自《2023年中国分布式存储市场研究报告》。分布式存储是指基于分布式架构的IT产品和服务,通过软硬件协同,依靠高效的网络连接多个节点,实现存储功能。

在传统存储面临扩展性有限、结构化/非结构化数据兼容性差、I/O性能和成本不经济、可靠性低、对新应用(如容器)支持能力差、用户体验差等问题的背景下,分布式存储在一定程度上实现了与传统存储的良好合作。与传统集中式存储相比,分布式存储在以下几个领域表现突出:云原生(cloud native):是指政企的业务场景,“生在云上,长在云上”,典型的包括容器和微服务。

高性能计算(HPC):支持每秒十亿次浮点计算(EFLOPS)场景的分布式存储介质:指对大文件、低I/O延迟要求的元宇宙、虚拟数字人、虚拟现实等场景的智能备份;指视频监控、医学影像、智能制造等场景。从规模来看,近三年中国分布式存储市场规模保持30%以上的高速增长,2022年市场规模达到104.2亿元。

从结构上看,2022年文件存储占比最高,一体机、分布式闪存、虚拟化集成在各自领域占比相对较高。从场景来看,2022年中国分布式存储主要场景市场,HPC占据重要地位。从区域来看,2022年华北、华东占据半壁江山,京津冀、长三角市场领先。

2022年中国分布式存储市场,领头羊是华为、中科曙光、浪潮、新华三;挑战者包括XSKY、SmartX、NetApp、DellEMC和严蓉科技;关注者有同游、山彦、中国电子云;能期待的,深以为然,深有关联。中科曙光分布式存储教育、科研、气象市场份额第一,SmartX分布式块存储金融市场份额第一。一、什么是分布式存储?

传统存储面临一些问题,如扩展性有限、结构化/非结构化数据兼容性差、数据读写任务(I/O)的性能和成本不经济、可靠性低、支持新应用(如容器)的能力有待提高,导致用户体验差。在此背景下,分布式存储近年来发展迅速,在一定程度上实现了与传统存储的良好合作,满足了用户在多场景下的个性化需求。

分布式架构:与集中式架构不同,分布式架构并没有一个负责所有服务的中心节点,而是由若干个可以相互通信和协调的普通节点组成,向外界提供服务。软硬件配合:硬件主要由存储控制系统(CPU、缓存)、硬盘/闪存盘、网络组成,软件是与硬件相适应的存储操作系统,以及存储服务软件、管理软件、状态监控软件等应用软件。

高效网络:它不是传统的TCP/IP网络,而是一种存储与计算分离的设计思想,将I/O从内存直接转移到没有CPU的智能网卡上,完成远程直接地址访问网络(RDMA)。二、分布式存储的分类根据场景的特点和需求,2022年国内分布式存储产品主要有四种分类方式:根据存储对象,可分为分布式块存储、分布式文件存储、分布式对象存储和分布式统一存储;

按产品形态可分为一体机、纯硬件和纯软件;按存储介质可分为分布式全闪存和分布式混合闪存;根据部署模式,可分为虚拟化融合模式、容器融合模式和分离模式。(1)按存储对象分类

分布式块存储:是指通过划分逻辑卷(LVM),创建独立的冗余存储阵列(Raid)和逻辑分区,将各存储节点的硬盘、闪存盘等存储硬件资源从物理存储资源转化为面向需求的逻辑块,以提高使用效率。分布式文件存储:是指基于文件系统存储各个存储节点的数据,形成目录、子目录和文件。常见的分布式文件存储应用包括Ceph、HDFS、GFS、FastDFS、GridFS、mogileFS和TFS。

分布式对象存储:指每个存储节点由标识符、数据和元数据的对象数据组成。其中标识符在存储系统中是唯一的,用于区分不同的存储区域;元数据将提取数据要素以便快速检索。与块存储和文件存储相比,分布式对象存储大大提高了数据搜索和提取的效率,适用于文本、音频、视频等非结构化数据。

分布式统一存储:指各存储节点同时支持块、文件、对象三类数据,满足虚拟化、云平台、容器平台等新兴存储需求,为用户提供服务的典型应用和计算平台的统一存储资源池。(2)按产品形式分类

一体机:从设备层面整合优化各节点存储资源。同时软硬件由同一厂商生产交付,适应性强,可有效缓解系统整体功能受单个节点或设备短板影响的问题。扩展性强,并且可以在线添加节点,对以前的业务完全透明。缺点是价格高。

纯硬件:指交付磁盘阵列、闪盘集群等硬件资源的分布式存储产品。适配软件可分为自主开发和开源二次开发两条路线。纯硬件交付模式成本高但可靠性高,适用于重要敏感数据存储场景。

纯软件:指定制应用软件、平台授权码等形式的分布式存储产品。一般用于优化存储硬件场景,如旧数据中心的改造和扩容。纯软件交付定制空间大,成本低,交付周期短,但扩展和存储硬件兼容等问题也会在一定程度上影响运行效率。(3)按存储介质分类

分布式全闪存:指每个存储节点完全由固态硬盘(SSD)组成,主流适配接口为NVNe。每秒的读写次数(IOPS)可以跃升到一百万次,比传统的机械硬盘(HDD)高出近千倍。缺点是价格昂贵,受系统总线协议等部件限制,难以充分发挥分布式全闪存的性能。

分布式闪存:指每个存储节点由SSD、HDD等组成。虽然性能不如分布式全闪存,但可以根据场景需求定制,最大程度的平衡了成本和性能。是目前主流的分布式存储产品。(4)按部署方式分类

虚拟化融合:是指基于分布式存储(主要是块存储)的架构和服务器虚拟化的隔离机制,将存储和服务器虚拟化部署在同一硬件节点上。这种架构的优点是整体架构更简单,节省硬件成本。缺点是计算和存储需要同时扩展,不适合计算和存储应用不平衡的场景。

容器融合:面对日益增长的容器化持久存储需求和Kubernetes独特的管理架构,专门针对这类场景的分布式存储产品也开始出现。容器集成的分布式存储产品对K8s集群中的存储资源进行集成和管理,通过与容器的集成,不仅可以降低成本、简化系统架构,还可以无缝集成到K8s原有的开发和运维体系中,更符合K8s运维团队的使用习惯。

分离:指将每个存储节点的资源从应用程序中分离出来。虽然架构更加复杂,需要更多的硬件节点,但方案更加灵活,适用于更多场景,尤其适用于大容量数据存储以及从裸机、虚拟化到容器等不同计算节点的混合资源池。三、分布式存储的优势

高可靠性:分布式存储的数据完全冗余,存储在多个存储节点。通过多点快照和周期性增量复制两大核心技术,可以在一定时间间隔内同时保存和恢复所有版本的数据,有助于分析和研究,避免类似灾难的再次发生。

高效作业:面对可以分成几个并行运行的子任务的存储任务,分布式存储可以将这些子任务分配到不同的存储节点上,让它们同时运行作业,从而提高效率。此外,分布式存储系统具有任务负载均衡的功能。如果某个存储节点负载过重,可以将一些作业迁移到其他节点上执行,从而减轻该节点的负载,提高整体效率。

高可扩展性:分布式存储横向连接多个存储节点,可以根据存储容量和性能的需求灵活地横向扩展新节点。新存储节点与原系统接入同一网络,业务连续性基本不受影响,基本可以实现分布式存储系统总容量和性能的感应式线性扩展。

新存储节点的资源将由分布式存储操作系统管理,并将被分配或取消。可以通过复制、镜像和同步将原始数据迁移到新节点。

四、分布式存储典型应用场景2022年,我国分布式存储充分发挥了上述优势。与传统的集中式存储相比,它在云原生、高性能计算、媒体融合、智能备份和分布式数据库等领域表现突出。云原生(Cloud native):指政企业务场景,是“生在云上,长在云上”,典型包括容器和微服务;

高性能计算(HPC):支持气象、基因测序等百亿亿次浮点计算(EFLOPS)场景的分布式存储,通常以PB甚至EB计量;媒体融合:指超宇宙、虚拟数字人、虚拟现实等大文件、低I/O延迟要求的场景;智能备份:指视频监控、医学影像、智能制造等场景;

分布式数据库:指具有分布式事务处理能力,可以平滑扩展,分布在计算机网络中,逻辑统一的数据库。分布式存储是分布式数据库的核心技术之一。黄飞

以上知识分享希望能够帮助到大家!