美团代码托管平台经过长期的打磨,完成了分布式架构的改造落地,托管数以万计的仓库,日均Git相关请求达到千万级别。本文主要介绍了美团代码托管平台在迭代演进过程中面临的挑战及解决思路,希望对大家有所帮助或启发。

1. 引言

Code是美团自研的代码托管平台,其中包括了代码版本管理、分支管理及代码评审等功能,协同众多研发流程工具平台,支撑内部所有工程师的日常研发工作。经过近3年的建设,目前Code托管了数以万计的仓库,日常处理千万级的Git相关请求,稳定支撑着美团研发流程规范的持续落地。本文主要介绍美团在建设代码托管平台过程中面临的一些挑战和实践经验。

2. 美团代码托管平台建设之路2.1 代码托管平台的发展史

回顾美团代码托管平台的发展史,整个历程可以划分为三个阶段:单机部署、多机部署以及自研分布式代码托管平台。

第一阶段:单机部署

美团最初的代码托管平台,和绝大多数Web系统一样,单机部署即可运行,所有用户的请求均通过Web应用进行响应。由于Git使用基于文件组织形式的存储模式,无论是通过页面访问还是执行Git命令操作,最终都会表现为磁盘的文件读写,高IO磁盘尤为重要。整体架构如下图1所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(1)

图1 单机部署

第二阶段:多机部署

在访问规模不大的情况下,第一阶段这种单机架构可以满足日常的开发需求。但随着研发团队业务需求的不断增长,测试自动化流程的逐步完善,扩展性瓶颈也愈发明显,主要表现为以下2个方面:

因而,单机部署无法再承载高峰期的访问量,系统扩容刻不容缓。于是,我们开始设计了一套能够通过多机负载同一仓库IO的读写分离架构方案,以解决较为严重的IO负载问题。在读写分离架构中,最重要的是要保证用户视角的数据一致性(用户随时可以读取提交的最新代码),这里采取了以下措施:

  1. 写操作仅发生在主节点。
  2. 采用懒汉同步模式,在读取数据时触发从节点同步数据,若失败,则路由到主节点。
  3. 采用独主兜底模式,遇遇到突发情况时可以迅速禁用从节点,保障数据安全。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(2)

图2 多机部署

如图2所示,我们将仓库访问形式按照应用层协议区分为HTTP和SSH,分别由对应的解析代理模块进行读写分发操作后再下发到主从节点(此处采用了Round-Bobin的算法分发读请求),使得读吞吐量整体扩大了2倍。对于从节点,我们部署了Agent,在用户发起读请求时会触发同步仓库数据的Fetch操作,以保证数据的一致性。

第三阶段:自研分布式代码托管平台

在第二阶段,虽然通过多机负载IO的读写分离架构短暂性地解决了扩展性瓶颈问题,但仓库数据仍在持续不断地指数增长。同时,除扩展性问题之外,可用性瓶颈也凸显出来,主要表现在以下2个方面:

综上所述,Code基于GitLab生态开源组件二次开发,并采用了应用层分片多活模式的分布式架构方案,简介如下:

  1. 底层存储服务基于GitLab生态开源组件二次开发,有良好的生态和丰富的功能支持。
  2. 各服务间均通过gRPC进行交互通信,主要考虑点是Git大多数为二进制数据通信,gRPC基于HTTP 2.0,有良好的传输性能和流式支持。
  3. 通过路由模块实现逻辑层与存储层有效隔离,逻辑层对物理分片无感知,存储层如同一个整体提供服务。
  4. 采用了多活复制模式的数据保障架构,提高读写吞吐量,满足日均千万级的请求量需求。
  5. 针对于应用层分片的劣势,在架构设计时也做了相应的针对性优化,具体如下: 热点库:提供了自动化的分片迁移能力,在发现仓库出现热点时,可进行分片迁移达到分片均衡。跨分片数据交互:通过业务层的Git事务包装,我们使用共享Object的模式并确保相互关联的仓库均落在同一分片上,既避免了跨分片通信的问题,也减少了磁盘空间占用和访问时延。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(3)

图3 Code系统架构图

3. 美团代码托管平台架构演进的落地和挑战

代码托管平台在架构演进过程中,最终完成了以下两个目标:

接下来,针对于每个目标,本文分别从技术挑战、方案选型、设计及解决方案等方面详细介绍我们的实践经验。

3.1 扩展性目标3.1.1 技术挑战

在进行水平扩展改造时,主要面临了以下两类挑战:

3.1.2 方案选型

经过对主流代码托管平台(GitHub、GitLab、Bitbucket等)的调研分析,我们发现各大平台主要采用了以下两种架构解决扩展性问题。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(4)

通过上述对比可以发现,如果直接接入共享存储,暂时无法满足代码托管平台的稳定性和性能要求(若Git机制进行并行优化,且使用更高读写性能的分布式存储系统,或许是一个不错的选择)。在共享存储优化改造成本较高的前提下,我们最终采用了应用层分片的分布式架构,它既满足扩展性的要求,也更加成熟和稳定,并表现出不错的性能。

3.1.3 方案设计

我们通过代理模块实现了请求分发,通过路由模块实现了仓库分片,通过应用模块的无状态改造实现了弹性伸缩,从而达成了水平扩展的架构目标。下面将对这些模块进行详细的介绍。

代理模块

全球最大的代码托管平台(美团代码托管平台的演进与实践)(5)

图5 代理模块

路由模块

全球最大的代码托管平台(美团代码托管平台的演进与实践)(6)

图6 路由模块

应用模块

应用模块主要包括以下两点功能:

整体模块架构如下图7所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(7)

图7 应用模块

3.1.4 解决思路

规模性解决思路

规模化的主要目标是:具备支撑千万级请求的系统能力,并支持计算、存储等资源的水平扩展能力,其中路由均衡是必不可少的一环。

a. 路由均衡

Code系统对数据源可靠性要求较高,而对性能要求相对比较低,因而我们采用了严格仲裁的路由模式,具体的逻辑配置如下:

该功能内置于路由模块的Shard服务,架构如下图8所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(8)

图8 路由逻辑示意图

兼容性解决思路

兼容性目标总结为一句话就是:业务使用无感知。因此,我们主要从以下三个方面考虑兼容性。

a. 与各系统交互方式及现有基础设施兼容

Code系统的众多下游系统(多套前端UI、业务研发流程工具平台等)依赖系统提供的开放API、Hook机制等扩展功能,为了减少系统升级对业务方造成影响,需要保证系统交互方式兼容。同时还要确保系统运维监控体系正常运行,维持可监测状态,我们主要做了以下四件事情:

b. 非分布式版本无缝切换到分布式版本

Code系统仓库众多,需要有低成本的用户自主切换方式保障数据逐步迁移,我们主要做了以下三件事情:

c. 历史数据平滑迁移

Code系统存在众多的历史代码数据和业务数据,如何有效、完整地将历史数据平滑迁移到新的分布式系统,变得尤为重要。为了达成业务使用无感知的目标,主要做了以下两件事情:

3.2 可用性目标3.2.1 技术挑战

在进行可用性改造时,我们主要面临数据安全性层面的挑战。代码作为公司的重要资产之一,需达到两方面的要求:

  1. 代码单点丢失可数据恢复。
  2. 用户视角可以读到正确的代码数据。
3.2.2 方案选型

目前,业界主要有以下三种主流的数据复制模式。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(9)

图9 数据保障方案对比

业界大多数分布式版本控制系统采用的是单主复制模式保障数据安全,随着美团内部研发流程的逐步完善,对于创建注释Tag、分支管理等需求逐步增加,读写比从最初的10:1缩短到现在的5:1,因此需要较高的写入性能。

我们权衡了高吞吐量和数据强一致性的双重目标,在单主复制架构的基础上,采用以仓库维度单主复制为核心,节点多活为特性的复制模式(下文简称为多活模式),从而保证了数据安全和系统可用性。

3.2.3 方案设计

我们主要通过存储模块中,对Git的读、写及初始化三类不同的请求分别采取相对应的数据处理机制,并结合多活复制模式,达成了高可用性的目标。

存储模块

Git Server:主要存储和管理Git仓库数据,提供Git相关的gRPC接口。该服务基于GitLab生态开源组件二次开发,主要在数据同步机制、容灾模块、部分底层命令上做了适配性优化,共涉及以下4个逻辑模块:

  1. Replication Manager:数据复制核心模块,根据不同的请求(读、写或初始化)执行不同的复制逻辑,从而保障数据一致性。
  2. Code Core:Git Server的核心服务模块,主要提供了Git的gRPC API供上游模块使用。
  3. Git Core:实现扩展性和高可用性的重要组件,这里通过源码的方式将GitLab生态开源组件引入到项目中,作为第三方Git API供项目使用。
  4. Git Command Factory:Git命令的中枢控制器,提供控制Git进程数量、传递参数上下文,隔离执行环境及格式化输出数据等功能。

各个逻辑模块间关联如下图10所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(10)

图10 存储模块

Git Cluster:又称为分片,它由三个Git Server节点组成。三个节点间通过各自的Replication Manager模块获取到集群中其余节点的IP等信息,使用gRPC协议进行数据复制备份,可以保证用户视角的数据一致性,逻辑架构如下图11所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(11)

图11 Git Cluster

3.2.4 解决思路

数据安全性解决思路

Code系统要解决的问题中,数据安全问题尤为重要,是保证研发流程安全可靠的关键。在考虑数据安全性解决思路之前,先要明确数据一致性判别准则,Code采用以下准则评判两个仓库数据一致。

数据一致评判准则:若仓库所在两个节点存储的refs数据完全一致,则称为这两个节点上的仓库数据一致。

目前系统数据安全机制主要有以下几个特点:

a.多活复制

目前Code系统每个分片包含3个节点,即代码数据保证三副本,即使出现1~2台节点故障导致数据不可恢复的情况,也可通过其他节点进行数据恢复。我们采用了多活复制模式,即任何一个满足必要条件(当前访问仓库在该节点的数据均重演至最新版本)的机器节点均可以进行读写操作,与单主模式相比提高了写操作的吞吐量,节省了主备切换的成本,使部署、节点替换及异常恢复更加简单。多活复制模式约束有以下两点:

  1. “单写”机制:在同一时刻,同一个仓库的写操作须在同一节点进行。
  2. 数据安全锁机制:若某仓库底层Git的操作出现异常错误,则在数据未恢复前,其后对该仓库的所有操作均会在该节点进行,会产生局部热点。

多活复制主要由数据存储和数据压缩两个部分组成。

01 数据存储

  1. Git主要由objects和refs两类数据组成。objects数据为不可变数据,创建后为只读模式,以文件的形式存储于本地磁盘中;refs数据为可变数据,可以进行更新。两类数据分别采用不同数据源进行存储。
  2. 用户在访问仓库时,如果某个objects没有在任何一个分支的关联链中,那么判定为不可达,对于不可达的objects,无需维护其一致性。不可达object的示例如下:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(12)

图12 不可达object示例图

02 数据压缩

在Code系统中,需要记录refs的变更日志以进行数据回放,保证系统的数据一致性。由于每个仓库的refs数据变换是比较频繁的,会产生大量的日志,从而造成存储压力。因而我们采用了日志压缩技术,减少不必要的数据开销,压缩方式如下图13所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(13)

图13 数据压缩

例如上图中的main分支,其初始状态为main -> a,第4个log为main -> e,第5个log为main -> f,则这3个log可以压缩为一个log,即main -> f并将其应用于初始状态,与压缩前回放触发的结果是一致的,main都将指向值为f的commit。

03 相关优化

在实践过程中,我们发现采用纯Git命令执行数据复制操作无法有效控制资源分配,因而从通信方式、并发形式及复制粒度等方面做了优化,从而提高了整体的数据复制效率。

b. 跨机房备份

Code系统每组分片的3个节点至少来自于两个不同的机房(目前按照规范化部署,均改造为3机房),若其中一个机房发生故障,仍可提供服务。我们对该架构做了针对性的容灾演练,通过演练验证了节点掉线对系统的影响较小,结合灵活的节点替换能力,可在30分钟内上线新的节点,达到容灾平衡状态。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(14)

图14 跨机房备份

c. 数据热备

Code系统提供数据热备机制,通过数据复制的方式,任何写入的新数据会立即同步到其余副本节点,基本“0”延迟,保证了用户视角的强一致性。数据同步机制是热备的关键,我们主要通过以下步骤实现。

01 写操作阶段

  1. 通过引入仓库粒度的写锁,保证同一个仓库同时只能在一个节点执行写入操作,然后通过Git Internal Hook机制触发object数据的同步,并持久化记录refs数据。
  2. 副本节点通过读取持久化的refs数据,重演操作,从而保持了refs数据与写入节点一致。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(15)

图15 写操作步骤

02 读操作阶段

  1. 如果当前仓库持有写锁,则直接路由至持有写锁的节点读取数据。
  2. 如果未持有写锁,则用各个节点的版本和数据源存储的版本数据进行对比,将版本大于等于数据源存储的最新版本的所有节点作为候选路由节点,并采用负载均衡算法进行路由;如果没有符合条件的节点则需进行同步补偿,待补偿成功后再进行路由选择 。

全球最大的代码托管平台(美团代码托管平台的演进与实践)(16)

图16 读操作步骤

03 相关优化

在最初实现中,我们采用了无状态同步,发现存在同步任务被多次执行的情况,后续通过任务前置检查等方式避免了不必要的数据同步任务,最终减少了50%的同步任务。

d. 数据巡检

数据巡检是保证系统平稳运行,数据安全可靠必不可少的一个环节,它可以及早地发现系统中潜在的隐患。巡检服务作为Code系统的核心服务,在降低数据风险,提高系统服务的稳定性方面起到了关键作用。对于巡检服务,我们主要从以下几个方面进行考虑:

综合以上几点,我们采用了无状态的服务架构,提供定点巡检、全量巡检、定时巡检等模式保障数据安全。其中巡检的数据主要分为以下两类:

巡检服务的整体架构如下图17所示:

全球最大的代码托管平台(美团代码托管平台的演进与实践)(17)

图17 巡检模块

4. 总结

本文系统性地介绍了美团在Code系统演进过程中面临的扩展性和可用性两大瓶颈,并分别针对上述两类瓶颈和对应的挑战,详细阐述了解决方案和落地的实践经验。

基于上述的架构改造实践,目前美团代码托管平台实现了仓库容量水平扩展、负载自主均衡等特性,稳定支撑着研发流程规范的落地。我们未来会在支撑研发效率,保障研发安全方面继续进行探索和演进,争取积累更多宝贵的实践经验,后续再跟大家分享。

5. 未来展望6. 本文作者及团队简介

潘陶、费翔、丹丹、毛强等,来自基础研发平台-研发质量与效率团队。

美团研发质量与效率团队,负责公司研发效能领域平台和工具的建设(包括研发需求管理工具、CI/CD流水线、分布式代码托管平台、多语言构建工具、发布平台、测试环境管理平台、全链路压测平台等),致力于不断推进优秀的研发理念和工程实践,建设一流的工程基础设施。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至tech@meituan.com申请授权。

,