sd-mds Modern Distributed Systems ·

🎯 Multi-region Database Design Patterns

1️⃣ Core Framework

When discussing Multi-region Database Design, I frame it as:

Why multi-region databases are needed
Single-primary replication
Multi-primary replication
Read replicas
Geo-partitioning
Conflict resolution
Consistency trade-offs
Trade-offs: latency vs consistency vs complexity

2️⃣ Why Multi-region Databases Exist

A multi-region database stores or replicates data across multiple geographic regions.

Goals

Higher availability
Disaster recovery
Lower read latency
Regional compliance
Better user experience
Fault tolerance

Basic Architecture

Region A Database

↓

Replication

↓

Region B Database

↓

Region C Database

👉 Interview Memorization

Multi-region databases exist to improve availability, disaster recovery, latency, and compliance by placing data across multiple geographic regions.

3️⃣ The Hard Part: State

Stateless services are easy to run in multiple regions.

Databases are harder because they contain state.

Stateless Service

Region A Service

Region B Service

Region C Service

Easy to duplicate.

Stateful Database

Who owns the latest write?

Which replica is correct?

Can two regions write at once?

👉 Interview Memorization

Multi-region application services are relatively easy to duplicate, but databases are difficult because state must remain correct across regions.

4️⃣ Pattern 1: Single-primary Database

Architecture

Region A

Primary Database

↓

Region B Replica

↓

Region C Replica

Only one region accepts writes.

Other regions serve reads or standby traffic.

Benefits

Simple consistency model
Easier conflict avoidance
Easier failover reasoning

Drawbacks

Global write latency
Primary region bottleneck
Failover required if primary fails

👉 Interview Memorization

Single-primary replication is the simplest multi-region database pattern because only one region accepts writes.

It avoids write conflicts but may increase latency for users far from the primary region.

5️⃣ Pattern 2: Primary with Read Replicas

Architecture

Writes

↓

Primary Region

Reads

↓

Nearest Replica

Example

US Primary

EU Read Replica

Asia Read Replica

Best For

Read-heavy workloads
Global users
Reporting systems
Product catalogs
Content platforms

Challenge

Replicas may be stale.

👉 Interview Memorization

Primary-with-read-replicas improves global read latency while keeping writes centralized.

The main trade-off is that replicas may lag behind the primary.

6️⃣ Pattern 3: Active-Passive Database

Architecture

Active Region

Primary DB

↓

Passive Region

Standby DB

Normal State

All writes → Active Region

Failure State

Promote Passive Replica

Benefits

Simpler DR
Easier consistency
Lower cost than active-active

Drawbacks

Recovery time
Replication lag
Standby capacity may be underused

👉 Interview Memorization

Active-passive database architecture keeps one active database and one standby replica for disaster recovery.

It is simpler than active-active but usually has higher recovery time.

7️⃣ Pattern 4: Active-Active Database

Architecture

Region A DB ✓

Region B DB ✓

Region C DB ✓

All regions can accept writes.

Benefits

Low write latency globally
High availability
Better regional autonomy

Challenges

Write conflicts
Ordering problems
Replication complexity
Harder debugging

👉 Interview Memorization

Active-active databases allow multiple regions to accept writes, improving latency and availability.

The cost is much higher complexity around consistency and conflict resolution.

8️⃣ Pattern 5: Geo-partitioned Database

Core Idea

Place each user’s data in their home region.

Example

US Users → US Database

EU Users → EU Database

Asia Users → Asia Database

Benefits

Low local latency
Better data sovereignty
Smaller conflict surface

Drawbacks

Cross-region queries are harder
User migration is complex
Global analytics is harder

👉 Interview Memorization

Geo-partitioning assigns data ownership to regions based on geography or tenant location.

It improves locality and compliance but complicates cross-region queries.

9️⃣ Pattern 6: Tenant-partitioned Database

Architecture

Tenant A → Region A DB

Tenant B → Region B DB

Tenant C → Region C DB

Best For

SaaS platforms
Enterprise customers
Regulated tenants
Data residency requirements

Benefits

Tenant isolation
Compliance support
Regional control

👉 Interview Memorization

Tenant-partitioned databases place each tenant’s data in a specific region, which is useful for SaaS isolation and compliance requirements.

🔟 Pattern 7: Sharded Multi-region Database

Architecture

Shard 1 → US

Shard 2 → EU

Shard 3 → Asia

Routing

Request

↓

Shard Router

↓

Owning Region

Benefits

Horizontal scalability
Localized ownership
Better resource distribution

Challenges

Rebalancing
Hot shards
Cross-shard transactions
Complex routing

👉 Interview Memorization

Sharded multi-region databases distribute data across regions using partition keys.

They scale well but require careful routing, rebalancing, and transaction design.

1️⃣1️⃣ Synchronous Replication

How It Works

Write

↓

Primary

↓

Remote Replica ACK

↓

Success

Benefits

Strong consistency
Very low data loss
Better correctness

Drawbacks

Higher latency
Lower availability during network partitions

👉 Interview Memorization

Synchronous replication improves consistency and reduces data loss, but every write pays cross-region latency.

1️⃣2️⃣ Asynchronous Replication

How It Works

Write

↓

Primary Commit

↓

Success

↓

Replicate Later

Benefits

Lower latency
Higher write throughput
Better availability

Drawbacks

Replication lag
Stale reads
Potential data loss during failover

👉 Interview Memorization

Asynchronous replication improves latency and availability but introduces replication lag and possible stale reads.

1️⃣3️⃣ Consistency Models

Strong Consistency

All regions see latest committed data.

Eventual Consistency

Regions converge over time.

Bounded Staleness

Replica can be stale,
but only within a known window.

Session Consistency

User sees their own writes.

👉 Interview Memorization

Multi-region databases must explicitly choose a consistency model such as strong consistency, eventual consistency, bounded staleness, or session consistency.

1️⃣4️⃣ Read-after-write Problem

Problem

User writes in Region A

User reads from Region B

Region B may not have the latest write.

Example

User updates profile photo.

Refresh page.

Old photo appears.

Solutions

Sticky reads
Read from primary
Session tokens
Bounded staleness
Client-side retry

👉 Interview Memorization

Read-after-write consistency is a common challenge in replicated databases because users may read from replicas before their writes arrive.

1️⃣5️⃣ Conflict Resolution

Why Conflicts Happen

Region A updates record.

Region B updates same record.

Both before replication.

Strategies

Last-write-wins
Version vectors
CRDTs
Application-level merge
Single-writer ownership

Best Rule

Avoid conflicts when possible.

👉 Interview Memorization

Conflict resolution is required when multiple regions can write the same data concurrently.

The best strategy is often to design ownership rules that avoid conflicts in the first place.

1️⃣6️⃣ Failover Strategy

Primary Failure

Primary Region ❌

↓

Promote Replica

Important Questions

Which replica is most up to date?
Is replication lag acceptable?
Could split brain happen?
Should failover be automatic?

👉 Interview Memorization

Database failover must safely promote a replica while avoiding split brain and minimizing data loss.

1️⃣7️⃣ Split-brain Risk

Dangerous Scenario

Region A thinks it is primary.

Region B also thinks it is primary.

Both accept writes.

Result

Data divergence

Prevention

Quorum
Leader election
Fencing tokens
Consensus protocol
Manual promotion for critical systems

👉 Interview Memorization

Split brain occurs when multiple database regions believe they are primary and accept conflicting writes.

Preventing it is essential for correctness.

1️⃣8️⃣ Global Transactions

Problem

Transaction touches multiple regions.

Update user in US

Update billing in EU

Update audit in Asia

Result

High latency
Distributed locking
Coordination complexity

Better Design

Keep transactions local
Use sagas
Use outbox pattern
Use eventual consistency
Avoid cross-region writes

👉 Interview Memorization

Cross-region transactions are expensive and should be avoided when possible.

Prefer local transactions plus asynchronous workflows.

1️⃣9️⃣ Observability

Monitor

Replication lag
Replica health
Conflict rate
Failover status
Read latency by region
Write latency by region
Stale read rate
Cross-region traffic
RPO and RTO compliance

👉 Interview Memorization

Multi-region database observability must track replication lag, regional health, stale reads, conflicts, and failover readiness.

2️⃣0️⃣ Best Practices

Practical Rules

Start with single-primary unless active-active is required
Use read replicas for global read latency
Keep writes local when possible
Avoid cross-region transactions
Monitor replication lag
Define consistency model explicitly
Prevent split brain
Test failover regularly
Design data ownership carefully

Design Principle

Global reads are easy.

Global writes are hard.

👉 Interview Memorization

The safest multi-region database designs minimize global writes and use clear ownership rules for data placement.

🧠 Staff-Level Answer Final

👉 Full Interview Answer

Multi-region database design is about placing and replicating state across geographic regions while balancing latency, consistency, availability, and operational complexity.

The simplest pattern is single-primary replication, where one region accepts writes and other regions serve reads or act as standby replicas.

This avoids write conflicts but may increase write latency for distant users.

Read replicas improve global read latency but introduce replication lag and stale reads.

Active-passive designs are common for disaster recovery because they are simpler to reason about.

Active-active databases improve write latency and availability by allowing multiple regions to accept writes, but they introduce conflict resolution, ordering, and debugging complexity.

Geo-partitioning and tenant-partitioning are common patterns for improving locality and satisfying data residency requirements.

The hardest problems are cross-region writes, global transactions, split brain, and conflict resolution.

For most systems, a good default is single-primary writes, regional read replicas, explicit data ownership, and careful failover testing.

The core principle is that global reads are relatively easy, but global writes are hard.

⭐ Final Insight

Multi-region Database Design 的核心不是：

“多复制几份数据库”

而是：

Write Ownership

Replication Lag

Consistency

Failover

Conflict Resolution

Data Locality

Compliance

最重要的一句话：

Global reads are easy.

Global writes are hard.

中文部分

🎯 Multi-region Database Design Patterns（多区域数据库设计模式）

核心理解

Multi-region Database 是指：

数据库跨多个地理区域部署或复制

目标是：

高可用
容灾
降低读取延迟
满足合规
提升全球用户体验

常见模式

1. Single-primary

Region A Primary

↓

Region B Replica

只有一个 Region 接收写入。

优点：

简单
一致性容易保证
避免写冲突

缺点：

远端用户写入延迟高

2. Read Replica

Writes → Primary

Reads → Local Replica

适合读多写少系统。

主要问题：

Replication Lag

3. Active-Passive

Primary Region

↓

Standby Region

适合灾难恢复。

4. Active-Active

Region A 可写

Region B 可写

优点是低延迟和高可用。

缺点是冲突处理复杂。

5. Geo-partitioning

US Users → US DB

EU Users → EU DB

适合数据本地性和合规需求。

核心挑战

Replication Lag

副本可能落后主库。

Read-after-write

用户写完后可能读到旧数据。

Conflict Resolution

多个 Region 同时写同一数据。

Split Brain

多个 Region 都认为自己是 Primary。

Cross-region Transaction

跨区域事务非常昂贵。

面试背诵版

Multi-region Database 的核心挑战是如何在全球范围内复制状态，同时平衡延迟、一致性、可用性和复杂度。

Single-primary 最简单， Active-active 性能最好但最复杂。

大多数系统应该优先选择单写主库、区域读副本和明确的数据归属规则。

⭐ 最终总结

Multi-region Database Design 的核心不是：

“数据库多放几个 Region”

而是：

谁能写？

哪里能读？

数据如何同步？

冲突如何解决？

最重要的一句话：

Global reads are easy.

Global writes are hard.