Pancake Logo

Pancake

Nền tảng Bán hàng & Chăm sóc Khách hàng Đa kênh

E-commerce Platform 75 Compute Nodes 2018 → Present

Tóm tắt Dự án

~80%
Tiết kiệm chi phí
5.6PB
Total Storage
139
Total Nodes
2018
Migration từ GCP

Kết quả

Pancake đã thành công chuyển đổi từ GCP về Private Cloud chạy trên OpenStack + Ceph từ năm 2018. Thời điểm đó chi phí GCP đã lên đến ~1 tỷ VNĐ/tháng. Bắt đầu với mô hình tối giản (2 controller, 3 compute, 5 Ceph RBD nodes), Pancake dịch chuyển dần workload về Việt Nam và scale dần hệ thống. Đến nay, hạ tầng đã phát triển thành 75 compute nodes, 64 Ceph nodes với tổng dung lượng 5.6PB (1.6PB SSD-SATA, 720TB NVMe, 3.3PB S3). Latency giảm đáng kể khi người dùng chủ yếu ở Việt Nam, số người dùng tăng mạnh và hệ thống chạy ổn định hoàn toàn.

Thách thức ban đầu

Chi phí GCP tăng vọt

Năm 2018, hóa đơn GCP đã lên đến khoảng 1 tỷ VNĐ/tháng. Chi phí chính bắt nguồn từ compute instances, storage, và đặc biệt là S3 cho việc lưu trữ media dài hạn - một yêu cầu cốt lõi của nền tảng bán hàng và chăm sóc khách hàng.

Latency cao ảnh hưởng trải nghiệm

Người dùng chủ yếu ở Việt Nam nhưng server đặt ở nước ngoài, gây latency cao và ảnh hưởng đến trải nghiệm sử dụng nền tảng.

Khó kiểm soát chi phí dài hạn

Với mô hình Public Cloud, khó dự báo và kiểm soát chi phí khi business scale. Cần giải pháp bền vững về mặt tài chính cho tăng trưởng dài hạn.

Giải pháp Private Cloud - Lộ trình Phát triển

Giai đoạn 1: Khởi đầu (2018)

Mô hình tối giản

  • • 2 Controller nodes: Quản lý OpenStack services
  • • 3 Compute nodes: Chạy VM workloads
  • • 5 Ceph RBD nodes: Block storage cho VM volumes
  • • Dịch chuyển dần dần workload từ GCP về Việt Nam

Giai đoạn 2: Scale Compute & Storage

Mở rộng theo nhu cầu

  • • Scale dần số lượng Compute nodes lên theo workload
  • • Tăng số Ceph RBD nodes để đáp ứng storage cho VMs
  • • Hệ thống dần ổn định, latency giảm rõ rệt

Giai đoạn 3: Object Storage (thay S3)

Ceph Object Storage Cluster

Do đặc thù phải lưu media dài hạn, chi phí S3 rất lớn. Pancake dựng thêm 1 Ceph Cluster riêng cho RADOS Gateway (S3-compatible object storage).

  • • 28 nodes Ceph Object Storage (S3): 3.3PB capacity
  • • Giảm chi phí storage đáng kể so với GCP S3
  • • API tương thích S3, dễ migration applications

Hiện tại: Hạ tầng Quy mô Lớn

Compute Layer

  • 75 Compute nodes
  • • CPU: AMD EPYC 7H12, 7713, 7763
  • • RAM: 640GB - 1024GB DDR4 3200MHz
  • • High-density virtualization

Storage Layer

  • 23 nodes Ceph SSD-SATA: 1.6PB
  • 13 nodes Ceph NVMe: 720TB
  • 28 nodes Ceph S3: 3.3PB
  • • Total: 5.6PB usable capacity

Tổng: 139 nodes vật lý trong hạ tầng Private Cloud

Kết quả & Lợi ích

Tiết kiệm Chi phí

~80%

Từ ~1 tỷ VNĐ/tháng trên GCP xuống chỉ ~200 triệu VNĐ/tháng OPEX cho Private Cloud. ROI đạt được sau khoảng 18-24 tháng.

Latency Giảm

50-70ms

Latency giảm đáng kể khi hạ tầng đặt tại Việt Nam, gần với người dùng cuối. Trải nghiệm platform mượt mà hơn nhiều.

Người dùng Tăng Mạnh

Với hạ tầng ổn định và chi phí thấp hơn, Pancake có thể đầu tư mạnh vào sản phẩm và marketing. Người dùng và doanh thu tăng trưởng mạnh mẽ.

Chạy Hoàn Toàn tại VN

100% workload đã được migrate từ GCP về Private Cloud tại Việt Nam. Hệ thống chạy ổn định, đội ngũ nội bộ có full control.

Bài học Kinh nghiệm

Bắt đầu Nhỏ, Scale Dần

Pancake bắt đầu với mô hình tối giản (2-3-5 nodes), chứng minh được concept trước khi invest lớn. Sau đó mới scale dần theo nhu cầu thực tế.

Object Storage quan trọng

Với use case lưu trữ media dài hạn, Ceph Object Storage (S3-compatible) giúp tiết kiệm chi phí khổng lồ so với public cloud S3.

Migration Từ từ

Không rush, dịch chuyển workload từ từ để validate từng bước. Giảm risk và có thời gian điều chỉnh architecture.

Hardware Hiện đại

Sử dụng CPU AMD EPYC thế hệ mới (7H12, 7713, 7763) với nhiều core, RAM lớn giúp tối ưu density và performance/watt.

Timeline triển khai (4 tháng)

1

Tháng 1: Discovery & Design

Đánh giá hạ tầng AWS hiện tại, mapping workloads, thiết kế kiến trúc Private Cloud tương ứng.

2

Tháng 2: Infrastructure Setup

Cài đặt 15 compute nodes, 5 storage nodes. Cấu hình OpenStack, Ceph, network. POC testing.

3

Tháng 3: Pilot Migration

Migrate 30% workloads (staging/non-critical), validate performance, adjust tự động scaling policies.

4

Tháng 4: Production Go-live

Migrate 70% production workloads, cutover DNS, decommission AWS. Monitoring 24/7, team training.

Bạn muốn chuyển đổi giống Pancake?

Liên hệ với chúng tôi để nhận tư vấn 1:1 miễn phí về lộ trình Private Cloud của bạn.

Nhận tư vấn miễn phí