Tinh Hoa

Google bị mất dữ liệu vì sét đánh

Sự cố do sét đánh cùng vấn đề phương tiện kỹ thuật quá cũ kỹ khiến cho Google để mất 0,000001% dữ liệu đặt trên dịch vụ Persistent Disks tại zone (nhóm máy chủ) euro-west1-b tại Tây Âu.

Trong một tuyên bố mới, Google thừa nhận sự cố sét đánh vào ngày thứ năm tuần trước đã khiến một lượng nhỏ người dùng tại châu Âu không thể truy cập được vào Persistent Disks, một dịch vụ lưu trữ dữ liệu cho máy ảo trên đám mây của Google. Vấn đề truy cập đã kéo dài qua những ngày cuối tuần đến tận ngày thứ hai vừa qua.

Cụ thể hơn, trong bản phân tích sự cố, Google khẳng định vào ngày 13/8, “4 đợt sét đánh liên tiếp vào hệ thống điện của một trung tâm dữ liệu đặt tại châu Âu đã khiến hệ thống lưu trữ dành cho dịch vụ Google Compute Engine bị mất điện tạm thời“. Sau đó, Google đã đính chính lại thông tin này và cho biết tình trạng mất điện là do sét đánh vào lưới điện địa phương thay vì lưới điện tại trung tâm của công ty.

Mặc dù hệ thống bổ sung tự động đã hồi phục điện năng một cách nhanh chóng và cả hệ thống lưu trữ cũng được thiết kế với pin dự phòng, một vài dữ liệu gần đây đã bị lưu trên các hệ thống lưu trữ bị ảnh hưởng nhiều hơn bởi tình trạng mất điện do pin bị cạn quá lâu hoặc quá thường xuyên“, Google khẳng định.

Trong phần lớn các trường hợp, dữ liệu đã được ghi vào trạng thái ổn định, dù rằng chúng tôi đã phải can thiệp để đưa các hệ thống này về trạng thái hoạt động bình thường. Tuy vậy, trong một số rất ít các trường hợp, chúng tôi không hồi phục được các lệnh ghi dữ liệu gần nhất, khiến cho các dữ liệu này bị rơi vào tình trạng mất vĩnh viễn trên Persistent Disk“.

Hình ảnh trung tâm dữ liệu của Google tại Saint Ghislain, Bỉ.

Số liệu của Google cho thấy có khoảng 5% tổng số đĩa lưu trữ bị gặp phải “ít nhất là một lệnh đọc hoặc ghi” trong sự cố nói trên. Tình trạng đọc dữ liệu gặp trục trặc tiếp tục tiếp diễn vào ngày thứ hai với 0,05% người dùng. Tỷ lệ dữ liệu không thể hồi phục là 0,000001% tổng dung lượng lưu trữ của zone (nhóm máy chủ) euro-west1-b dành cho thị trường Tây Âu. Con số này đã đánh giá là không quá tồi tệ, bởi các bản snapshot (lưu tạm thời tình trạng hệ thống) cùng các loại sao lưu khác sẽ cho phép Google hồi phục lại phần lớn dữ liệu. Dù sao, nhiều khách hàng có lẽ cũng sẽ cảm thấy không hài lòng với Google sau sự cố này.

Trong tài liệu phân tích sự cố, Google cũng đã dũng cảm nhận “toàn bộ trách nhiệm”, song cũng nhắc lại “một lưu ý quan trọng dành cho khách hàng của chúng tôi rằng máy ảo GCE và Persistent Disks trong mỗi zone đều được đặt tại một trung tâm dữ liệu duy nhất và do đó không thể tránh được các sự cố phạm vi toàn trung tâm dữ liệu”.

Cuối cùng, gã khổng lồ phần mềm khẳng định đang thực hiện chương trình nâng cấp để giảm mức độ ảnh hưởng của các sự cố như vừa qua. Theo công ty, phần lớn các hệ thống lưu trữ Persistent Disk hiện đang được chạy trên phần cứng mới. Sau khi hoàn tất đánh giá vụ việc này, Google cũng cho biết sẽ tìm cách cải thiện khả năng bảo vệ dữ liệu của phần cứng cũng như chu trình phản ứng của các kỹ sư khi sự cố xảy ra.

Lê Hoàng

Theo The Register & Stack

Theo VnReview