Tất cả chuyên mục
Thứ Sáu, 22/11/2024 12:30 (GMT +7)
Siêu máy tính mạnh nhất thế giới của Mỹ vẫn bị lỗi phần cứng, chưa thể hoạt động trọn một ngày
Thứ 3, 11/10/2022 | 22:36:56 [GMT +7] A A
Giám đốc chương trình đã xác nhận việc nó đang gặp lỗi hệ thống cứ sau vài giờ vận hành, nhưng khẳng định đó là điều “hoàn toàn bình thường”.
Nước Mỹ hiện sở hữu một một siêu máy tính ở đẳng cấp riêng khác biệt so với các dòng siêu máy tính trước đó, không chỉ của Mỹ mà toàn thế giới mang tên gọi Frontier.
Nó vận hành dựa trên nền tảng kiến trúc Cray EX235a của công ty Hewlett Packard Enterprise (HPE), với 9.408 nút trong đó mỗi nút được trang bị một CPU AMD Trento 7A53 Epyc 64 lõi với bộ nhớ 512GB DDR4, và bốn GPU Instinct MI250X của AMD với bộ nhớ VRAM 128 GB HBM2E. Tổng cộng, hệ thống có tất cả 602.112 lõi CPU và 8.138.240 lõi GPU, cùng bộ nhớ 4,6 PB của cả DDR4 và HBM2e.
Toàn bộ hệ thống được đặt trong 74 tủ linh kiện, mỗi tủ nặng hơn 3,6 tấn. Hỗ trợ cho nó còn có hệ thống bộ nhớ 700 petabyte với đường mạng ethernet hiệu suất cao Slingshot để truyền dữ liệu.
Vào tháng 5 năm nay, Frontier lọt vào TOP500, danh sách các siêu máy tính toàn cầu, với tư cách là siêu máy tính đầu tiên phá vỡ “rào cản exascale” sau khi nó thể hiện sức mạnh tính toán lên tới 1.102 ExaFlops/s. Kể từ đó tới nay, Phòng thí nghiệm Quốc gia Oak Ridge ở bang Tennessee, nơi quản lý siêu máy tính này, cho biết họ đã sẵn sàng cho các nghiên cứu khoa học trên thiết bị này dự kiến bắt đầu vào tháng Giêng năm tới.
Tuy nhiên, các báo cáo mới nhất cho thấy việc ra mắt Frontier có thể bị gián đoạn bởi các lỗi phần cứng. Trong cuộc trả lời phỏng vấn với Inside HPC gần đây, Giám đốc Chương trình tại Oak Ridge, Justin Whitt, đã xác nhận Frontier đang gặp lỗi hệ thống hàng ngày nhưng khẳng định đó là điều không thể tránh khỏi với một hệ thống lớn như vậy.
“Thời gian trung bình giữa những lần thất bại trên một hệ thống cỡ này là hàng giờ, không phải ngày”, ông nói. "Vì vậy, bạn cần chắc chắn rằng bạn hiểu những thất bại đó là gì và không có khuôn mẫu nào cho những thất bại đó mà bạn cần phải quan tâm."
Whitt nói thêm rằng nếu nó vận hành quá một ngày mà không gặp thất bại là việc "rất xuất sắc". Bởi theo ông, mục tiêu chế tạo ra nó là cho phép người dùng làm việc hiệu quả trong các nghiên cứu khoa học của họ, và thời gian này thay đổi tùy theo từng dự án.
"Mục tiêu của chúng tôi vẫn là vận hành nó hàng giờ", Justin Whitt cho biết.
Một số tin đồn nói rằng vấn đề phần cứng là do AMD Instinct MI250X mới gây ra, nhưng Whitt đã bác bỏ chúng. MI250X là GPU mạnh nhất của AMD và hãng này chỉ bán nó cho một số đối tác nhất định.
“Các vấn đề trải dài trên rất nhiều hạng mục khác nhau, GPU chỉ là một trong số đó”, Whitt nhận xét. "Chúng tôi đang đối phó với rất nhiều thứ lần đầu được xây dựng, cũng như những thứ chưa từng thấy trên các hệ thống khác mà chúng tôi từng triển khai, vì vậy nó là điều quá bình thường."
Whitt thừa nhận rằng quy mô chưa từng có của Frontier đã khiến việc điều chỉnh nó trở nên "khó khăn hơn một chút", nhưng người đại diện chương trình này cho biết họ vẫn đang tuân theo lịch trình đặt ra từ năm 2018-2019 bất chấp sự chậm trễ do đại dịch gây ra.
Theo genk.vn
Liên kết website
Ý kiến ()