Với sự phát triển mạnh mẽ của Khoa học dữ liệu và Trí tuệ nhân tạo, việc xây dựng nền tảng quản trị dữ liệu KH&CN tích hợp các nền tảng thu thập, xử lý, phát triển mô hình học máy quy mô quốc gia là vấn đề cấp thiết.
Trên thế giới, các quốc gia phát triển như Mỹ, Nhật Bản, Hàn Quốc…và các nước đang phát triển ở Châu Á cũng đã và đang xây dựng các nền tảng quản trị dữ liệu lớn và phát triển các mô hình học máy, trí tuệ nhân tạo. Tuy nhiên, kinh phí xây dựng, phát triển và vận hành các nền tảng đó rất lớn.
Bộ trưởng Bộ KH&CN Huỳnh Thành Đạt (giữa) chứng kiến hợp tác của các đơn vị để phát triển nền tảng Openscience.vn.
Nhằm đáp ứng yêu cầu về xây dựng hạ tầng, quản trị và chia sẻ dữ liệu từ các nghiên cứu khoa học trên phạm vi toàn quốc, nền tảng Openscience ra đời, mở ra cơ hội tiếp cận và khai thác nguồn tài nguyên dữ liệu chất lượng cho cộng đồng chuyên gia.
Sau quá trình khảo sát, đánh giá các kiến trúc nền tảng quản trị dữ liệu mở về KH&CN của các nước trên thế giới như Singapore, Thái Lan, Indonesia… và sau hơn 2 năm triển khai, Nền tảng quản trị, chia sẻ dữ liệu NCKH&CN dùng chung trên quy mô quốc gia Openscience.vn đã ra mắt, tích hợp công nghệ tính toán đám mây (cloud) và xử lý, phân tích dữ liệu lớn (big data).
Giao diện cổng thông tin Openscience.vn
Nền tảng bao gồm các thành phần sau:
- Cổng thông tin Openscience.vn (front-end) cho phép cập nhật, lưu trữ, phê duyệt, hiển thị và quản trị các bộ dữ liệu nghiên cứu KH&CN được lưu trữ trong nền tảng; cho phép truy cập vào các nền tảng bên trong hệ thống (back-end) thông qua cơ chế đăng nhập một lần (SSO).
- Các nền tảng thu thập, xử lý, phân tích, quản trị hạ tầng dữ liệu và quản trị hạ tầng đám mây (cloud) được tích hợp trên Openscience.vn, bao gồm:
- Nền tảng thu thập, tích hợp dữ liệu từ nhiều nguồn (nifi): cho phép thu thập, tích hợp dữ liệu từ bốn nguồn: hệ thống CSDL quan hệ (RDBMS), tệp dữ liệu (file) được chia sẻ, dữ liệu luồng từ IoT, dữ liệu từ phần mềm khác qua API.
- Nền tảng xử lý dữ liệu (Spark): cho phép xử lý dữ liệu theo lô (batch processing) và xử lý dữ liệu theo luồng (streaming processing).
- Nền tảng phát triển các mô hình học máy (Kubeflow): cho phép thực thi luồng (pipeline) mô hình học máy (ML/DL) trên các bộ dữ liệu lưu trữ trong nền tảng, bao gồm: đọc dữ liệu, lựa chọn mô hình, huấn luyện mô hình, thực thi mô hình và quản lý kết quả thực hiện…
- Quản trị dữ liệu (CEPH): thực thi các tác vụ quản trị các bộ dữ liệu lưu trữ trong nền tảng, quản trị lưu trữ dữ liệu…
- Quản trị hạ tầng đám mây (Kubernetes): thực thi các tác vụ quản trị hạ tầng đám mây như quan trắc tài nguyên, kết nối với các ứng dụng ngoài, cấp phát và khống chế tài nguyên (bộ nhớ, CPU, GPU) cho các máy ảo, các người sử dụng, cân bằng tải, quản trị các cụm cloud…
Việc xây dựng và vận hành hiệu quả nền tảng Openscience.vn tại Cục NASSATI dưới sự tài trợ phát triển của Quỹ VINIF và tài trợ hạ tầng của FPT Smart Cloud, là môi trường cho phép các nhà khoa học trong nước xây dựng, phát triển các mô hình học máy, AI và chia sẻ dữ liệu, mô hình cho cộng đồng, cho phép tái sử dụng dữ liệu và mô hình, giảm thiểu thời gian, công sức xây dựng, phát triển mô hình, đưa các mô hình ra các ứng dụng trong các bài toán thực tiễn.