Thử nghiệm thành công 5 CSDL mẫu, công cụ phân tích và mô hình ML trên Openscience - Nền tảng Quản trị Dữ liệu Nghiên cứu Khoa học và Công nghệ

Sau giai đoạn thiết kế và xây dựng, nhóm dự án tiến hành thử nghiệm nền tảng quản trị dữ liệu nghiên cứu KH&CN Openscience.vn với 5 cơ sở dữ liệu mẫu (CSDL) và các công cụ phân tích dữ liệu, mô hình học máy (ML) được tích hợp trên nền tảng.

Một số cơ sở dữ liệu được chia sẻ, chạy thử và huấn luyện trên nền tảng Openscience.vn

Cụ thể:

5 bộ dữ liệu mẫu trên nền tảng Openscience.vn bao gồm: (1) Dữ liệu giọng nói tiếng Việt (Vietnamese Speech Dataset); (2) Dữ liệu hình ảnh bệnh da liễu (Skin Disease Images Dataset); (3) Dữ liệu dự đoán bệnh tim (Heart Data Sets); (4) Dữ liệu hệ gen (Human Genome Datasets); (5) Dữ liệu điện não đồ (EEG Datasets).
Thực thi các mô hình học máy trên 5 cơ sở dữ liệu mẫu tương ứng được tích hợp trên nền tảng Openscience.vn, bao gồm:

Mô hình học máy nhận dạng giọng nói trên bộ dữ liệu Vietnamese Speech Dataset;
Mô hình học máy phân lớp bệnh ung thư da trên bộ dữ liệu Skin Disease Images Dataset;
Mô hình học máy dự đoán bệnh tim trên bộ dữ liệu Heart Data Sets;
Mô hình học máy cho chú thích biến thể gen trên bộ dữ liệu Human Genome Datasets;
Mô hình học máy cho phân lớp trên bộ dữ liệu EEG Datasets.

Thử nghiệm nền tảng thu thập dữ liệu từ 4 nguồn bằng công cụ nifi (CSDL quan hệ, dữ liệu luồng IoT, tệp hệ thống, phần mềm qua API).
Thử nghiệm nền tảng xử lý dữ liệu Spark, bao gồm các kịch bản xử lý dữ liệu theo lô (batch processing) và xử lý dữ liệu theo luồng (streaming processing).
Thử nghiệm phát triển mô hình học máy (ML/DL) Kubeflow trên nền tảng Openscience.vn, bao gồm: Đăng nhập một lần SSO, tạo không gian làm việc cho người dùng (workspace), thực hiện kịch bản luồng (pipeline) phát triển mô hình học máy với dữ liệu được lưu trong nền tảng Openscience.vn.