Báo cáo tóm tắt việc thực hiện dự án theo từng giai đoạn:
STT | Nội dung nghiên cứu đã đăng ký | Sản phẩm đạt được |
I | Giai đoạn 1: Nghiên cứu kiến trúc nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ và xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 1 | |
1 | Nội dung 1. Đánh giá hiện trạng dữ liệu nghiên cứu khoa học và công nghệ (KH&CN) ở Việt Nam | 1) Báo cáo khảo sát, đánh giá hiện trạng dữ liệu nghiên cứu KH&CN ở Việt Nam |
2 | Nội dung 2. Đánh giá các kiến trúc nền tảng đám mây (cloud), dữ liệu lớn (big data) hiện thời. | 1) Báo cáo khảo sát đánh giá các kiến trúc nền tảng quản trị dữ liệu big data và cloud hiện thời |
3 | Nội dung 3. Đề xuất kiến trúc nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | 1) Báo cáo đề xuất kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN 2) Báo cáo các giải pháp mã nguồn mở cho kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN |
4 | Nội dung 4: Xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 1 | |
4.1 | Công việc 4.1. Xây dựng phần mềm nền tảng đám mây (cloud) giai đoạn 1 | 1) Phần mềm hệ thống hạ tầng cloud cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 1. 2) Báo cáo xây dựng phần mềm hệ thống hạ tầng cloud cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 1 |
4.2 | Công việc 4.2. Xây dựng phần mềm nền tảng quản trị dữ liệu lớn (big data) giai đoạn 1 | 1) Phần mềm hệ thống nền tảng quản trị dữ liệu lớn (big data) giai đoạn 1. 2) Báo cáo xây dựng phần mềm hệ thống nền tảng quản lý dữ liệu lớn (big data) giai đoạn 1. |
4.3 | Công việc 4.3. Tổ chức Hội thảo giới thiệu lấy ý kiến chuyên gia về kiến trúc nền tảng quản trị sử dụng dữ liệu nghiên cứu khoa học và công nghệ và trình diễn phần mềm (demo platform) | Viện CNTT phối hợp với Cục thông tin Khoa học và Công nghệ Quốc gia (NASATI) đồng tổ chức 02 hội thảo khoa học với chủ đề “Dữ liệu nghiên cứu mở phục vụ chia sẻ, dùng chung trong kỷ nguyên số” tại thành phố Hồ Chí Minh (21/06/2022) và Thừa Thiên Huế (04/08/2022). |
II | Giai đoạn 2. Xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 2 | |
5 | Nội dung 5: Xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 2 | |
5.1 | Công việc 5.1. Xây dựng phần mềm nền tảng đám mây (cloud) giai đoạn 2 | 1) Phần mềm hệ thống hạ tầng cloud cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 2 2) Báo cáo xây dựng phần mềm hệ thống hạ tầng cloud cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 2 |
5.2 | Công việc 5.2. Xây dựng phần mềm nền tảng quản trị dữ liệu lớn (big data) giai đoạn 2. | 1) Phần mềm quản trị, chia sẻ dữ liệu – Openscience.vn, là giao diện (front-end) tích hợp các phần mềm quản trị cloud và quản trị big data (back-end) 2) Các tài liệu kèm theo phần mềm (Tài liệu đặc tả yêu cầu sử dụng, Tài liệu phân tích thiết kế hệ thống, Báo cáo kiểm thử phần mềm, Tài liệu hướng dẫn cài đặt, Tài liệu hướng dẫn sử dụng cho quản trị hệ thống, quản trị tổ chức và người dùng tổ chức/cá nhân) |
1) Báo cáo vận hành thử nghiệm phần mềm Openscience.vn 2) Báo cáo nhập liệu 1000 bộ dữ liệu mẫu lên Openscience.vn | ||
1) Phân hệ phần mềm xử lý dữ liệu theo lô (batch processing) trên Openscience.vn 2) Báo cáo xây dựng phân hệ xử lý dữ liệu theo lô trên Openscience.vn | ||
1) Phân hệ phần mềm xử lý dữ liệu theo luồng (streaming processing) trên Openscience.vn 2) Báo cáo xây dựng phân hệ xử lý dữ liệu theo luồng (streaming processing) trên Openscience.vn | ||
1) Tài liệu quản trị nền tảng dữ liệu lớn CEPH trên Openscience.vn 2) Báo cáo tích hợp nền tảng quản trị dữ liệu lớn với phần mềm Openscience.vn | ||
5.3 | Công việc 5.3. Tổ chức hội thảo giới thiệu lấy ý kiến chuyên gia về platform nền tảng quản trị sử dụng dữ liệu nghiên cứu khoa học và công nghệ | Cục Thông tin khoa học và công nghệ quốc gia – Bộ Khoa học và Công nghệ (NASSATI phối hợp với Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ, Viện Nghiên cứu Dữ liệu lớn của Tập đoàn Vingroup, Câu lạc bộ các Khoa – Trường – Viện Công nghệ Thông tin – Truyền thông Việt Nam (FISU) đã công bố và ký kết hợp tác phát triển “Nền tảng quản lý và chia sẻ dữ liệu nghiên cứu khoa học và công nghệ dùng chung Openscience.vn” trong khuôn khổ sự kiện “Ngày hội trí tuệ nhân tạo Việt Nam – AI4VN” tổ chức tại TP. Hồ Chí Minh từ ngày 21-22/9/2023. |
III | Giai đoạn 3. Thử nghiệm Nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | |
6 | Nội dung 6: Thử nghiệm chia sẻ dữ liệu nghiên cứu khoa học và công nghệ từ các nhóm / tổ chức nghiên cứu | 1) 05 cơ sở dữ liệu (CSDL) mẫu theo đăng ký trong thuyết minh được tích hợp, chia sẻ trên Openscience.vn2) Tài liệu mô tả tích hợp,chia sẻ 05 cơ sở dữ liệu mẫu trên Openscience.vn |
7 | Nội dung 7: Thử nghiệm sử dụng dữ liệu trên nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | 1) Các mô hình học máy chạy 05 cơ sở dữ liệu mẫu đã được tích hợp trên Kubeflow trong Openscience.vn2) Báo cáo kết quả thử nghiệm sử dụng công cụ học máy trên 05 CSDL mẫu được tích hợp trên Openscience.vn |
8 | Nội dung 8: Đề xuất mô hình triển khai nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ ở phạm vi quốc gia | 1) Báo cáo đề xuất mô hình triển khai và vận hành nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ ở phạm vi quốc gia2) Dự thảo Quy chế tổ chức, quản lý, cung cấp và sử dụng dữ liệu trên Openscience.vn3) Quy định tạm thời đăng ký, đăng nhập và sử dụng tài khoản người dùng hệ thống |
1) Hệ thống phần mềm nền tảng quản trị dữ liệu nghiên cứu KH&CN (Openscience.vn) được triển khai và vận hành trên hạ tầng của FPT Cloud 2) Tài liệu quản trị và vận hành nền tảng quản trị dữ liệu nghiên cứu KH&CN trên hạ tầng FPT Cloud | ||
9 | Nội dung 9: Tổ chức hội thảo, quảng bá cho các đơn vị tham gia nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | Ngày 28/06/2024, Viện Công nghệ thông tin phối hợp với Cục NASSATI và Trường Đại học Công nghiệp Hà Nội tổ chức Hội thảo giới thiệu, khai thác và quản trị “Nền tảng quản lý và chia sẻ dữ liệu nghiên cứu khoa học và công nghệ dùng chung Openscience.vn” tại Trường Đại học Công nghiệp Hà Nội. |
Báo cáo chi tiết
Mô tả chi tiết các nội dung và hoạt động của nhiệm vụ đã thực hiện
TT | Danh mục | Quá trình, phương pháp thực hiện | Kết quả đạt được |
A | Giai đoạn 1. Nghiên cứu kiến trúc nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ và xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 1 | ||
I | Nội dung 1. Đánh giá hiện trạng dữ liệu nghiên cứu khoa học và công nghệ (KH&CN) ở Việt Nam | Khảo sát, đánh giá hiện trạng dữ liệu nghiên cứu KH&CN ở Việt Nam, bao gồm:- Hiện trạng dữ liệu nghiên cứu KH&CN ở một số quốc gia trên thế giới- Hiện trạng dữ liệu nghiên cứu KH&CN ở Việt Nam từ các nguồn dữ liệu khác nhau- Đánh giá hiện trạng dữ liệu nghiên cứu KH&CN ở Việt Nam. | Báo cáo khảo sát, đánh giá hiện trạng dữ liệu nghiên cứu KH&CN ở Việt Nam |
II | Nội dung 2. Đánh giá các kiến trúc nền tảng đám mây (cloud), dữ liệu lớn (big data) hiện thời | Khảo sát, đánh giá các kiến trúc nền tảng đám mây, quản trị dữ liệu hiện thời, bao gồm:- Các kiến trúc hạ tầng Cloud thương mại.- Các kiến trúc hạ tầng Cloud nguồn mở.- Các kiến trúc nền tảng quản trị dữ liệu Big Data thương mại.- Các kiến trúc nền tảng quản trị dữ liệu Big Data mã nguồn mở | Báo cáo khảo sát đánh giá các kiến trúc nền tảng quản trị dữ liệu big data và cloud hiện thời |
III | Nội dung 3. Đề xuất kiến trúc nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | 1) Nghiên cứu, đề xuất kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN, bao gồm:- Kiến trúc tổng thể của hệ thống- Tầng tích hợp dữ liệu- Kiến trúc lưu trữ dữ liệu- Tầng xử lý hàng loạt (Batch Processing Layer)- Tầng xử lý dữ liệu dòng, liên tục (Streaming Processing Layer)- Các dịch vụ về dữ liệu, kiến trúc ETL…2) Nghiên cứu, đề xuất các giải pháp mã nguồn mở cho kiến trúc đề xuất, bao gồm:- Giải pháp cho tầng tích hợp dữ liệu: sử dụng nền tảng NiFi, Airbyte- Giải pháp lưu trữ dữ liệu (nhanh/chậm): kiến trúc CEPH và triển khai kiến trúc CEPH- Giải pháp cho tầng xử lý dữ liệu: Lakehouse và Bath / Streaming data- Giải pháp cho tầng điều phối- Nền tảng quản trị cloud Kubernetes | 1) Báo cáo đề xuất kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN 2) Báo cáo các giải pháp mã nguồn mở cho kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN |
IV | Nội dung 4. Xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 1 | ||
IV.1 | Công việc 4.1. Xây dựng phần mềm nền tảng đám mây (cloud) cho nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 1 | 1) Xây dựng phần mềm hạ tầng đám mây (cloud) cho nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 1, bao gồm các tính năng:- Thiết lập nền tảng đám mây bằng Kubernetes (K8S)- Thiết lập các tính năng xử lý (Deploying Workloads), lưu trữ (Storage), kết nối mạng (Services) và các tính năng khác- Giao diện quản trị hạ tầng đám mây Rancher.2) Lập báo cáo xây dựng phần mềm hạ tầng đám mây cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 1 | 1) Phần mềm hạ tầng đám mây cho nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 12) Báo cáo xây dựng phần mềm hạ tầng đám mây cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 1 |
IV.2 | Công việc 4.2. Xây dựng phần mềm nền tảng quản trị dữ liệu lớn (big data) giai đoạn 1 | 1) Xây dựng phần mềm nền tảng quản trị dữ liệu lớn (Big Data) giai đoạn 1, bao gồm:- Cài đặt nền tảng lưu trữ CEPH và tích hợp nền tảng thu thập dữ liệu (nifi, airbyte)- Thiết lập, xây dựng các tính năng tạo luồng thu thập, tích hợp dữ liệu từ các nguồn (dữ liệu tệp, cơ sở dữ liệu quan hệ RDBMS, dữ liệu từ phần mềm SaaS qua API, dữ liệu luồng từ IoT), lưu trữ dữ liệu (lưu trữ kiểu Object, lưu trữ kiểu Block, lưu trữ kiểu File) và giám sát tài nguyên.2) Lập báo cáo xây dựng phần mềm hệ thống nền tảng quản lý dữ liệu lớn (big data) giai đoạn 1 | 1) Phần mềm hệ thống nền tảng quản trị dữ liệu lớn (big data) giai đoạn 1. 2) Báo cáo xây dựng phần mềm hệ thống nền tảng quản lý dữ liệu lớn (big data) giai đoạn 1. |
IV.3 | Công việc 4.3. Tổ chức Hội thảo giới thiệu lấy ý kiến chuyên gia về kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN và trình diễn phần mềm | Viện CNTT phối hợp với Cục thông tin Khoa học và Công nghệ Quốc gia (NASATI) đồng tổ chức 02 hội thảo khoa học với chủ đề “Dữ liệu nghiên cứu mở phục vụ chia sẻ, dùng chung trong kỷ nguyên số”, trong đó giới thiệu và lấy ý kiến chuyên gia về kiến trúc nền tảng quản trị dữ liệu nghiên cứu KH&CN và trình diễn sản phẩm giai đoạn 1, cụ thể:1) Hội thảo thứ nhất tại thành phố Hồ Chí Minh ngày 21/06/2022)https://www.vista.gov.vn/news/khoa-hoc-ky-thuat-va-cong-nghe/du-lieu-nghien-cuu-mo-phuc-vu-chia-se-dung-chung-trong-ky-nguyen-so-5148.html 2) Hội thảo thứ hai ở Thừa Thiên Huế ngày 04/08/2022.https://vista.gov.vn/vi/news/cac-linh-vuc-khoa-hoc-va-cong-nghe/hoi-thao-khoa-hoc-xay-dung-du-lieu-nghien-cuu-mo-phuc-vu-chia-se-dung-chung-trong-ky-nguyen-so-5340.html | 1) Hội thảo ở thành phố Hồ Chí Minh ngày 21/06/20222) Hội thảo ở Thừa Thiên Huế ngày 04/08/2022 |
B | Giai đoạn 2. Xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 2 | ||
V | Nội dung 5: Xây dựng nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ giai đoạn 2 | ||
V.1 | Công việc 5.1. Xây dựng phần mềm nền tảng đám mây (cloud) giai đoạn 2 | 1) Xây dựng phần mềm hạ tầng Cloud giai đoạn 2, bao gồm::- Cài đặt nền tảng Rancher quản trị cụm máy chủ trên đám mây.- Thiết lập quản trị tài nguyên cloud, bao gồm: quan trắc tài nguyên cloud, phân phối và khống chế tài nguyên cho các máy ảo, cung cấp tài nguyên động (auto-scale), cân bằng tải (load balancing), gán vùng dữ liệu của các container cho hệ thống lưu trữ- Thiết lập quản trị các cụm (cluster) và các máy ảo, bao gồm: thiết lập, đăng ký các cụm và các máy ảo; quản trị các cụm, các máy ảo (có thể quản trị trên 100.000 máy ảo); phân phối, quản trị tài nguyên cho các cụm, máy ảo;- Thiết lập kiểm soát, vận hành (monitoring) và hiển thị thông tin trực quan (dashboard).2) Lập báo cáo xây dựng phần mềm hạ tầng cloud giai đoạn 2, bao gồm các nội dung chính:- Kiến trúc phần mềm hệ thống Rancher- Cài đặt phần mềm hệ thống Rancher- Hướng dẫn sử dụng phần mềm và các tính năng- Đặc tả và thử nghiệm các tính năng quả trị. | 1) Phần mềm hạ tầng cloud cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 2 2) Báo cáo xây dựng phần mềm hạ tầng cloud cho nền tảng quản trị dữ liệu nghiên cứu KH&CN giai đoạn 2 |
V.2 | Công việc 5.2. Xây dựng phần mềm quản trị, chia sẻ dữ liệu Dataset Management – Cổng thông tin Openscience.vn | 1) Xây dựng phần mềm cổng thông tin Openscience.vn cho phép tổ chức, cá nhân nạp (upload), tải (download), chia sẻ (sharing) các bộ dữ liệu nghiên cứu KH&CN (dataset) trên hạ tầng quản trị dữ liệu lớn (CEPH) theo phân quyền người sử dụng. Hệ thống bao gồm các tính năng:- Quản lý tổ chức, cá nhân tham gia hệ thống- Quản lý tài khoản, phân quyền người sử dụng- Quản lý, chia sẻ bộ dữ liệu (dataset)- Kết xuất báo cáo, thống kê2) Xây dựng bộ tài liệu kèm theo phần mềm, bao gồm: Tài liệu đặc tả yêu cầu người sử dụng; tài liệu phân tích thiết kế hệ thống; báo cáo kiểm thử phần mềm; tài liệu hướng dẫn cài đặt; tài liệu hướng dẫn sử dụng cho quản trị hệ thống, quản trị tổ chức và người dùng tổ chức/cá nhân. | 1) Phần mềm quản trị, chia sẻ dữ liệu – Openscience.vn, là giao diện (front-end) tích hợp các phần mềm quản trị cloud và quản trị big data (back-end) 2) Các tài liệu kèm theo phần mềm (Tài liệu đặc tả yêu cầu sử dụng, Tài liệu phân tích thiết kế hệ thống, Báo cáo kiểm thử phần mềm, Tài liệu hướng dẫn cài đặt, Tài liệu hướng dẫn sử dụng cho quản trị hệ thống, quản trị tổ chức và người dùng tổ chức/cá nhân) |
V.3 | Công việc 5.3. Vận hành thử nghiệm phần mềm Dataset Management – Phần mềm Openscience.vn | – Vận hành thử nghiệm phần mềm Openscience.vn tại Cục NASSATI, bao gồm: xây dựng quy trình, lập kế hoạch vận hành, thử nghiệm, xây dựng các tình huống, kịch bản vận hành thử nghiệm- Nhập dữ liệu cho 1000 bộ dữ liệu mẫu từ NASSATI. | 1) Báo cáo vận hành thử nghiệm phần mềm Openscience.vn 2) Báo cáo nhập liệu 1000 bộ dữ liệu mẫu lên Openscience.vn |
V.4 | Công việc 5.4: Xây dựng nền tảng quản trị dữ liệu lớn (Giai đoạn 2) – Phân hệ xử lý dữ liệu theo lô | 1) Xây dựng phân hệ xử lý dữ liệu theo lô (batch processing) trên nền tảng Spark tích hợp trên Openscience,vn, bao gồm:- Xử lý theo lô với dữ liệu cục bộ (local disk): tải xuống dữ liệu mẫu; tạo phiên làm việc (session), chuẩn bị dữ liệu, phân tích kết quả- Xử lý theo lô với dữ liệu lưu trữ trên nền tảng (CEPH): tải xuống dữ liệu mẫu, thiết lập tham số; tạo vùng (bucket) lưu trữ dữ liệu đầu vào (input data) trên nền tảng (CEPH), nạp dữ liệu lên bucket; tạo phiên làm việc (session); phân tích dữ liệu; tạo bucket lưu trữ dữ liệu đầu ra (output data)2) Lập báo cáo xây dựng phân hệ xử lý dữ liệu theo lô, bao gồm:- Tổng quan và kiến trúc phân hệ xử lý dữ liệu theo lô- Mô tả nền tảng công nghệ và hướng dẫn cài đặt Apache Spark và Jupyter Notebook- Triển khai xử lý dữ liệu theo lô Apache Spark với dữ liệu cục bộ (local disk)- Triển khai xử lý dữ liệu theo lô Apache Spark trên nền tảng quản trị dữ liệu lớn (CEPH S3 Storage)- Tổng hợp, phân tích kết quả của các kịch bản thực hiện | 1) Phân hệ phần mềm xử lý dữ liệu theo lô (batch processing) trên Openscience.vn 2) Báo cáo xây dựng phân hệ xử lý dữ liệu theo lô trên Openscience.vn |
V.5 | Công việc 5.5: Xây dựng nền tảng quản trị dữ liệu lớn (Giai đoạn 2) – Phân hệ xử lý dữ liệu theo luồng | 1) Xây dựng phân hệ xử lý dữ liệu luồng (streaming processing), bao gồm:- Khởi tạo các bộ dữ liệu, khung dữ liệu luồng (Streaming DataFrames)- Thực hiện các phép toán trên dữ liệu luồng: phép chọn, phép chiếu, kết nối, kiểm tra trùng lặp…- Thực hiện và quản lý các truy vấn trên dữ liệu luồng (Queries)- Kiểm soát, điều khiển các truy vấn (monitoring), khôi phục lỗi…2) Lập báo cáo xây dựng phân hệ xử lý dữ liệu luồng, bao gồm các nội dung:- Tổng quan và kiến trúc phân hệ xử lý dữ liệu luồng- Các API xử lý dữ liệu luồng, bao gồm: khởi tạo khung dữ liệu, dữ liệu luồng; mô tả các phép toán trên dữ liệu luồng; truy vấn, quản lý truy vấn, kiểm soát truy vấn dữ liệu luồng;- Mô tả các kịch bản thực hiện xử lý dữ liệu luồng trên nền tảng quản trị dữ liệu lớn (CEPH) | 1) Phân hệ phần mềm xử lý dữ liệu theo luồng (streaming processing) trên Openscience.vn 2) Báo cáo xây dựng phân hệ xử lý dữ liệu theo luồng (streaming processing) trên Openscience.vn |
V.6 | Công việc 5.6. Tích hợp nền tảng quản trị dữ liệu lớn (CEPH) với phần mềm Dataset Management (Openscience.vn) trên môi trường test và dev | 1) Xây dựng giải pháp tích hợp Openscience.vn với nền tảng quản trị dữ liệu lớn, bao gồm:- Quản trị các bộ dữ liệu trong CEPH trên Openscience.vn- Tích hợp với hệ thống Keyclock cho phép xử lý đăng nhập một lần (SSO)- Tích hợp với eKYC cho phép xác thực người sử dụng khi đăng ký truy cập hệ thống- Xây dựng cơ chế tạo vùng làm việc cho người dùng (workspace) khi truy cập vào các nền tảng (back-end) của hệ thống như Kubeflow, Spark.2) Xây dựng tài liệu quản trị nền tảng dữ liệu lớn CEPH và báo cáo tích hợp nền tảng quản trị dữ liệu lớn (CEPH) với Opencience.vn | 1) Tài liệu quản trị nền tảng dữ liệu lớn CEPH2) Báo cáo tích hợp nền tảng quản trị dữ liệu lớn (CEPH) với Opencience.vn |
V.7 | Công việc 5.7. Tổ chức hội thảo giới thiệu, lấy ý kiến chuyên gia về nền tảng quản trị dữ liệu nghiên cứu KH&CN | Trong khuôn khổ sự kiện “Ngày hội trí tuệ nhân tạo Việt Nam – AI4VN” tổ chức tại TP. Hồ Chí Minh từ ngày 21-22/9/2023, Cục NASSATI phối hợp với Viện Công nghệ thông tin, Viện Nghiên cứu Dữ liệu lớn, Câu lạc bộ các Khoa – Trường – Viện Công nghệ Thông tin – Truyền thông Việt Nam (FISU) đã công bố và ký kết hợp tác phát triển “Nền tảng quản lý và chia sẻ dữ liệu nghiên cứu khoa học và công nghệ dùng chung Openscience.vn”. | Lễ công bố và ký kết hợp tác phát triển “Nền tảng quản lý và chia sẻ dữ liệu nghiên cứu khoa học và công nghệ dùng chung Openscience.vn”, trưng bày tại gian hàng công nghệ để giới thiệu và demo nền tảng trong thời gian diễn ra Ngày hội trí tuệ nhân tạo Việt Nam AI4VN 2023https://www.vista.gov.vn/vi/news/khoa-hoc-ky-thuat-va-cong-nghe/le-ky-ket-hop-tac-phat-trien-nen-tang-quan-ly-va-chia-se-du-lieu-nghien-cuu-khoa-hoc-va-cong-nghe-dung-chung-openscience-vn-7355.html ‘Phát triển trí tuệ nhân tạo giúp Việt Nam thành điểm sáng công nghệ’ – Báo VnExpress |
C | Giai đoạn 3: Thử nghiệm nền tảng quản trị dữ liệu nghiên cứu KH&CN Openscience.vn | ||
VI | Nội dung 6. Thử nghiệm chia sẻ dữ liệu nghiên cứu KH&CN từ các nhóm, tổ chức nghiên cứu | 1) Thực hiện cập nhật, chia sẻ 05 CSDL mẫu trên hệ thống Openscience.vn, bao gồm:- Bộ dữ liệu tiếng nói tiếng Việt (Vietnamese Speech Dataset)- Bộ dữ liệu hình ảnh bệnh da liễu (Skin Disease Images Dataset)- Bộ dữ liệu dự đoán bệnh tim (Heart Dataset)- Bộ dữ liệu hệ gen (Human Genome Dataset)- Bộ dữ liệu điện não đồ EEG (EEG Dataset)2) Lập tài liệu mô tả tích hợp, chia sẻ 05 CSDL mẫu nêu trên trên hệ thống Openscience.vn | 1) 05 cơ sở dữ liệu (CSDL) mẫu được tích hợp, chia sẻ trên Openscience.vn2) Tài liệu mô tả tích hợp, chia sẻ 05 CSDL mẫu trên Openscience.vn |
VII | Nội dung 7: Thử nghiệm sử dụng dữ liệu trên Openscience.vn | 1) Xây dựng các mô hình học máy trên 05 CSDL mẫu, bao gồm:- Mô hình nhận dạng giọng nói trên bộ dữ liệu Vietnamese Speech Dataset.- Mô hình phân lớp bệnh ung thư da trên bộ dữ liệu Skin Disease Images Dataset.- Mô hình dự đoán bệnh tim trên bộ dữ liệu Heart Data Sets- Mô hình chú thích biến thể gen trên bộ dữ liệu Human Genome Datasets- Mô hình phân lớp trên bộ dữ liệu EEG Datasets.2) Lập báo cáo kết quả thử nghiệm xây dựng mô hình học máy trên 05 CSDL mẫu. | 1) Các mô hình học máy chạy 05 cơ sở dữ liệu mẫu trên Kubeflow trong nền tảng Openscience.vn2) Báo cáo kết quả thử nghiệm sử dụng công cụ phân tích dữ liệu, học máy trên 05 CSDL mẫu |
VIII | Nội dung 8. Triển khai nền tảng quản trị dữ liệu nghiên cứu KH&CN | ||
VIII.1 | Công việc 8.1. Đề xuất mô hình triển khai nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ ở phạm vi quốc gia | 1) Xây dựng báo cáo đề xuất mô hình triển khai và vận hành nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ ở phạm vi quốc gia trên hạ tầng FPT Smart Cloud, bao gồm:- Kiến trúc hệ thống Openscience.vn trên FPT Smart Cloud.- Mô hình triển khai hệ thống Openscience.vn trên FPT Smart Cloud- Quy trình triển khai hệ thống Openscience.vn trên FPT Smart Cloud- Một số kết quả triển khai, vận hành hệ thống Openscience.vn trên FPT Smart Cloud.2) Xây dựng dự thảo văn bản pháp lý phục vụ triển khai nền tảng Openscience.vn bởi Cục NASSATI, bao gồm:- Dự thảo Quy chế tổ chức, quản lý, cung cấp và sử dụng dữ liệu trên Openscience.vn- Quy định tạm thời đăng ký, đăng nhập và sử dụng tài khoản người dùng hệ thống Openscience.vn | Báo cáo đề xuất mô hình triển khai và vận hành nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ ở phạm vi quốc gia2) Dự thảo Quy chế tổ chức, quản lý, cung cấp và sử dụng dữ liệu trên Openscience.vn3) Quy định tạm thời đăng ký, đăng nhập và sử dụng tài khoản người dùng hệ thống Openscience.vn |
VIII.2 | Công việc 8.2. Triển khai nền tảng quản trị cơ sở dữ liệu KH&CN trên hạ tầng của FPT Smart Cloud | 1) Cài đặt nền tảng Openscience.vn trên hạ tầng của FPT Smart Cloud, kiểm tra lại các tính năng hệ thống2) Triển khai nền tảng Openscience.vn tại Cục NASSATI.3) Lập tài liệu quản trị và vận hành nền tảng Openscience.vn trên hạ tầng FPT Smart Cloud, bao gồm:- Kiến trúc hệ thống Openscience.vn trên FPT Cloud- Quản trị người sử dụng Openscience.vn, bao gồm đăng ký, xác thực người dùng qua eKYC, quản trị, phân quyền cho người dùng tổ chức, cá nhân…- Nhập dữ liệu trên Openscience.vn, duyệt dữ liệu trên hệ quản trị nội dung (CMS) của Openscience.vn- Thu thập, tích hợp dữ liệu từ nền tảng Nifi từ các nguồn: tệp hệ thống, CSDL quan hệ, API phần mềm, dữ liệu luồng từ IoT.- Xây dựng pipeline thực hiện các mô hình học máy (ML/DL) trên Openscience.vn- Xử lý dữ liệu theo lô (batch processing) trên Openscience.vn với Apache Spark- Xử lý dữ liệu theo luồng (Streaming processing) với Apache Spark- Các tính năng cấp phát tài nguyên (GPU, bộ nhớ), quản trị không gian làm việc (workspace) cho người dùng trên Kubeflow. | 1) Hệ thống Openscience.vn được triển khai và vận hành trên hạ tầng của FPT Smart Cloud 2) Tài liệu quản trị và vận hành nền tảng Openscience.vn trên hạ tầng FPT Smart Cloud |
IX | Nội dung 9. Tổ chức hội thảo lấy ý kiến chuyên gia, giới thiệu, quảng bá, khai thác và quản trị nền tảng Openscience.vn cho các đơn vị sử dụng | Ngày 28/06/2024, Viện Công nghệ thông tin phối hợp với Cục NASSATI và Trường Đại học Công nghiệp Hà Nội tổ chức Hội thảo giới thiệu, khai thác và quản trị nền tảng Openscience.vn tại Trường Đại học Công nghiệp Hà Nội nhằm giới thiệu, hướng dẫn đăng ký truy cập, khai thác, quản trị cho các cán bộ, giảng viên, sinh viên trường Đại học Công nghiệp và các trường đại học khác. | Hội thảo giới thiệu, quảng bá, khai thác và quản trị nền tảng Opencience.vn tại trường Đại học Công nghiệp Hà Nộihttps://www.haui.edu.vn/vn/tin-tuc/hoi-thao-gioi-thieu-va-khai-thac-nen-tang-quan-ly-va-chia-se-du-lieu-nghien-cuu-khoa-hoc-va-cong-nghe-dung-chung-openscience-vn/65179 |
BÁO CÁO theo thông số kỹ thuật
TT | Tên sản phẩm | Sản phẩm đăng ký theo hợp đồng | |
Số lượng (Đơn vị tính) | Chất lượng(Chỉ tiêu kinh tế – kỹ thuật) | ||
Nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | 01 | 1) Phần mềm nền tảng Cloud có các tính năng / năng lực sau:● Giao diện quan trắc các tài nguyên Cloud● Kết nối ứng dụng ngoài với các máy ảo● Gán vùng lưu trữ dữ liệu của Container với hệ thống lưu trữ (Data Volumes)● Cập nhật tự động phiên bản ứng dụng● Khống chế mức tài nguyên Cloud cung cấp cho các máy ảo● Cung cấp tài nguyên động (Auto-Scaling)● Cân bằng tải (Load Balancing)● 1 cụm Cloud (Cluster) có khả năng quản trị trên 100.000 máy ảo● Có khả năng quản trị nhiều cụm Cloud từ các trung tâm dữ liệu khác nhau.2) Phần mềm nền tảng quản trị dữ liệu lớn (Big Data) có các tính năng / năng lực sau:● Tích hợp với các nguồn dữ liệu khác nhau (Data Ingestion)− Tích hợp với 1 hệ thống cơ sở dữ liệu quan hệ (R-DBMS)− Người dùng chia sẻ tệp dữ liệu− Tích hợp với 1 nguồn dữ liệu IoT− Tích hợp với 1 nguồn dữ liệu thông qua giao diện API● Lưu trữ dữ liệu (Storage)− Hệ thống quản lý tệp của máy chủ− 1 trong các hệ thống lưu trữ của nhà cung cấp dịch vụ Cloud● Xử lý dữ liệu theo lô (Batch Processing)● Xử lý dữ liệu theo luồng(Streaming Processing) | |
Cơ sở dữ liệu (CSDL) mẫu và công cụ phân tích dữ liệu tích hợp trên nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ | 05 | 1) CSDL mẫu: Vietnamese Speech Dataset:− CSDL mẫu: VOV, VLSP 2020, VLSP 2019, FPT Open Speech Dataset, VIVOS− Kết quả thử nghiệm công cụ tự động nhận dạng giọng nói HMM, GMM, wav2vec, wav2vec 2.0 trên CSDL mẫu.2) CSDL mẫu: Skin Disease Images Dataset:− CSDL mẫu: Derm7pt, Dermofit Image Library, Fitzpatrick 17k, ISIC 2020, MED-NODE, PAD-UFES-20, PH2, SD-128 / SD-198 / SD-260− Kết quả thử nghiệm mô hình dự đoán khối u ác tính và phân lớp các bệnh da liễu trên CSDL mẫu bằng một số kiến trúc mạng học sâu như: InceptionV3, ResNet, DenseNet and EfficientNet.3) CSDL mẫu: Heart Data Sets:− CSDL mẫu: Heart Disease Data Set, Statlog Heart Data Set− Kết quả thử nghiệm hai mô hình dự báo trên CSDL Heart Disease Dataset: 1) Mô hình dự báo bệnh tim cho hệ thống hỗ trợ quyết định lâm sàng và 2) Mô hình AI để chẩn đoán bệnh tim.4) CSDL mẫu: Human Genome Datasets:− CSDL mẫu:o 1KVG: thuộc dự án 1000 bộ gien người việt với 50-100 mẫu.o 1KGP: với 2505 bộ gien người được giải mã tại New York Genome Center.− Kết quả thử nghiệm một số phương pháp học máy cho chú thích biến thể gen gồm 03 loại: 1) Bảo tồn (conservation) sử dụng công cụ GERP++, PhyloP; 2) dự báo nguy hại (deleteriousness) sử dụng công cụ FATHMM-MKL, FATHMM-XF, M-CAP; 3) dự báo khớp kết nối (splicing site) sử dụng Position Weight Matrix – PWM, MaxEntScan – MES, Splice Site Prediction by NeuralNetwork – NNSplice, GeneSplicer Human Splicing Finder – HSF.5) CSDL mẫu EEG Datasets:− CSDL mẫu: VastIoit2017, BCI Competition IV-2a, BCI Challenge @ NER 2015− Kết quả thử nghiệm một số phương pháp học máy cho phân tích và dự báo (phân lớp) trên CSDL EEG datasets như EEGNet, MNE. |
STT | Tên tác giả | Năm công bố | Tên công trình | Tên tạp chí/ NXB | ISSN/ISBN/Mã số bằng độc quyền sáng chế | Tình trạng(Đã đăng/chấp nhận đăng) |
1 | Công trình công bố trên tạp chí quốc tế có uy tín | |||||
1.1 | Luong Thi Hong Lan, Do Thi Thu Hien, Nguyen Tho Thong, Florentin Smarandache, Nguyen Long Giang (tác giả liên hệ) | 2023 | An ANP-TOPSIS model for tourist destination choice problems under Temporal Neutrosophic environment | Applied Soft Computing / ScienceDirect. SCIE, Q1, IF = 8.7 | Vol. 136, 110146. Print ISSN: 1568-4946Online ISSN: 1872-9681 | Đã đăng |
2 | Công trình công bố trên tạp chí quốc gia có uy tín | |||||
3 | Bằng độc quyền sáng chế | |||||
3.1 | Viện Công nghệ thông tin – Viện Hàn lâm KH&CN Việt Nam | 2024 | Hệ thống quản lý và chia sẻ dữ liệu dùng chung mà tích hợp các nền tảng xử lý, phân tích dữ liệu lớn và phát triển mô hình học máy | – Số đơn: 2-2024-00210,- Ngày nộp đơn: 02/04/2024 | – Chấp nhận đơn- Số QĐ: 51922/QĐ-SHTT- Ngày QĐ: 06/05/2024 | |
4 | Bằng độc quyền giải pháp hữu ích | |||||
5 | Sản phẩm, dịch vụ, giải pháp định hướng ứng dụng mang lại lợi ích thiết thực cho cộng đồng | |||||
5.1 | – Sản phẩm “Nền tảng quản lý và chia sẻ dữ liệu nghiên cứu khoa học và công nghệ dùng chung Openscience.vn” đã được công bố và ký kết hợp tác phát triển giữa các đơn vị: Cục Thông tin khoa học và công nghệ quốc gia – Bộ Khoa học và Công nghệ (NASSATI), Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Viện Nghiên cứu Dữ liệu lớn – Vin Bigdata, Câu lạc bộ các Khoa – Trường – Viện Công nghệ Thông tin – Truyền thông Việt Nam (FISU) tại sự kiện“Ngày hội trí tuệ nhân tạo Việt Nam – AI4VN” tổ chức tại TP. Hồ Chí Minh từ ngày 21-22/9/2023.- Nền tảng Openscience.vn được vận hành và quản lý bởi Cục NASSATI – Bộ KH&CN, là địa chỉ chính thống để các tổ chức, cá nhân, các nhà khoa học đóng góp, chia sẻ, khai thác dữ liệu nghiên cứu KH&CN. Hơn nữa, nền tảng Openscience.vn là môi trường để các cán bộ nghiên cứu, các sinh viên, giảng viên trong các trường đại học, các học viên, nghiên cứu sinh thuộc lĩnh vực khoa học dữ liệu, trí tuệ nhân tạo (TTNT) phát triển, thực thi cá mô hình học máy, TTNT nhằm cung cấp cho cộng đồng khoa học, hướng tới cung cấp các sản phẩm TTNT ra thị trường, góp phần thực hiện thắng lợi chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng TTNT đến năm 2030. |