Huy Bui
313
01-10-2022
Triển khai kho dữ liệu (Data Warehouse) là nơi tập hợp tất cả thông tin về hoạt động của tổ chức, hệ thống mà doanh nghiệp sử dụng để phân tích và làm báo cáo về: các giao dịch tại điểm bán, chiến dịch tiếp thị, quản lý khách hàng, tài chính,…
Tuy nhiên chưa nhiều Doanh nghiệp có thể tiến hành xây dựng kho dữ liệu bài bản. Để đảm bảo quá trình triển khai kho dữ liệu thành công, cần cần lưu ý 11 bước sau:
1. Xác định cụ thể nhu cầu của doanh nghiệp
Ví dụ: Một doanh nghiệp kinh doanh thương mại và dịch vụ đang gặp vấn đề với hệ thống dữ liệu, doanh nghiệp đã đầu tư vào các hệ thống CNTT CRM, phần mềm kế toán,… nhưng dữ liệu về khách hàng, đơn hàng, mã đơn hàng, giá trị trung bình đơn hàng, doanh thu theo ngày, tháng, quý khi làm báo cáo chung còn ở nhiều file, tốn thời gian để tổng hợp. Doanh nghiệp muốn kết nối dữ liệu để tiến trình báo cáo nhanh chóng hơn.
2. Xác định quy mô dự án
Quy mô dự án phụ thuộc vào nhu cầu doanh nghiệp cũng như mục tiêu dài hạn của doanh nghiệp.
3. Xác định yêu cầu đối với dự án
Bất kỳ dự án CNTT nào hiện nay cũng cần chuyên viên phân tích nghiệp vụ khơi gợi yêu cầu cụ thể về dự án, từ những vấn đề liên quan đến nghiệp vụ kinh doanh để đưa ra giải pháp công nghệ phù hợp, việc này cũng tương tự với giải pháp về data warehouse.
4. Chọn lựa phương án xây dựng hệ thống On Premise hay mua dịch vụ Cloud của các đơn vị cung cấp:
Có 2 phương án chính để triển khai Data Warehouse: On premise (giải pháp công nghệ hỗ trợ doanh nghiệp lưu trữ dữ liệu tại chỗ, được thiết lập dựa trên hệ thống máy chủ và hệ điều hành của doanh nghiệp) và Cloud là mua dịch vụ của một bên thứ ba cung cấp lưu trữ dữ liệu trên đám mây. tùy thuộc vào nhu cầu cụ thể của doanh nghiệp, quy mô dự án, tính bảo mật,… nhà quản trị sẽ đưa ra quyết định phương án triển khai thích hợp nhất.
5. Xác định các Yêu cầu dữ liệu Kho dữ liệu
Dữ liệu đầu vào của kho dữ liệu từ phần mềm hay cơ sở dữ liệu nào? thuộc loại nào? quy mô dữ liệu? cần upload dữ liệu lúc nào? Tất cả câu hỏi này đều cần phải trả lời trước khi bắt đầu triển khai một dự án Data Warehouse
6. Tài liệu bị thiếu dữ liệu: Cần lên một danh sách các việc cần làm và cần có sự tham gia của tất cả bên liên quan, để đảm bảo những tài liệu này là hoàn chỉnh và đáp ứng đúng và đủ nhu cầu của doanh nghiệp
7. Bản đồ Lưu trữ dữ liệu vận hành vào Kho dữ liệu:
Cần thiết kế luồng dữ liệu từ hệ thống vận hành hiện tại để bộ phận thiết kế data warehouse có thể theo dõi về xây dựng hướng đi của dữ liệu theo đúng quy trình.
8. Database Design – Bước quan trong khi triển khai kho dữ liệu
Thiết kế cơ sở dữ liệu là kết nối từng bảng dữ liệu có quan hệ với nhau liên quan đến nhau bằng các khóa chính và khóa phụ.
Ví dụ: Cơ sở dữ liệu có các bảng: Thông tin khách hàng, bảng thông tin đơn hàng được liên kết với nhau bằng một khóa chung là id khách hàng.
9. ETL dữ liệu từ kho dữ liệu vận hành: Trích xuất dữ liệu thô tích hợp
10. Load data: Khởi tạo dữ liệu tải
11. Bảo trì kho dữ liệu: Truy cập dữ liệu on-going và cập nhật dữ liệu theo thời gian cụ thể
– Truy xuất dữ liệu nhanh chóng: Khác với việc dữ liệu lưu ở nhiều file, nhiều hệ thống trước đây, việc tổng hợp chúng lại nơi lưu trữ chung khiến việc truy xuất dữ liệu tiện lợi nhanh chóng hơn, chỉ cần 1 câu truy vấn đơn giản đã có thể lấy danh sách dữ liệu cần thiết.
– Nhận dạng & Sửa lỗi: Dữ liệu thường có đặc điểm phân mảnh và trùng lặp việc này phụ thuộc vào đầu vào của dữ liệu. Trước khi load dữ liệu vào kho dữ liệu, Data Engineer sẽ lọc những dữ liệu trùng, sai đảm bảo chất lượng dữ liệu đồng bộ, nhất quán và có ích hơn.
– Tích hợp dễ dàng: Data Warehouse có thể tích hợp các với các hệ thống sẵn có của doanh nghiệp: CRM, ERP, phần mềm kế toán,… dễ dàng bởi các mã API.
– Đưa ra quyết định chính xác: Kho dữ liệu là nơi tổng hợp toàn bộ dữ liệu liên quan đến doanh nghiệp trong quá khứ, các chuyên gia phân tích dữ liệu có thể dựa trên dữ liệu này để đưa ra đánh giá về hiện tại đồng thời dự đoán xu hướng tương lai khiến quyết định của nhà quản trị có căn cứ rõ ràng không chỉ còn dựa vào trực giác và kinh nghiệm.
> Tìm hiểu thêm về SSIS
– Data Warehouse bị hạn chế loại dữ liệu có thể lưu trữ: chỉ phù hợp với dữ liệu có cấu trúc mà không thể lưu trữ dữ liệu phi cấu trúc (những dữ liệu dạng văn bản, video, file âm thanh, bản vẽ thiết kế, thông tin văn bản trao đổi nội bộ,..)
– Việc triển khai Data Warehouse tiêu tốn thời gian chuẩn bị. Mặc dù vai trò của kho dữ liệu là đơn giản hóa dữ liệu kinh doanh của doanh nghiệp nhưng bộ phận xây dựng kho dữ liệu thường là các Kỹ sư dữ liệu sẽ phải load dữ liệu vào kho và cần thời gian để phân tích hệ thống cũ và đưa ra phương án tốt nhất phù hợp với nhu cầu doanh nghiệp
– Thực hiện một dự án Data Warehouse thường tốn nhiều chi phí, nhân lực chất lượng cao: các chuyên gia trong lĩnh vực data: Data Engineer, Business Analyst, Data Analytic,… chi phí dịch vụ (nếu xây dựng mô hình Cloud) và chi phí OnPremise phần cứng, chi phí bảo trì cũng không hề nhỏ
– Quá trình làm sạch, chuyển đổi và tích hợp dữ liệu vào Data Warehouse là liên tục
Các công cụ xây dựng Data Warehouse phổ biến và được nhiều doanh nghiệp sử dụng nhất:
Google BigQuery là Cơ sở hạ tầng không máy chủ cho phép người dùng tập trung vào dữ liệu của mình thay vì quản lý tài nguyên. BigQuery kết hợp kho dữ liệu dựa trên đám mây và các công cụ phân tích mạnh mẽ như máy học, phân tích không gian địa lý và thông minh kinh doanh Business Intelligence.
Kiến trúc không máy chủ của BigQuery cho phép sử dụng các truy vấn SQL để trả lời các câu hỏi lớn nhất của tổ chức mà không cần quản lý cơ sở hạ tầng. Công cụ phân tích phân tán, có thể mở rộng của BigQuery cho phép truy vấn dung lượng dữ liệu lên đến terabyte trong vài giây và petabyte trong vài phút.
Oracle Autonomous Data Warehouse là một dịch vụ kho dữ liệu gốc đám mây giúp loại bỏ tất cả sự phức tạp của việc vận hành một kho dữ liệu. Nó tự động hóa việc cung cấp, cấu hình, bảo mật, điều chỉnh, mở rộng quy mô và sao lưu.
Amazon Redshift là dịch vụ kho dữ liệu được quản lý hoàn toàn trên đám mây để xử lý các tập dữ liệu quy mô lớn và di chuyển cơ sở dữ liệu. Bộ dữ liệu của nó từ 100 gigabyte đến một petabyte. Kiến trúc của Redshift liên quan đến các nodes (nút) and clusters (cụm).
Quá trình ban đầu liên quan đến việc khởi chạy một tập hợp các tài nguyên máy tính được gọi là các nodes. Các nodes này được tổ chức thành các nhóm lớn được gọi là các clusters. Các truy vấn có thể được xử lý sau đó.
Các công ty có thể sử dụng Data Warehouse để đưa ra các quyết định kinh doanh dựa trên dữ liệu data-driven tốt hơn, nhanh hơn. Nó tiết kiệm rất nhiều thời gian và nguồn lực cho các công ty. Khi dữ liệu của công ty nhiều và trở nên phức tạp, nó gây khó khăn đối với các công ty để làm việc hiệu quả.
Khi độ phức tạp của dữ liệu và các vấn đề dữ liệu khác trở nên khó khăn đối với các công ty để làm việc hiệu quả, họ hiểu rằng nhu cầu về Data Warehouse là rất quan trọng để luôn dẫn đầu trong kinh doanh.
Việc triển khai kho dữ liệu càng trở lên quan trọng đối với doanh nghiệp, các công ty đều mong muốn có thể đưa ra quyết định kinh doanh dựa trên dữ liệu (data-driven). Để hạn chế làm sai, tốn thời gian và dự án không thể hoàn thành, quá trình này cần đi theo một lộ trình cụ thể và và phù hợp với quy trình nghiệp vụ của doanh nghiệp của bạn hiện tại.
>> Để hiểu thêm về data warehouse và cách xây dựng kho dữ liệu – ETL, các bạn có thể tham gia đại chiến khóa học data analyst, được chia làm nhiều cấp độ phù hợp với khả năng và xuất phát điểm của mỗi học viên,
Cảm nhận học viên
Câu chuyện doanh nghiệp