Huy Bui
319
26-10-2022
Nếu bạn muốn biết Data Vault là gì hoặc muốn tìm hiểu về Data Vault, thì bài bài viết này là dành cho bạn. Đây là 1 loại phương pháp tiếp cận hiệu quả để phân tích dữ liệu và xây dựng Data warehouse, được sử dụng phổ biến.
Data Vault là một phương pháp và kiến trúc để cung cấp Dịch vụ phân tích dữ liệu cho một doanh nghiệp hỗ trợ các yêu cầu về Business Intelligence, Data Warehousing, Analytics và Data Science. Về cốt lõi, đây là một phương pháp hiện đại và nhanh chóng để thiết kế và xây dựng Kho dữ liệu hiệu quả.
Data Vault thì được ra đời gần đây hơn so với một số kỹ thuật khác để xây dựng Kho dữ liệu như Kimball và Inmon. Nguồn gốc của Data Vault bắt nguồn từ những năm 1990 khi Dan Linstedt, người phát minh ra phương pháp này, phát triển ý tưởng của mình khi làm việc cho Lockheed Martin.
Sau khi xuất bản các bài báo, ông đã sử dụng nó trong suốt những năm 2000 để tinh chỉnh cách tiếp cận trước khi xuất bản cuốn sách đầu tiên của mình “Business of Data Vault Modeling” vào năm 2010. Cuốn sách thứ hai của Dan “Building a Scalable Data Warehouse with Data Vault 2.0” đã trở thành tài liệu chính thức về phương pháp này.
1 hệ thống Business Intelligence được xây dựng bằng phương pháp Data Vault sẽ có những lợi ích vượt trội sau:
Cung cấp dịch vụ dữ liệu hiện đại hóa cần thiết của một chương trình chuyển đổi số
Đảm bảo rằng dịch vụ dữ liệu của bạn hoạt động 1 cách tối ưu chi phí và đạt được năng suất được cải thiện đáng kể
Giúp doanh nghiệp đạt được những khả năng mới trong chuyển đổi số như ra quyết định dựa vào dữ liệu, học máy, học sâu; cùng với đó, Data Vault cũng là chìa khóa mở ra các mô hình kinh doanh mới.
Góp phần vào sự nhanh nhạy của tổ chức, cải thiện tốc độ mà doanh nghiệp có thể tìm hiểu và khai thác các cơ hội hoặc đo lường được những rủi ro trong kinh doanh.
Trong tất cả những điều này, sự nhanh nhạy của tổ chức tạo ra giá trị kinh doanh cao nhất và là yếu tố đóng góp chính vào sự thành công của bất kỳ chuyển đổi kỹ thuật số nào.
Là một kỹ thuật toàn diện được thiết kế để triển khai Kho dữ liệu doanh nghiệp một cách nhanh chóng, giải quyết nhiều nhược điểm của mô hình 3NF (Inmon) và Mô hình Dimensional (Kimball), với những lợi ích vượt trội sau:
Kho dữ liệu cung cấp nhiều lợi ích nhất khi dữ liệu của bạn đến từ nhiều hệ thống nguồn hoặc có các mối quan hệ thay đổi liên tục. Kho dữ liệu hoạt động tốt cho các hệ thống có các đặc điểm này vì nó làm cho việc thêm các thuộc tính trở nên đơn giản. Nếu chỉ có một thay đổi đối với một hệ thống nguồn, thì thay đổi đó không phải hiển thị cho tất cả các hệ thống nguồn.
Tương tự, bạn có thể giới hạn số lượng thay đổi địa điểm được thực hiện vì các thuộc tính được lưu trữ riêng biệt với dữ liệu cấu trúc trong vệ tinh. Ngoài ra, việc tính toán các mối quan hệ mới và thay đổi sẽ dễ dàng hơn bằng cách đóng một liên kết này và tạo một liên kết khác. Bạn không phải thay đổi dữ liệu lịch sử để tính cho một mối quan hệ mới hoặc cập nhật một lược đồ hiện có; bạn chỉ cần tính đến những thay đổi trong tương lai.
Kho dữ liệu vốn đã cho phép kiểm tra, vì thời gian tải và nguồn bản ghi là bắt buộc cho mọi hàng. Nó cũng theo dõi lịch sử của tất cả các thay đổi khi các vệ tinh bao gồm thời gian tải như một phần của khóa chính. Khi một thuộc tính được cập nhật, một bản ghi mới sẽ được tạo.
Tất cả hoạt động kiểm toán này cho phép bạn dễ dàng cung cấp khả năng kiểm toán cho cả mục đích quản lý và quản lý dữ liệu. Bởi vì bạn lưu trữ tất cả lịch sử của mình, bạn có thể truy cập dữ liệu từ bất kỳ thời điểm nào.
Kho dữ liệu cũng cho phép tải dữ liệu nhanh hơn vì nhiều bảng có thể được tải song song cùng lúc. Mô hình giảm bớt sự phụ thuộc giữa các bảng trong quá trình tải và đơn giản hóa quá trình nhập bằng cách chỉ tận dụng các phần chèn, tải nhanh hơn so với việc bổ sung hoặc hợp nhất.
Đại học New York là 1 tổ chức giáo dục có độ lớn như một tập đoàn, với 100.000 sinh viên đại học, 19.000 nhân viên và 18 trường học ở ba quốc gia. Trong 15 năm qua, các quy trình đã được tạo ra để giải quyết từng vấn đề một khi có nhu cầu. Giống như nhiều nhóm phân tích khác, bộ phận quản trị dữ liệu của NYU đã xây dựng kho dữ liệu kiểu Kimball.
Theo thời gian, việc duy trì và vận hành của tất cả các dự án riêng lẻ này đã trở thành gánh nặng đối với trường NYU. Như bạn có thể thấy bên dưới, sơ đồ kiến trúc kế thừa có các đường đi theo nhiều hướng.
Hệ thống dữ liệu của NYU sau khi triển khai Data Vault:
Sau 1 năm triển khai Giải pháp Data Vault 2.0, họ đã thấy sự cải thiện đáng kể:
Tokio Marine là một trong những công ty bảo hiểm chuyên nghiệp lớn nhất thế giới – xử lý mọi thứ từ những chú ngựa đua có giá trị đến bảo hiểm rủi ro cho các tập đoàn quốc tế trong hầu hết mọi lĩnh vực của doanh nghiệp.
Tokio Marine đã đối mặt với thách thức làm thế nào để tích hợp các hệ thống báo cáo cũ hơn vào một hệ thống phù hợp với doanh nghiệp số hiện đại,
Công ty đã phát triển Kho dữ liệu của mình 10 năm trước với mô hình dữ liệu theo hướng kinh doanh truyền thống.
Từ một đội ngũ tình báo kinh doanh nhỏ gồm sáu người, ngày nay Tokio Marine đã tạo ra một hệ thống có nhiều nguồn và một đội BI lớn. Công ty hiện đang lập kế hoạch và thiết kế một Kho dữ liệu mới phần lớn tự động – sử dụng sức mạnh của nền tảng dữ liệu Snowflake và nền tảng Data Vault 2.0 để tự động hóa.
Mặc dù những điểm mạnh này là một điểm thu hút chính, giống như các phương pháp tiếp cận mô hình dữ liệu khác, Data Vault cũng có một số hạn chế mà các tổ chức cần xem xét.
Rõ ràng nhất là số lượng đối tượng dữ liệu tuyệt đối so với các cách tiếp cận khác – ví dụ: bảng và cột. Điều này là do cách tiếp cận Data Vault phân tách các loại thông tin.
Do đó, nỗ lực lập mô hình phía trước có thể lớn hơn và có thể có số lượng lớn hơn các tác vụ thủ công hoặc máy móc liên quan để thiết lập mô hình dữ liệu linh hoạt và chi tiết với tất cả các thành phần của nó.
Những thách thức này cần được giải quyết cụ thể nếu các tổ chức muốn tránh lao động thủ công tốn thời gian trong quá trình lập mô hình. Chìa khóa của điều này là tự động hóa.
Trong Data Vault, có các lớp dữ liệu:
Hệ thống nguồn, nơi dữ liệu sẽ được tạo hoặc bắt nguồn;
Khu vực dàn dựng và kho tiền thô là các lớp phù hợp nhất với tự động hóa. Việc triển khai tự động hóa ở đây có thể tiết kiệm rất nhiều thời gian cho các kiến trúc sư dữ liệu và cải thiện hiệu quả tổng thể của cách tiếp cận Data Vault.
Dữ liệu không hiệu quả sẽ không còn kìm hãm các tổ chức nữa. Giờ đây, có thể xây dựng một hệ sinh thái dữ liệu bền vững, tích hợp công nghệ và phần mềm, hỗ trợ chiến lược dữ liệu tổng thể trong nhiều năm.
Các công cụ bổ sung cho kỹ thuật lập mô hình dữ liệu đã chọn có thể là chất xúc tác thực sự để cải thiện khi nói đến công việc của các nhóm phân tích và các chuyên gia cá nhân, những người phụ thuộc vào môi trường dữ liệu hiệu quả cho công việc hàng ngày của họ.
Mô hình Data Vault có thể chứng minh một phần không thể thiếu của môi trường đó. Với cách tiếp cận mạnh mẽ được thiết kế để tối đa hóa lợi ích mà cách tiếp cận Data Vault mang lại, những người ở mặt than sẽ được hưởng lợi từ hiệu suất được cải thiện đáng kể khi chạy các mô hình phân tích hoặc quy trình làm việc – cho phép các tổ chức tối ưu hóa giá trị dữ liệu của họ ở tốc độ cao.
Các chuyên gia dữ liệu có thể yên tâm rằng dữ liệu của họ có thể được kiểm tra tại bất kỳ thời điểm nào, họ có thể tải khối lượng lớn dữ liệu mà không gặp bất kỳ sự cố nào và họ có thể tái tạo các truy vấn lịch sử khi cần. Điều này sẽ cho phép các tổ chức đưa ra các quyết định kinh doanh sáng suốt dẫn đến kết quả tốt hơn cho doanh nghiệp và khách hàng mà tổ chức phục vụ.
Data vault hiện đang là xu hướng mà các doanh nghiệp trên thế giới hướng đến để cải tổ lại hệ thống dữ liệu từ việc lưu trữ kho dữ liệu Data Warehouse đến phân tích dữ liệu BI. Cole hy vọng qua bài viết này, bạn đọc đã bỏ túi thêm những kiến thức bổ ích về Data Vault và tìm ra hướng công nghệ mới để cải thiện tính hiệu quả cho nền tảng mà doanh nghiệp của bạn đang vận hành.
>> Nâng cao kiến thức về data cùng lộ trình khóa học data analyst cho bất kì xuất phát điểm nào, hay khóa học BA – non IT vẫn có thể trở thành business analyst thực thụ một cách dễ dàng với thiết kế khóa học bám sát thực tế
Cảm nhận học viên
Câu chuyện doanh nghiệp