admin
1,831
05-09-2021
Sự có mặt của Data warehouse mang lại lợi ích tuyệt vời cho doanh nghiệp, là cơ sở của Business Inteligence. Ngày nay khi lượng dữ liệu sinh ra ngày càng nhiều, các kho dữ liệu cũng đòi hỏi phải nâng cấp liên tục các công nghệ nhằm đáp ứng nhu cầu lưu trữ – xử lý dữ liệu. Mời quý bạn đọc cùng Cole khám phá sự tiến hóa của Data warehouse thế hệ mới này:
Quay trở lại về sự phát triển Data warehouse theo tài liệu công bố của Gartner: Các hệ thống phần mềm quản trị, lưu trữ được phát triển bắt đầu từ những năm 80 của thế kỷ trước là các dạng hệ thống lưu trữ OLTP (On-line transactional processing), đây là giai đoạn PRE của kho dữ liệu doanh nghiệp.
Hệ thống Data warehouse được giới thiệu lần đầu vào năm 1988 và phát triển mạnh mẽ tới những năm 2000 bởi 2 nhà nghiên cứu của IBM là Barry Devlin và Paul Murphy. Các hệ thống này sử dụng các hệ quản trị cơ sở dữ liệu như Oracle Server, IBM DB2, Microsoft SQL, MySQL, PostgreSQL chúng được thiết kế theo các dạng bảng Fact và Dimension. Các dữ liệu được tập hợp từ nhiều nguồn khác nhau bằng các phương thức trích xuất, chuyển đổi và tải dữ liệu (ETL) vào kho dữ liệu phân tích.
Trở ngại bắt đầu xuất hiện khi dữ liệu ngày càng lớn dần khí quá trình load dữ liệu bị chậm, khiến thời gian phản hồi chậm dần khi mục tiêu phân tích dữ liệu quá lớn. Có nhiều giải pháp được đưa ra cho nhiều tính năng như: xử lý tổng hợp, lập tính năng song song, hay lập chỉ mục – Tuy nhiên điều này chỉ làm tăng thêm sự phức tạp cho sự phức tạp của hệ thống dữ liệu đồ sộ, trong khi không cải thiện được quá trình load dữ liệu. Để giải quyết những vấn đề như vậy, các nhà công nghệ bắt đầu thiết kế các hệ thống có thể xử lý dữ liệu tăng trưởng theo cấp số nhân – lúc này bắt đầu xuất hiện Data Lake
Được giới thiệu vào năm 2005 Hadoop là nền tảng mã nguồn mở đầu tiên hỗ trợ giúp việc phân tích dữ liệu lớn, có khả năng xử lý dữ liệu song song, phân tán và mở rộng, nó được xem là phần mở rộng của kiến trúc kho dữ liệu cũ nhằm giảm bớt hạn chế về quy mô do hệ kiến trúc csdl cũ mang lại.
Mặc dù Hadoop có những ưu điểm lớn như vậy, tuy nhiên nó lại không phải dễ để triển khai vì đòi hỏi cả nguồn nhân lực và chi phí để cài đặt.
Sự dịch chuyển tiếp theo của Data Warehouse giống nhau hầu hết như các ứng dụng kỹ thuật OLTP khác. Điện toán đám mây (Cloud Computing) trở thành các tiêu chuẩn cho việc phát triển các các ứng dụng số. Giai đoạn này xuất hiện đồng thời 3 tên tuổi lớn của nền tảng công nghệ là: Amazon giới thiệu Redshift, Google giới thiệu Big Query, và Microsoft giới thiệu Azure. Các giải pháp này ra đời khắc phục được điểm yếu về mặt lưu trữ của Hadoop, cũng như các vấn đề setup hạ tầng và nhân lực triển khai. Các giải pháp Data warehouse ở giai đoạn này xuất hiện vào năm 2012. Nhưng những giải pháp này cũng chưa thể khắc phục được hết, vì mỗi nền tảng đều được dựa trên nền tảng của họ phát triển lên. Không nền tảng nào trong 3 công cụ trên được xây dựng từ đầu.
Một giải pháp mới hoàn toàn xuất hiện năm 2016 – Snowflake – Kho dữ liệu SQL được thiết kế cho Đám mây. DWaaS.
Snowflake là giải pháp kho lưu trữ dữ liệu trên đám mây. Nó là giải pháp có thể tách dữ liệu của cả 3 nền tảng Google, Microsoft và Amazon hợp nhất giúp việc phân tích và lấy dữ liệu nguồn nhanh hơn.
Giống như các giải pháp đám mây khác Snowflake bạn chỉ cần trả phí cho những gì bạn sử dụng, Bạn có thể tăng và giảm khối lượng công việc Snowflake trong vài giây. Điều này mang lại sức mạnh thực sự của việc mở rộng Elastic Cloud đến ngưỡng cửa công ty của bạn cho bất kỳ công ty có quy mô nào.
Snowflake đã thực sự gây đột phá cho các công ty vì nó đã giảm đáng kể tổng chi phí lưu trữ và giúp việc truy cập và thực sự sử dụng dữ liệu của bạn dễ dàng hơn rất nhiều.
Trên đây là sự hình thành tiến hóa của Data Warehouse theo góc nhìn của Cole.vn, trong bài viết tới Cole.vn xin giới thiệu chi tiết đến bạn đọc về Logical Data Warehouse giúp các bạn hiểu rõ hơn về các thành phần trong sự tiến hóa của Data warehouse mang lại lợi ích và giải pháp gì cho doanh nghiệp, cũng như các thành phần mới trong Data warehouse hiện đại.
Tham khảo các khóa học của chúng tôi nhằm ứng dụng việc khai thác, phân tích và xử lý dữ liệu cho doanh nghiệp của bạn ngay hôm nay.
Khóa học chuyển đổi số doanh nghiệp toàn diện với CNTT
Khóa học phân tích dữ liệu doanh nghiệp
Khóa học phân tích nghiệp vụ kinh doanh
*Note: Bài viết có tham khảo từ nguồn tài liệu của Gartner