Huy Bui
5,573
13-06-2021
Quy trình phân tích dữ liệu xuất hiện khi ngày nay càng có nhiều thông tin cũng như sự phát triển vượt bậc của công nghệ, internet, các ứng dụng data analytics; và hành vi người tiêu dùng cũng trở nên phức tạp hơn xưa rất nhiều. Chính vì điều này, Big Data đã được tối ưu một cách dễ dàng nhờ sự “tiến hóa” của quy trình phân tích dữ liệu. Dự đoán trong tương lai, quy trình này sẽ có sự thay đổi; nhưng không đáng kể
Quy trình phân tích dữ liệu
Khi phân tích dữ liệu bước đầu tiên chúng ta cần phải viết ra requirement; nghĩa là tìm ra mục đích, yêu cầu của việc phân tích. Phần này là bước quan trọng nhất trong phân tích dữ liệu; nếu xác định được yêu cầu cụ thể thì việc phân tích sẽ càng chính xác.
Ví dụ:
– Tôi muốn phân tích để xem tình trạng đơn hàng; (Đối tác giao nhanh hay chậm, đơn hay hủy ở tỉnh thành nào, Chi phí vận chuyển của đối tác nào giá thấp nhất)
– Tôi muốn phân tích báo cáo bán hàng cho 300 cửa hàng trên toàn quốc; (Doanh số top cửa hàng, top sale, top sản phẩm bán chạy,..)
– Tôi muốn xem báo cáo tháng vừa qua; kênh bán hàng nào mang lại doanh thu nhiều nhất, và kênh nào thấp nhất; có nên bỏ các kênh bán hàng có doanh thu thấp nhất đó không….
Yêu cầu phân tích rất quan trọng, nó dựa trên mục tiêu mà doanh nghiệp mong muốn đạt được trong tương lai. Chính vì vậy, chọn lựa cũng như note ra những yêu cầu cần thiết; nhưng phải nhớ là tránh lan man, đi quá xa vấn đề; vì sẽ dẫn đến tốn thời gian, nguồn lực nhưng không mang lại hiệu quả cũng như hướng đi đúng đắn.
Từ yêu cầu phân tích, mình sẽ thông qua hoạt động là Data Exploration mình sẽ biết tiền xử lý dữ liệu gì. Nói cách khác là bạn hiểu dữ liệu của mình đang bị sai sót ở chỗ nào; và bạn nên đồng bộ hóa chúng hay hiểu rõ vấn đề phía sau chúng.
Ví dụ: Có 1 bảng thông tin đơn hàng gồm 10,000 raw data mình; trong đó cột tỉnh thành có 50 data lỗi thông tin là HN, hà nội, ha noi, thì hoạt động tiền xử lý cột đó phải biến thành Hà Nội hết.
Ví dụ khác: Mùa dịch vừa qua, quy định không được ăn tại chỗ áp dụng cho hết tất cả cửa hàng, quán ăn; vì vậy sẽ có mối liên hệ giữa doanh thu và các kênh giao hàng và bạn tiếp tục khám phá những vấn đề đằng sau nó
Sau khi tiền xử lý xong rồi chúng ta mới chế biến dữ liệu gọi là hoạt động Data Processsing. Bạn sẽ dùng các công cụ, tính toán thống kê như câu lệnh SQL; công thức Excel để mình ra được kết quả báo cáo.
Ví dụ: Dễ hiểu hơn, bạn có tệp 5000 khách hàng ăn ở quán ăn của bạn bao gồm các thông tin sau: họ và tên, số điện thoại, số lần ăn ở quán trong 1 tuần, 2 tuần, 3 tuần 1 tháng; giới tính, số voucher/mã khuyến mãi đã sử dụng; món ăn/thức uống mà họ thường ăn nhiều nhất; số tiền họ đã chi trả cho mỗi lần ghé nhà hàng hay đặt qua app là bao nhiêu.
Và từ Big Data đó, bạn bắt đầu lọc dữ liệu, sắp xếp dữ liệu, tính phần trăm, tỷ lệ đơn vị cần thiết; tương ứng với yêu cầu phân tích dữ liệu ban đầu bạn đặt ra. Sau khi xong bước vừa rồi, bạn sẽ trực quan hóa chúng bằng sơ đồ, biểu đồ cột, đường, tròn, map,…; nhằm hiểu được vấn đề của doanh nghiệp.
Data validation
Sau khi ra kết quả rồi mình phải xem nó đúng chưa; nếu chưa đúng thì mình phải làm lại cái gì tiếp theo; yêu cầu đúng chưa, nếu chưa đúng thì phải xử lý lại bước Data Processing.
Thực tế, nếu hồi đại học, bạn đã làm qua luận án tốt nghiệp cho sinh viên kinh tế thì phần mềm SPSS là một công cụ mà bất cứ sinh viên nào cũng phải dùng nó để phân tích dữ liệu. Từ đó, SPSS sẽ tính toán ra những con số và đánh giá sự hợp lệ của mẫu dữ liệu mà bạn đã có. Nếu con số đó không đúng với con số chuẩn của phần mềm này; nó sẽ báo lỗi và nhiệm vụ của các bạn là quay lại xem mẫu có đúng chưa; cách điền thông số; hay có gặp vấn đề gì ở bước khai phá dữ liệu.
Sau khi đến 2 vòng đó rồi thì thấy số liệu đúng rồi, ta sẽ biểu diễn dữ liệu thành 2 hướng
– Làm báo cáo chi tiết gửi cho sếp (Report)
– Đóng gói lại thành 1 hệ thống online, nghĩa là dữ liệu cứ chảy vào thì báo cáo ra chuẩn (Deployment, Monitoring, Business Data Visualization)
Ngoài ra, bạn có thể tham khảo ứng dụng quy trình trong khóa học data analysis cùng các dashboard, bài làm của học viên để hiểu thêm về quy trình phân tích dữ liệu