Đỗ Mỹ Linh
2,762
13-08-2021
Statistical Modeling hay mô hình thống kê là quá trình áp dụng phân tích thống kê vào một tập dữ liệu. Mô hình thống kê là một biểu diễn toán học (hoặc mô hình toán học) của dữ liệu được quan sát.
Khi các nhà phân tích dữ liệu áp dụng các mô hình thống kê khác nhau cho dữ liệu mà họ đang phân tích, họ có thể hiểu và diễn giải thông tin một cách có hệ thống hơn. Thay vì chọn lọc dữ liệu thô, phương pháp này cho phép họ xác định mối quan hệ giữa các dữ liệu, đưa ra dự đoán về các tập dữ liệu trong tương lai và trực quan hóa dữ liệu đó để những người không phải là nhà phân tích và các bên liên quan có thể hiểu và tận dụng nó.
Trong khi các nhà khoa học dữ liệu thường nhiệm vụ của họ là xây dựng mô hình và viết thuật toán, các nhà phân tích cũng thỉnh thoảng phải làm việc với các mô hình thống kê trong công việc phân tích dữ liệu. Vì lý do này, nếu muốn trở thành chuyên viên phân tích dữ liệu giỏi, nổi trội thì nên hiểu và biết chắc chắn về điều gì làm nên thành công của những mô hình này.
Khi máy học và trí tuệ nhân tạo trở nên phổ biến hơn, ngày càng nhiều công ty và tổ chức sử dụng mô hình thống kê để đưa ra dự đoán về tương lai dựa trên dữ liệu. Nếu bạn làm việc trong lĩnh vực phân tích dữ liệu, bạn cần phải hiểu cách hoạt động của các mô hình cơ bản… Khi bạn phân tích dữ liệu, bạn sẽ cần tìm kiếm các mô hình để áp dụng vào công việc phân tích và bạn sử dụng 1 mô hình để đưa ra kết quả cho cả quá trình.
Dưới đây là một số lợi ích có được từ việc hiểu rõ về mô hình thống kê
Có nhiều loại mô hình thống kê khác nhau và một nhà phân tích dữ liệu hiệu quả cần phải có hiểu biết toàn diện về tất cả chúng. Trong mỗi tình huống, bạn không chỉ xác định được mô hình nào sẽ giúp trả lời câu hỏi tốt nhất mà còn cả mô hình nào phù hợp nhất với dữ liệu bạn đang làm việc.
Dữ liệu hiếm khi có thể phân tích ở dạng thô. Để đảm bảo việc phân tích của bạn là chính xác và khả thi, dữ liệu trước tiên phải được làm sạch. Việc dọn dẹp này thường bao gồm tổ chức thông tin thu thập được và loại bỏ “dữ liệu xấu hoặc không đầy đủ” khỏi mô hình.
Khi bạn biết các mô hình thống kê khác nhau hoạt động như thế nào và cách chúng tận dụng dữ liệu, bạn cũng sẽ dễ dàng hơn trong việc xác định dữ liệu nào phù hợp nhất với câu hỏi bạn đang cố gắng trả lời.
Trong hầu hết các tổ chức, các nhà phân tích dữ liệu được yêu cầu truyền đạt những kết quả công việc của họ với hai đối tượng khác nhau.
Đối tượng đầu tiên bao gồm những người trong nhóm kinh doanh, những người không cần hiểu chi tiết về phân tích của bạn mà chỉ muốn biết những điểm cần rút ra. Đối tượng thứ hai bao gồm những người quan tâm đến các chi tiết cụ thể hơn; nhóm này sẽ muốn cả kết quả chi tiết và cả việc giải thích về cách bạn phân tích để cho ra kết quả kia.
Hiểu rõ về mô hình thống kê có thể giúp bạn trao đổi công việc tốt hơn với cả hai đối tượng này, vì bạn sẽ hiểu sâu để đưa ra giải thích chi tiết về quá trình phân tích dữ liệu cũng như tạo ra các hình ảnh hóa dữ liệu tốt hơn, giúp ích trong việc truyền đạt các ý tưởng phức tạp cho những người không phải là dân phân tích dữ liệu.
Trước khi có thể tạo bất kỳ mô hình thống kê nào, nhà phân tích cần thu thập hoặc tìm nạp dữ liệu được lưu trữ trên cơ sở dữ liệu, đám mây, mạng xã hội hoặc trong tệp excel thuần túy. Để làm được điều này, các nhà phân tích cũng phải nắm chắc cấu trúc và quản lý dữ liệu, bao gồm cách thức và vị trí dữ liệu được lưu trữ, tìm nạp và duy trì. Do đó, những người làm việc trong lĩnh vực này nên có chung niềm đam mê với các dữ kiện và dữ liệu, cũng như hiểu những điều cơ bản về thao tác dữ liệu.
Khi đến lúc phân tích dữ liệu, có một loạt các mô hình thống kê mà các nhà phân tích có thể chọn sử dụng. Hầu hết các kỹ thuật phổ biến sẽ thuộc hai nhóm sau:
Học tập có giám sát là một là một phần của học máy và trí tuệ nhân tạo AI, trong đó một thuật toán máy tính được đào tạo dựa trên dữ liệu đầu vào đã được gắn nhãn cho một đầu ra cụ thể. Mô hình được đào tạo cho đến khi nó có thể phát hiện ra các mẫu và mối quan hệ cơ bản giữa dữ liệu đầu vào và nhãn đầu ra, cho phép nó mang lại kết quả ghi nhãn chính xác khi làm việc với dữ liệu chưa từng gặp bao giờ.
Học tập có giám sát mạnh ở phân loại và hồi quy, chẳng hạn như xác định loại tin tức thuộc về hoặc dự đoán lượng doanh thu nhất định của 1 ngày một ngày trong tương lai. Mục đích của học tập có giám sát là để hiểu dữ liệu trong một câu hỏi cụ thể.
Mô hình hồi quy
Regression (hồi quy) Các nhà phân tích dữ liệu sử dụng mô hình hồi quy để kiểm tra mối quan hệ giữa các dữ liệu. Các mô hình hồi quy thường được các tổ chức sử dụng để xác định dữ liệu độc lập nào có ảnh hưởng nhiều nhất đến các dữ liệu phụ thuộc — thông tin có thể được tận dụng để đưa ra các quyết định kinh doanh thiết yếu.
Linear regression (Hồi quy tuyến tính), logistical regression (hồi quy logistic) , and polynomial regression (hồi quy đa thức) là các thuật toán hồi quy phổ biến.
Mô hình phân loại
Classification (Phân loại) sử dụng một thuật toán để chỉ định chính xác 1 dữ liệu cần kiểm tra thành các danh mục cụ thể. Nó nhận ra các thực thể cụ thể trong tập dữ liệu và cố gắng đưa ra một số kết luận về cách các thực thể đó nên được gắn nhãn hoặc xác định.
Các thuật toán phân loại phổ biến là bộ phân loại linear classifiers (tuyến tính), support vector machines (SVM) (máy vectơ hỗ trợ (SVM)), decision trees (cây quyết định), k-nearest neighbor (k-láng giềng gần nhất) và random forest (rừng ngẫu nhiên).
Mô hình phân loại thường được sử dụng khi chuyên viên phân tích dữ liệu cần hiểu cách họ đến 1 điểm nhất định. Giống như khi bạn nướng bánh mì, đầu vào là cục bột đã được nhào sẵn và bạn biết kết quả là bánh mì được nướng ra lò, bạn chỉ biết là ở trong lò nướng đó là bánh mì được nướng lên nhưng bạn không thể biết chính xác cơ chế của nó, từ cục bột khi được nướng sẽ chuyển biến như thế nào ở trong lò.
Do đó những nhà phân tích dữ liệu với mô hình phân loại có thể đưa ra cho bạn nhiều thông tin hơn bên cạnh kết quả đầu ra. Họ cung cấp cho bạn thêm thông tin mà bạn có thể sử dụng để giải thích kết quả dự đoán cho sếp hoặc bên liên quan của bạn
2. Unsupervised learning (Học không giám sát), bao gồm clustering algorithms (thuật toán phân cụm) và association rule (quy tắc kết hợp).
Học không giám sát, còn được gọi là học máy không giám sát, sử dụng các thuật toán học máy để phân tích và phân cụm các tập dữ liệu không được gắn nhãn. Các thuật toán này phát hiện ra các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự can thiệp của con người.
Khả năng phát hiện ra những điểm tương đồng và khác biệt trong thông tin khiến nó trở thành giải pháp lý tưởng để phân tích dữ liệu khám phá (exploratory data analysis), chiến lược bán chéo (cross-selling) , phân khúc khách hàng và nhận dạng hình ảnh.
Thuật toán phân cụm
Thuật toán phân cụm (clustering algorithms) là một kỹ thuật khai thác dữ liệu dùng để nhóm các dữ liệu không được gắn nhãn dựa trên những điểm tương đồng hoặc khác biệt của chúng. Các thuật toán phân cụm được sử dụng để xử lý các đối tượng dữ liệu thô, chưa được phân loại thành các nhóm được đại diện bởi cấu trúc – hoặc mẫu trong thông tin.
Các thuật toán phân cụm có thể được phân loại thành một số loại, cụ thể là exclusive (độc quyền), overlapping (chồng chéo), hierarchical (phân cấp) và (probabilistic) xác suất.
Association rule (quy tắc kết hợp)
Quy tắc kết hợp là một phương pháp dựa trên quy tắc để tìm mối quan hệ giữa các dữ liệu trong một tập dữ liệu nhất định. Các phương pháp này thường được sử dụng để phân tích 1 quy mô thị trường, cho phép các công ty hiểu rõ hơn về mối quan hệ giữa các sản phẩm khác nhau. Hiểu được thói quen tiêu dùng của khách hàng cho phép doanh nghiệp phát triển các chiến lược bán chéo và công cụ gợi ý.
Ví dụ về công cụ này có thể thấy ở danh sách gợi ý “Customers Who Bought This Item Also Bought” (Khách hàng đã mua mặt hàng này cũng đã mua các sản sau) của Amazon hoặc danh sách “Discover Weekly” của Spotify.
Mặc dù có một vài thuật toán khác nhau được sử dụng để tạo ra các quy tắc kết hợp, chẳng hạn như Apriori, Eclat và FP-Growth, nhưng thuật toán Apriori được sử dụng rộng rãi nhất.
Hy vọng qua bài viết này của Cole, các bạn có thể hiểu thêm về Mô hình thống kê và mối quan hệ của nó trong việc phân tích dữ liệu cũng như các Các kỹ thuật thống kê quan trọng trong phân tích dữ liệu.
Khóa học giúp bạn có nền tảng vững chắc về phân tích dữ liệu, làm chủ tư duy phân tích dữ liệu để có hướng đi đúng trong không gian dữ liệu nhiều chiều.
Cảm nhận học viên
Câu chuyện doanh nghiệp