Huy Bui
1,843
23-04-2022
Bước 1: Dữ liệu thô (Raw data)
Bước 2: Phương pháp định lượng (Quantitative Method)
Bước 3: Thông tin hữu ích (Meaningful Information)
Bước 4: Quyết định (Making decision)
Ví dụ:
Thu thập dữ liệu dưới dạng ‘phi số’.
Các dữ liệu này thường được thu thập thông qua:
Thu thập dữ liệu dưới dạng số học có tính chất thống kê.
Các dữ liệu thường được thu thập thông qua:
Mối tương quan: Phân tích định lượng đo lường hành vi của người dùng trên website. Phân tích định tính trả lời được tại sao họ lại có hành vi như vậy => Có thể kết hợp hai phương pháp phân tích.
Các bước
diễn giải câu hỏi |
Nội dung | Ví dụ |
Research question | Đưa ra câu hỏi nghiên cứu và cần có câu trả lời | Sự phát triển kinh tế có thúc đẩy quá trình dân chủ hóa? |
Theorize | Một diễn giải được đưa ra | Các nước có nền kinh tế phát triển thường có nền dân chủ tốt bởi họ có tầng lớp trung lưu lớn đông đảo có hiểu biết về chính trị (Lipset 1959; Moore 1966) |
Hypothesize | Chúng ta đưa ra giả thuyết cần kiểm định | Chúng ta đưa ra giả thuyết cần kiểm định |
Data Collection | Chúng ta thu thập dữ liệu để thực hiện kiểm định giả thuyết | Dữ liệu được thu thập từ nhiều nước, nhiều gia tầng xã hội, dữ liệu về mức độ dân chủ, … |
Data Analysis | Sử dụng dữ liệu thu thập được để chấp nhận hoặc bác bỏ giả thuyết |
?1 + ?2 + ?3 + ⋯ + ??
Ví dụ khảo sát một nhóm có 50 nhân viên trong doanh nghiệp có 1000 người để làm đại diện. Vậy ta có N=50
Giá trị trung tâm (Measures of central tendency):
Chúng ta quan tâm đến sự phân bố tập trung ở một giá trị nào đó.
Giả sử tuổi của các học viên là 10,15,13,17,18,65,20,19,22,16,21,14
Trung bình = (10+13+14+15+16+17+18+19+20+21+22+65) / 12 = 20.83
VD: Mức lương trung bình, mức lương bình quân,…
Gọi M là trung vị. Ta có:
Giả sử tuổi của các học viên là 10,15,13,17,18,65,20,19,22,16,21,14
=> Trung vị = (17+18) / 2 = 17.5
Ta thấy khi giá trị 65 là ngoại lai (outlier), nên mean và median khác nhau rất nhiều (20.83 vs 17.5
Vậy kết luận khi tập dữ liệu có dữ liệu ngoại lai (outlier, ta nên dùng Median). Khi kích thước dữ liệu của mẫu lớn và không có giá trị ngoại lai thì nên dùng Mean.
Chẳng hạn, số liệu về tuổi các học viên: 10, 15, 13, 17, 18, 65, 20, 18, 22, 18, 21, 14. Khi đó, mode biến tuổi các học viên sẽ là 18 (giá trị xuất hiện 3 lần).
Vì tổng thể quá lớn nên chúng ta chỉ có thể suy diễn tổng thể từ một tập mẫu nhất định.
Dựa trên tập mẫu để ước lượng các giá trị của tổng thể.
Thang đo thống kê
Độ đo: là việc gán những dữ kiện lượng hóa cho những hiện tượng quan sát.
VD: Khách hàng đánh giá app bằng icon biểu cảm tượng trưng…
Thang đo: là tạo ra một thang điểm để đánh giá đặc điểm của đối tượng nghiên cứu thể hiện qua sự đánh giá, nhận xét. Ví dụ đánh giá app bằng số điểm (con số)
Thang đo khoảng (Interval scale)
Biểu diễn sự thay đổi theo đặc trưng units
Phân biệt các loại biến:
Chúng ta viết trực tiếp phép tính vào không gian làm việc.
VD: Gán kết quả phép tính thành biến có tên là “my_result”
Ví dụ Lấy my_result nhân với 2
Câu lệnh: Class()
VD: loại dữ liệu của x là gì?
Kết quả
=> Loại dữ liệu của X là dữ liệu số
Loại dữ liệu của X có phải Integer (số nguyên) không?
Kết quả:
Kết quả
Ví dụ x=1, y=2; z= x>y
kết quả:
Kiểu logic chỉ có 2 giá trị TRUE/FALSE
Gán các giá trị đơn lẻ vào trong 1 mảng
Câu lệnh: c()
Kết quả:
Kết quả là 0
…
Ví dụ load bộ dữ liệu tên “longley”
kết quả
Ví dụ cột “Year”
Kết quả:
Ví dụ: Phần tử ở hàng thứ 7 của cột Year
Ví dụ: