Chọn mẫu với R (Sampling)
Các khái niệm
- Tổng thể: Là tập hợp các đối tượng khảo sát. Ví dụ: Điều tra sự hài lòng của nhân viên với công ty có 20000 nhân viên => tổng thể = 20000
- Phần tử (các đơn vị): là một đối tượng trong tổng thể.
- Mẫu: là tập hợp đối tượng nhỏ lấy ra từ tổng thể. => Kích thước nhỏ hơn tổng thể rất nhiều. Mẫu cần khách quan và đại diện được cho tổng thể.
- Kỹ thuật chọn mẫu là cách rút chọn 1 đối tượng/đơn vị nghiên cứu trong dân số vào mẫu.
- Nguyên tắc thống kê đòi hỏi một mẫu có giá trị khi mẫu đó có kích thước đủ lớn (đủ cỡ mẫu) và mẫu đại diện cho dân số.
Lấy mẫu từ tổng thể => tính các giá trị thống kê mô tả của mẫu => suy diễn từ mẫu ra tổng thể và đảm bảo độ lỗi nhỏ nhất có thể.
Ý nghĩa: dễ dàng tính được các tham số thống kê mô tả của tập mẫu, từ đó suy diễn được đặc điểm của tổng thể.
Phương pháp chọn mẫu
Pp không xác suất:
- Mẫu được chọn phụ thuộc vào đặc tính của tổng thể và nhu cầu của điều tra. Cơ hội lựa chọn không như nhau.
Một số phương pháp:
- Pp có chủ đích.
- Pp thuận tiện.
Pp xác suất:
- Mẫu được chọn cơ hội là như nhau.
- Có cơ hội trích chọn ra đại diện cho tổng thể.
Một số phương pháp:
- Pp ngẫu nhiên đơn.
- Pp ngẫu nhiên hệ thống.
- Pp ngẫu nhiên cụm.
Chọn mẫu có chủ đích:
- Là phương pháp phổ biến nhất trong nghiên cứu định tính.
- Chọn tập hợp đối tượng tham gia dựa theo những tiêu chí có tính đại diện liên quan tới một câu hỏi nghiên cứu.
- Cỡ mẫu có thể ấn định hoặc không ấn định.
- Nhược điểm của pp này: Không xác định được sai số lấy mẫu và không thể kết luận cho tổng thể từ kết quả mẫu.
Chọn mẫu thuận tiện
- Là phương pháp lấy mẫu dựa trên sự thuận lợi hay dựa trên tính dễ tiếp cận của đối tượng.
- Chẳng hạn, khảo sát mẫu trên một vài bệnh viện có dễ tiếp cận hay tình cờ gặp bất cứ người nào mà gặp trên đường … để xin thực hiện cuộc phỏng vấn.
- Nhược điểm của pp này: Không xác định được sai số lấy mẫu và không thể kết luận cho tổng thể từ kết quả mẫu.
Phương pháp chọn ngẫu nhiên đơn
Là phương pháp lấy mẫu mà mọi đơn vị lấy mẫu đều được chọn vào mẫu nghiên cứu với xác suất bằng nhau và độc lập với việc chọn đơn vị lấy mẫu khác.
=> Cơ hội mang tính đại diện cao hơn

Phương pháp chọn ngẫu nhiên hệ thống
- Các đối tượng trong mẫu hệ thống được lựa chọn bằng cách áp dụng một khoảng cách hằng định (bước nhảy k) theo sau bởi một sự bắt đầu ngẫu nhiên
- Các bước:
- Tính khoảng cách mẫu k = N/n.
- Chọn ngẫu nhiên một số r, 1 <= r <= k.
- Chọn một nhóm gồm các đơn vị lấy mẫu r, r+k, r+2k, …
Ví dụ chọn ra 5 người trong 15 người, mỗi phần tử cách nhau 3






Phương pháp chọn mẫu cụm
- Một kỹ thuật chọn mẫu cụm thường dùng là chọn cụm xác suất tỉ lệ theo cỡ (PPS: probability proportionate to size)
- Cụm nào có dân số lớn sẽ có nhiều cơ hội hơn để được chọn.
- Số đơn vị liệt kê chọn ra trong từng cụm là bằng nhau.



Thường để trả lời câu hỏi nghiên cứu sự khác biệt giữa các nhóm.
Thực hành trên ngôn ngữ lập trình R về “chọn mẫu”
Ví dụ: Dữ liệu về mạch nước ngầm
Dự đoán đặc điểm của lần phun tiếp theo dựa trên những quan sát trước đó
Bước 1: Đọc dữ liệu faithful
Hiển thị những dòng đầu: Head(faithful)
Hiển thị hết các dữ liệu: faithful
Loại dữ liệu: Class(faithful)



Giá trị duration
Duration = faithful$eruptions
Duration



Phương pháp chọn mẫu ngẫu nhiên đơn
sample()
Ví dụ chọn 10 ngẫu nhiên mẫu đơn, một giá trị có thể được lặp lại nhiều lần.



Mỗi lần lấy mẫu là một giá trị khác nhau



Ví dụ chọn 10 ngẫu nhiên mẫu đơn, một giá trị không lặp lại



Phương pháp chọn mẫu ngẫu nhiên hệ thống
- Bước 1: Tính khoảng cách mẫu k = N/n.
- Bước 2: Chọn ngẫu nhiên một số r, 1 <= r <= k.
- Bước 3: Chọn một nhóm gồm các đơn vị lấy mẫu r, r+k, r+2k, …



Kết quả:
- Khoảng cách mẫu = 28
- Số ngẫu nhiên từ 1-28 là 6
- Dãy số ngẫu nhiên được chọn bắt đầu từ 6 là 6, 34, 62, 90, 118, 146, 174, 202, 230, 258
Phương pháp chọn mẫu cụm
centers=4 => 4 nhóm
chọn 2 trong 4 nhóm: clusters <- sample(unique(faithful$index), size=2, replace=F)
=> chọn nhóm 2 và nhóm 4
#Trích chọn các mẫu thuộc nhóm đã chọn



Sai lệch trong chọn mẫu với R
Khái niệm sai lệch
Sai lệch có khuynh hướng tạo ra những giá trị cao hay thấp hơn giá trị thật.
Phân loại sai lệch
Có 2 loại sai lệch: sai lệch chọn lựa và sai lệch thông tin.
- Sai lệch chọn lựa: nghiêm trọng nhất (lỗi người nghiên cứu).
- Khi xác suất chọn mẫu là không giống nhau trên từng đối tượng.
- Xác suất lựa chọn không đều.
Mất mẫu
Đối tượng từ chối tham gia NC.
Mất mẫu trong quá trình theo dõi.
- Ví dụ, khảo sát tỷ lệ SDD trẻ em < 5 tuổi và thực hành nuôi con của các bà mẹ: bà mẹ vắng nhà nhiều lần?
Các sai lệch khác:
- Nghiên cứu người tình nguyện.
- Lấy mẫu những bệnh nhân đăng ký.
- Sai lệch do mùa (SXH).
- Sai lệch do đạo đức: Trung thực trong báo cáo khoa học nếu lấy mẫu không đại diện
Thiên lệch
Ví dụ: Người dân sẽ có xu hướng vote cho đội tuyển quốc gia theo cảm xúc và tinh thần dân tộc hơn là vote dựa trên logic.



Các bước lấy mẫu
- Xác định quần thể
- Lựa chọn khung mẫu: Xét điều kiện lựa chọn các mẫu
- Chọn kỹ thuật lấy mẫu: Ngẫu nhiên đơn/ngẫu nhiên hệ thống/chọn mẫu cụm….
- Xác định kích thước mẫu
- Thu thập dữ liệu
- Đánh giá mẫu: Độ tốt/khách quan => Tính tham số thống kê mô tả => Suy diễn tổng thể



>> Xem thêm: