Điều tra định lượng và những sai sót thường gặp trong phương pháp chọn mẫu

Email In PDF

Điều tra định lượng hiện được sử dụng phổ biến trong nhiều lĩnh vực khác nhau, từ nghiên cứu cơ bản, đánh giá chính sách tới các nghiên cứu về thị trường... Ưu điểm của điều tra định lượng là số liệu có tính đại diện, độ tin cậy cao, dễ thuyết phục. Tuy nhiên, điều này chỉ đúng khi các cuộc điều tra định lượng được thiết kế bởi một phương pháp luận, bộ công cụ phù hợp, đảm bảo tính đại diện trong chọn mẫu…

 Chọn mẫu: Không thể tùy tiện

Về mặt phương pháp luận, kết quả của cuộc điều tra không toàn bộ đại diện cho tổng thể. Tuy nhiên, nếu các đơn vị được chọn để điều tra không được chọn theo cơ chế ngẫu nhiên, kết quả (các con số) ước lượng được từ cuộc điều tra không toàn bộ này sẽ là ước lượng chệch, có nghĩa là chúng không thể đại diện được cho tổng thể và các quyết định dựa vào chúng sẽ không sát thực. Vì vậy, yêu cầu được đặt ra đối với một cuộc điều tra chọn mẫu là các đơn vị được chọn vào mẫu phải tuân theo quy tắc ngẫu nhiên. Điều đó đồng nghĩa với việc phải biết xác suất chọn của từng đơn vị vào mẫu. Đây cũng là cơ sở để xác định quyền số trong quá trình ước lượng kết quả của cuộc điều tra. Kết quả ước lượng dựa vào mẫu được chọn theo cơ chế ngẫu nhiên sẽ cho các ước lượng không chệch, tức là các kết quả đó có thể đại diện được cho tổng thể mà mẫu được chọn ra. Như vậy, điều tra chọn mẫu là một quá trình lựa chọn theo quy tắc ngẫu nhiên một bộ phận các đơn vị của tổng thể để đại diện cho nó và tiến hành điều tra.

Những lý do khiến điều tra chọn mẫu thường được sử dụng thay vì phải điều tra toàn bộ tổng thể là: Nhanh chóng, ít tốn kém hơn; cung cấp lượng thông tin phong phú và toàn diện hơn (số lượng đơn vị điều tra ít nên có thể được tìm hiểu một cách chi tiết và cặn kẽ); ít mắc sai số hệ thống (sai số do ghi chép, hỏi không chuẩn xác…). Mặt khác, một nhóm nhỏ những người điều tra có nhiều kinh nghiệm sẽ ít phạm sai sót trong quá trình thu thập, quản lý dữ liệu hơn là một lực lượng điều tra đông đảo trong một cuộc tổng điều tra. Tuy nhiên, so với điều tra toàn bộ, điều tra chọn mẫu có một nhược điểm là bị mắc sai số mẫu - Một loại sai số phát sinh do chỉ điều tra một bộ phận đơn vị của tổng thể. Song, nhược điểm này là thứ yếu so với lợi thế của nó nên phương pháp điều tra chọn mẫu hay được sử dụng trong thực tế công tác nghiên cứu và thống kê.

Có nhiều loại/phương pháp chọn mẫu được sử dụng trong khâu thu thập số liệu thống kê. Các phương pháp chọn mẫu thường được sử dụng là: Chọn mẫu ngẫu nhiên đơn giản (chọn ngẫu nhiên các đơn vị vào mẫu trực tiếp từ tổng thể), chọn mẫu ngẫu nhiên phân tổ (phân các đơn vị của tổng thể ra thành các tổ có đặc điểm tương tự nhau rồi thực hiện phương pháp chọn ngẫu nhiên đơn giản ở từng tổ), chọn mẫu ngẫu nhiên chùm (phân các đơn vị của tổng thể ra thành các tổ/chùm rồi chọn ngẫu nhiên lấy một số chùm và điều tra toàn bộ các đơn vị của các chùm được chọn), chọn mẫu ngẫu nhiên nhiều cấp (phân các đơn vị của tổng thể ra thành các chùm rồi chọn ngẫu nhiên lấy một số chùm, tiếp theo chọn ngẫu nhiên lấy một số đơn vị của các chùm được chọn và tiến hành điều tra). Trong số các phương pháp chọn mẫu này, phương pháp chọn mẫu ngẫu nhiên phân tổ cho hiệu quả thiết kế mẫu (1) tốt hơn cả. Tuy nhiên, trong thực tế tùy vào yêu cầu, mục đích, nội dung cũng như điều kiện thực tế của cuộc điều tra mà lựa chọn phương pháp chọn mẫu phù hợp.

Điều tra khảo sát nói chung và điều tra định lượng nói riêng hiện được sử dụng phổ biến trong nhiều lĩnh vực khác nhau, từ nghiên cứu cơ bản, đánh giá chính sách tới các nghiên cứu về thị trường... Ưu điểm của điều tra định lượng là số liệu có tính đại diện, có độ tin cậy cao, dễ thuyết phục. Tuy nhiên, điều này chỉ đúng khi các cuộc điều tra định lượng được thiết kể bởi một phương pháp luận, bộ công cụ phù hợp, đảm bảo tính đại diện trong chọn mẫu… Các con số rất quan trọng vì nó có thể ảnh hưởng tới các quyết sách về chính sách cũng như đầu tư. Nhưng nếu các con số được tạo nên bởi một nghiên cứu có vấn đề về phương pháp, đặc biệt là phương pháp chọn mẫu thì hậu quả sẽ vô cùng lớn. Chính vì vậy, khi tiến hành chọn mẫu, cần tuân thủ những nguyên tắc mang tính khoa học, tuyệt đối không được tùy tiện.

Phân tích sai sót qua ví dụ điển hình

Trong điều tra chọn mẫu, luôn luôn có hai loại sai số là sai số hệ thống/phi chọn mẫu và sai số chọn mẫu (sai số do chỉ chọn một bộ phận của tổng thể để điều tra gây ra). Sai số hệ thống là sai số do chủ quan của con người gây ra, trong đó có việc thực hành phương pháp chọn mẫu không tuân theo nguyên tắc khoa học. Cả hai loại sai số này đều thấy xuất hiện trong các cuộc điều tra không chỉ của các đơn vị trong nước mà cả ở các công ty uy tín của nước ngoài thực hiện nghiên cứu ở Việt Nam. Thử lấy kết quả điều tra của Công ty Nielsen - một công ty toàn cầu trong nhóm dẫn đầu về đo lường khán giả và nhiều dịch vụ nghiên cứu thị trường để xem xét. Vừa qua, công ty này có đưa ra một loạt các báo cáo “Establishment Survey” - Khảo sát cơ bản để thiết lập quy trình tiêu chuẩn đo lường khán giả truyền hình tại các tỉnh, thành phố lớn của Việt Nam. Trong các báo cáo này, có các vấn đề chưa thực sự rõ ràng trong phương pháp chọn mẫu có thể dẫn đến sai số hệ thống đáng tiếc. Lấy báo cáo Establishment Survey của TP Cần Thơ ra nghiên cứu để thấy vấn đề.

Điều tra chọn mẫu gồm các bước cơ bản sau: Xác định mục tiêu, mục đích của cuộc điều tra; xác định nội dung của cuộc điều tra thông qua việc xác định các chỉ tiêu thống kê cần thu thập; xác định đối tượng điều tra; thiết kế mẫu; thiết lập dàn điều tra (dàn chọn mẫu); thiết kế bảng hỏi; tuyển dụng và tập huấn điều tra viên; tiến hành điều tra; tổng hợp kết quả điều tra và tiến hành phân tích kết quả điều tra. Cuộc điều tra ở TP Cần Thơ có các đặc điểm sau:

Mục tiêu, mục đích của cuộc điều tra: Thu thập thông tin dân số và hộ gia đình tại những khu vực được khảo sát, qua đó thu nhận hiểu biết toàn diện về đặc tính nhân khẩu học, kinh tế và tầng lớp xã hội của dân cư tại khu vực đó; thu thập thông tin về mức độ sở hữu thiết bị cũng như thói quen xem truyền hình của khán giả truyền hình.

Đối tượng của cuộc điều tra: Các hộ gia đình thuộc khu vực thành thị, các nhân khẩu thuộc khu vực thành thị.

Nội dung thông tin cuộc điều tra này cần thu thập bao gồm: Đặc tính nhân khẩu học (giới tính, tuổi, tình trạng hôn nhân, trình độ học vấn của các thành viên trong hộ gia đình...); đặc tính kinh tế - xã hội của các hộ gia đình (nghề nghiệp, thu nhập...); các đặc điểm về TV, thiết bị thu phát sóng và các dịch vụ truyền hình được sử dụng tại các hộ gia đình…;  thông tin chi tiết về thói quen xem truyền hình, thời lượng, thời gian, nội dung cũng như các kênh hay xem.

Yêu cầu chung của cuộc điều tra là những người trả lời phỏng vấn phải: Có độ tuổi 18-55; thuộc các hộ có thu nhập theo phân loại định trước (A, B, C, D, E).

Theo trình bày kết quả điều tra mẫu của TP Cần Thơ có thể thấy, đứng trên góc độ chung, mẫu của TP Cần Thơ là mẫu ngẫu nhiên phân tổ với các tổ là các quận, thị trấn của thành phố. Ở 8 đơn vị hành chính của TP, phương pháp điều tra chọn mẫu phân tổ lại được áp dụng: Tất cả các phường đều được chọn vào mẫu và bước tiếp theo tiến hành chọn hộ cho từng phường bằng phương pháp ngẫu nhiên (?). Duy chỉ có quận Ô Môn là áp dụng phương pháp chọn mẫu 2 cấp: Cấp một chọn phường (chọn 7/13 phường), cấp hai chọn hộ. Về mặt đại thể, áp dụng phương pháp chọn mẫu này là khả dĩ và nếu tuân theo quy trình của một cuộc điều tra nêu trên và áp dụng công thức suy rộng phù hợp sẽ cho kết quả đại diện được cho TP Cần Thơ. Tuy nhiên, kết quả điều tra trình bày cho TP Cần Thơ lại có một số vấn đề.

Về cơ bản, thiết kế mẫu điều tra như vậy là phù hợp, mẫu này cho phép phân tích riêng cho từng quận/huyện (khu vực thành thị). Tuy nhiên, do hạn chế về cỡ mẫu (cỡ mẫu cao nhất là 805 hộ, thấp nhất là 35 hộ) nên việc phân tích riêng ở một số quận/huyện không thể đi quá chi tiết. Các huyện có cỡ mẫu nhỏ không thể tiến hành phân tích sâu hoặc giả có thể phân tích chi tiết sâu đôi chút (cho 4 hoặc 5 phân tổ) thì mức độ tin cậy cũng sẽ thấp.

Dường như khâu lập dàn điều tra và phân bổ mẫu cho các nhóm tuổi được thực hiện không bài bản. Cơ cấu tuổi của 2.600 đối tượng phỏng vấn thể hiện rõ điều đó.

Bảng 1. Cơ cấu % thực tế tuổi của đối tượng điều tra

levanduy 1 

Nguồn: Báo cáo kết quả điều tra TP Cần Thơ

Bảng 1 cho thấy, mặc dù đối tượng trả lời phỏng vấn được quy định là thuộc nhóm tuổi 18-25, song không có một phần trăm nào thuộc nhóm tuổi 18-25. Thậm chí, trong nhóm thành viên phụ cũng không có một phần trăm nào thuộc nhóm tuổi này. Tuy nhiên, lại có tới trên 50% số người thuộc diện trả lời phỏng vấn lại từ 56 tuổi trở lên (nhóm thành viên phụ chiếm trên 70%). Điều này ảnh hưởng lớn đến kết quả trả lời của cuộc điều tra, đặc biệt là đối với một số câu hỏi nhạy cảm theo nhóm tuổi, ví dụ như “Đồng ý hay không đồng ý công bố thông tin”, “Đồng ý hay không đồng ý hợp tác nghiên cứu trong thời gian sắp tới”...

Trong nghiên cứu khán giả, các yếu tố như tuổi, giới tính, học vấn, nghề nghiệp... của đối tượng trả lời phỏng vấn là những tiêu chí quan trọng gần như bắt buộc phải tuân thủ khi thiết lập quota mẫu. Lý do là giữa các nhóm tuổi, giới tính… có sự khác nhau lớn về phong cách cũng như thị hiếu. Ví dụ, thanh niên thích xem chương trình ca nhạc, phim tình cảm. Người cao tuổi thích xem chương trình thời sự hoặc phim cổ trang… Thông thường, các tổ chức nghiên cứu sẽ phải lập dàn mẫu, phân bổ lượng mẫu đáp ứng chỉ tiêu (quota) cho việc khảo sát các tiêu chí (nhóm tuổi, giới tính…) này, tối thiểu 2 yếu tố tuổi và giới tính phải được tuân thủ nghiêm ngặt. Vì vậy, trong khi thiết kế mẫu, việc phân bổ mẫu theo các yếu tố này không hợp lý, kết quả thu được từ cuộc điều tra sẽ không phản ánh đúng tình hình thực tế và như vậy nếu dựa vào nó để đưa ra các quyết định chính sách sẽ rất có hại.

Kết quả tổng hợp trên cho thấy, khâu lập dàn điều tra và phân bổ mẫu (quota) của cuộc điều tra này hoặc không được tiến hành hoặc được tiến hành không hợp lý. Đáng ra, trước khi điều tra cần phải lập danh sách tất cả các hộ gia đình có chủ hộ/đáp viên hoặc người sẽ trả lời phỏng vấn có độ tuổi 18-55 của từng phường, những người này lại được được phân ra theo giới tính và nhóm tuổi. Sau đó phân bổ mẫu (quota) cho từng nhóm tuổi rồi tiến hành chọn ngẫu nhiên các hộ vào mẫu (theo phương pháp chọn mẫu ngẫu nhiên hệ thống) để tiến hành điều tra. Cách làm này giúp cho mức độ đại diện của mẫu được đảm bảo hơn.

Trong điều tra chọn mẫu, khâu suy rộng kết quả điều tra của cuộc điều tra cũng giữ một vai trò quan trọng. Nếu không suy rộng đúng phương pháp, kết quả thu được sẽ là các ước lượng chệch. Tức là không đại diện được cho tổng thể mà mẫu được rút ra. Theo nguyên tắc, thiết kế mẫu thế nào thì khâu suy rộng kết quả điều tra phải thực hiện dựa vào cách thiết kế đó. Trong thực tế công tác thống kê, để suy rộng kết quả mẫu cho tổng thể, người ta xây dựng hệ thống quyền số rồi áp vào cho từng đơn vị điều tra. Mặt khác, cũng có thể sử dụng các công thức ước lượng do lý thuyết đã đưa ra để ước lượng kết quả chung cho tổng thể. Trong trường hợp mẫu là mẫu phân tổ, công thức sau được áp dụng:

 levanduy 2

Trong đó  là giá trị trung bình của tổ thứ i, Ni là số lượng đơn vị của tổ thứ i, N bằng tổng các Ni,  là giá trị trung bình của tổng thể, M là số tổ của tổng thể,  là tỷ trọng của tổ thứ i trong tổng thể.

Ở mẫu của TP Cần Thơ, dường như việc ước lượng kết quả điều tra cũng không tuân theo nguyên tắc thống kê. Kết quả trình bày trong báo cáo thể hiện là kết quả điều tra thu được được tổng hợp một cách thô thiển với nhau: Kết quả phỏng vấn về một tiêu chí nào đó của 2.600 người được cộng trực tiếp với nhau mà không nhân với một quyền số thích hợp để đại diện cho tổng thể (chọn quận và cho toàn tỉnh) hoặc không sử dụng công thức nêu trên để có kết quả đại diện cho tỉnh. Tổng hợp kết quả điều tra như vậy, kết quả thu được từ mẫu cho TP Cần Thơ chắc chắn không phản ánh đúng thực tế theo quan điểm thống kê (con số thống kê phản ánh bản chất và tính quy luật của hiện tượng số lớn, một hiện tượng chỉ biết được bản chất và tính quy luật của nó khi nghiên cứu đủ lớn số đơn vị của tổng thể nghiên cứu).

Có thể khẳng định rằng, những sai sót cơ bản như phân tích ở ví dụ nêu trên sẽ dẫn tới những phát hiện hay kết quả nghiên cứu trở nên vô nghĩa, các khuyến nghị về chính sách sẽ không chính xác. Những báo cáo Establishment Survey dù chỉ là 1 bước trong quy trình 9 bước (Bước 1: Khảo sát cơ bản; Bước 2: Thiết lập và duy trì mẫu khảo sát đại diện; Bước 3: Lắp đặt thiết bị ghi nhận hoạt động xem truyền hình; Bước 4: Thu thập dữ liệu từ hộ gia đình; Bước 5: Thu thập tín hiệu kênh tham chiếu; Bước 6: Đối chiếu âm thanh; Bước 7: Sản xuất dữ liệu; Bước 8: Ghi nhận nội dung chương trình; Bước 9: Bàn giao dữ liệu) để thiết lập hệ thống đo lường, nhưng đây là bước dễ sai sót nhất, sai ở bước này sẽ dẫn tới hệ quả sai ở cả 8 bước sau và sai chung cho cả quy trình đo lường.

Ghi chú

  1. Hiệu quả thiết kế mẫu (t) được xác định bằng phương pháp lấy phương sai của mẫu được thực hiện chia cho phương sai của mẫu ngẫu nhiên đơn giản. t càng lớn hơn 1 thì hiệu quả thiết kế mẫu càng thấp. t=1, hiểu quả thiết kế mẫu như điều tra chọn mẫu ngẫu nhiên đơn giản. t<1, mẫu được thiết kế tốt hơn mẫu ngẫu nhiên đơn giản.

 

 Lê Văn Dụy

Nguyên Phó Viện trưởng Viện Khoa học thống kê

 

Hình ảnh hoạt động

Liên kết website

logo petech