Chulalongkorn University Theses and Dissertations (Chula ETD)

การประมาณค่ารวมประชากรจากตัวอย่างสุ่มอย่างง่าย ที่มีบางหน่วยมีค่าสูงมากโดยใช้ตัวประมาณความถดถอย

Other Title (Parallel Title in Other Language of ETD)

Estimation of population total from simple random samples containing some very large units using regression estimator

Year (A.D.)

1986

Document Type

Thesis

First Advisor

สุชาดา กีระนันทน์

Faculty/College

Graduate School (บัณฑิตวิทยาลัย)

Degree Name

สถิติศาสตรมหาบัณฑิต

Degree Level

ปริญญาโท

Degree Discipline

สถิติ

DOI

10.58837/CHULA.THE.1986.703

Abstract

ปัญหาที่พิจารณาในวิทยานิพนธ์นี้คือ การประมาณค่ารวมประชากรจากตัวอย่างแบบสุ่มอย่างง่าย ชนิดไม่ใส่คืน (simple random samples without replacement) ที่มีหน่วยตัวอย่างบางหน่วยมีค่าสูงมากและเป็นค่าที่มีอยู่จริงในประชากร การวิจัยครั้งนี้มีวัตถุประสงค์ที่จะศึกษาคุณสมบัติของตัวประมาณค่ารวมประชากรที่ผู้วิจัยได้เสนอแนะ (Ŷ[subscript k] ; k = 1, 2, 3) ซึ่งใช้การปรับหรือเปลี่ยนแปลงน้ำหนัก สำหรับกลุ่มค่าสังเกตของตัวแปร Y ที่เป็นค่าสูงมาก และนำตัวแปรช่วย X ที่มีความสัมพันธ์เชิงเส้นต่อกันกันตัวแปร Y มาช่วยเพิ่มประสิทธิภาพของการประมาณค่า พร้อมทั้งศึกษาเปรียบเทียบตัวประมาณดังกล่าวกับตัวประมาณค่ารวมประชากรที่เสนอโดยไมเคิลและคาดาบา (Ŷ[subscript mkt] ; t = 1, 2, 3, 4) และตัวประมาณค่ารวมประชากรที่คำนวณจากค่าเฉลี่ย (Ŷ[subscript o] = Nȳ) โดยศึกษาจากค่าประสิทธิภาพสัมพัทธ์ (relative efficiency) ที่คำนวณได้จากการจำลองข้อมูลขึ้นในเครื่องคอมพิวเตอร์ด้วยเทคนิคมอนติคาร์โล เมื่อสมมติให้ตัวแปร Y มีการแจกแจงแบบล็อกนอร์มอล (Lognormal) และแบบแกมม่า (Gamma) ค่าสัมประสิทธิ์สหสัมพันธ์ (correlation coefficient) ระหว่างตัวแปร Y และตัวแปร X เท่ากับ 0.1 0.3 0.5 0.7 และ -0.1 -0.3 -0.5 -0.7 ขนาดประชากรที่ใช้ศึกษามี 2 ขนาดคือ 500 และ 1000 โดยให้มีร้อยละของจำนวนค่าสังเกตที่เป็นค่าสูงมากในประชากรขนาด 500 คิดเป็น 1.8% 2.8% และ 3.2% และในประชากรขนาด 1000 คิดเป็น 1.8% 2.8% และ 3.3% ส่วนขนาดตัวอย่างจะกำหนดให้มีขนาดเท่ากับ 50 100 และ 200 สำหรับจำนวนหน่วยตัวอย่างที่มีค่าสูงมากที่พบในตัวอย่างจะมีค่าเริ่มตั้งแต่ 2 จนถึงจำนวนค่าสังเกตที่เป็นค่าสูงมากที่พบในประชากร โดยที่ในแต่ละสถานการณ์ที่ศึกษาจะกระทำซ้ำๆ กัน 100 ครั้ง ในขนาดประชากรเท่ากับ 500 และกระทำซ้ำๆ กัน 50 ครั้ง ในขนาดประชากรเท่ากับ 1000 ซึ่งจากผลการวิเคราะห์ข้อมูลสามารถสรุปได้ว่า ในการอนุมานอย่ามีเงื่อนไข (conditional inference) พบว่าในกรณีที่ทราบจำนวนค่าสังเกตที่เป็นค่าสูงมากในประชากร ถึงแม้ Ŷ[subscript l] จะมีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] ลดลง ถ้าร้อยละของจำนวนค่าสังเกตที่เป็นค่าสูงมากที่พบในประชากรเพิ่มมากขึ้น ประสิทธิภาพสัมพัทธ์ของ Ŷ[subscript l] เทียบกับ Ŷ[subscript o] จะยังคงสูงกว่าประสิทธิภาพสัมพัทธ์ของ Ŷ[subscript mk4] เทียบกับ Ŷ[subscript o] เสมอ และถ้าตัวแปร Y มีความสัมพันธ์เชิงเส้นต่อกันกับตัวแปร X หรือในตัวอย่างมีร้อยละของจำนวนหน่วยตัวอย่างที่มีค่าสูงมาก เพิ่มมากขึ้นแล้ว Ŷ[subscript l] จะมีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงกว่า Ŷ[subscript mk4] อย่างเห็นได้ชัด โดยจะมีค่าประมาณ 2 เท่าของ Ŷ[subscript mk4] ถ้าค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างตัวแปร Y และ X มีค่าเท่ากับ 0.7 หรือ -0.7 ส่วนในกรณีที่ไม่ทราบจำนวนค่าสังเกตที่เป็นค่าสูงมากในประชากร ถ้าร้อยละของจำนวนค่าสังเกตที่เป็นค่าสูงมากที่พบในประชากรเพิ่มขึ้น ประสิทธิภาพสัมพัทธ์ของตัวประมาณ Ŷ[subscript 3], Ŷ[subscript mkt], หรือ Ŷ[subscript mk3] เมื่อเทียบกับ Ŷ[subscript o] จะลดลงแต่ประสิทธิภาพสัมพัทธ์ของตัวประมาณ Ŷ[subscript 2] เทียบกับ Ŷ[subscript o] จะเพิ่มขึ้นส่วนประสิทธิภาพสัมพัทธ์ของตัวประมาณ Ŷ[subscript mk2] เทียบกับ Ŷ[subscript o] จะลดลงเมื่อพบจำนวนหน่วยตัวอย่างที่เป็นค่าสูงมาก มีจำนวนน้อยและถ้าตัวแปร Y และตัวแปร X มีความสัมพันธ์เชิงเส้นต่อกันหรือในตัวอย่างมีจำนวนหน่วยตัวอย่างที่มีค่าสูงมาก เพิ่มมากขึ้นแล้ว Ŷ[subscript 3] จะเป็นตัวประมาณที่มีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงสุด สำหรับในการอนุมานอย่างไม่มีเงื่อนไข (unconditional inference) พบว่า ในกรณีที่ทราบจำนวนค่าสังเกตที่เป็นค่าสูงมากในประชากร จะยังคงได้ Ŷ[subscript l] เป็นตัวประมาณที่มีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงกว่า Ŷ[subscript mk4] ถึงแม้ว่าในการแจกแจงแบบล็อกนอร์มอล Ŷ[subscript l] จะมีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] ลดลงเมื่อประชากรมีจำนวนค่าสังเกตที่เป็นค่าสูงมากเพิ่มมากขึ้น แต่มีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงขึ้นในการแจกแจงแบบแกมม่า และถ้าตัวแปร Y และตัวแปร X มีความสัมพันธ์เชิงเส้นต่อกันเพิ่มมากขึ้น Ŷ[subscript l] จะเป็นตัวประมาณที่มีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงกว่า Ŷ[subscript mk4] อย่างเห็นได้ชัด ส่วนในกรณีที่ไม่ทราบจำนวนค่าสังเกตที่เป็นค่าสูงมากที่พบในประชากร เช่นเดียวกันกับในการอนุมานอย่างมีเงื่อนไข กล่าวคือประสิทธิภาพสัมพัทธ์ของตัวประมาณ Ŷ[subscript k] ; k = 2, 3 หรือ Ŷ[subscript mkt] ; t = 1, 2, 3 เทียบกับ Ŷ[subscript o] จะลดลง ถ้าในประชากรมีร้อยละของจำนวนค่าสังเกตที่เป็นค่าสูงมากเพิ่มขึ้น และเมื่อตัวแปร Y มีความสัมพันธ์เชิงเส้นต่อกันกับตัวแปร X น้อยแล้ว จะได้ Ŷ[subscript mk2] เป็นตัวประมาณที่มีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงสุด แต่ถ้าตัวแปร Y มีความสัมพันธ์เชิงเส้นต่อกันกับตัวแปร X มากขึ้น แล้ว Ŷ[subscript 2] จะเป็นตัวประมาณที่มีประสิทธิภาพสัมพัทธ์เมื่อเทียบกับ Ŷ[subscript o] สูงสุด

Share

COinS