Chulalongkorn University Theses and Dissertations (Chula ETD)

Other Title (Parallel Title in Other Language of ETD)

ALIGNMENT BETWEEN NATIONAL AND CLASSROOM SCIENCE TEST ITEMS: AN APPLICATION OF MANY-FACET RASCH MEASUREMENT AND GENERALIZABILITY THEORY

Year (A.D.)

2017

Document Type

Thesis

First Advisor

ณัฏฐภรณ์ หลาวทอง

Second Advisor

สังวรณ์ งัดกระโทก

Faculty/College

Faculty of Education (คณะครุศาสตร์)

Department (if any)

Department of Educational Research and Psychology (ภาควิชาวิจัยและจิตวิทยาการศึกษา)

Degree Name

ครุศาสตรดุษฎีบัณฑิต

Degree Level

ปริญญาเอก

Degree Discipline

การวัดและประเมินผลการศึกษา

DOI

10.58837/CHULA.THE.2017.726

Abstract

การวิจัยนี้มีวัตถุประสงค์เพื่อ 1) ตรวจสอบอิทธิพลของผู้ประเมิน ในการประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน กลุ่มสาระการเรียนรู้วิทยาศาสตร์ ระดับชั้นมัธยมศึกษาตอนต้น 2) เปรียบเทียบผลการประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน ก่อนและหลังควบคุมอิทธิพลการกดหรือปล่อยคะแนน 3) ศึกษาและเปรียบเทียบผลการประเมินความสอดคล้องในแนวเดียวกันตามแนวคิดของ Porter ระหว่างข้อสอบในการประเมินระดับชาติ กับข้อสอบในประเมินระดับชั้นเรียน ของโรงเรียนที่มีผลสัมฤทธิ์ทางวิทยาศาสตร์แตกต่างกัน และ 4) ประมาณค่าและเปรียบเทียบค่าสัมประสิทธิ์การสรุปอ้างอิงของผลการประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน เมื่อจำนวนผู้ประเมินและรูปแบบการออกแบบการประเมินต่างกัน ตัวอย่างในการศึกษา ประกอบด้วย ข้อสอบในการประเมินระดับชั้นเรียน กลุ่มสาระการเรียนรู้วิทยาศาสตร์ ชั้นมัธยมศึกษาตอนต้น ของโรงเรียนมัธยมศึกษาในกรุงเทพมหานคร จำนวน 1,089 ข้อ และผู้เชี่ยวชาญในการประเมินความสอดคล้องในแนวเดียวกัน จำนวน 20 คน เครื่องมือที่ใช้ในการวิจัยคือ แบบประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน การวิเคราะห์ข้อมูลโดยประยุกต์ใช้ MFRM การทดสอบสถิติที (paired-samples t-test) การวิเคราะห์ค่าดัชนีความสอดคล้อง (alignment index) และการใช้ทฤษฎีการสรุปอ้างอิงความน่าเชื่อถือของผลการวัด ผลการวิจัยสรุปได้ดังนี้ 1. เกิดอิทธิพลการกดหรือปล่อยคะแนนของผู้ประเมินในการประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน โดยผู้ประเมินมีแนวโน้มที่จะมีลักษณะของการกดคะแนนมากกว่าปล่อยคะแนน (คะแนนโลจิทอยู่ระหว่าง -3.24 ถึง 1.83) ผู้ประเมินส่วนใหญ่แสดงรูปแบบของความแม่นยำในการให้คะแนน จำนวน 16 คน คิดเป็นร้อยละ 80.00 ไม่มีผู้ประเมินที่แสดงอิทธิพลแนวโน้มการให้คะแนนค่ากลาง อิทธิพลการจำกัดช่วง และอิทธิพลของความไม่มีแบบแผน และมีผู้ประเมิน จำนวน 4 คนที่แสดงรูปแบบอื่นๆ คิดเป็นร้อยละ 20.00 2. ผลการประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน มีความแตกต่างกันอย่างมีนัยสำคัญทางสถิติที่ระดับ .01 ระหว่างก่อนและหลังควบคุมอิทธิพลการกดหรือปล่อยคะแนน (t = 17.044, p = .00) และเมื่อมีการควบคุมอิทธิพลการกดหรือปล่อยคะแนน มีข้อสอบจำนวน 21 ข้อ คิดเป็นร้อยละ 1.93 ที่มีการเปลี่ยนแปลงผลการประเมิน และมีข้อสอบที่มีความสอดคล้องกับมาตรฐานและตัวชี้วัด และสอดคล้องกับโมเดล จำนวน 902 ข้อ คิดเป็นร้อยละ 82.33 (Fair-M Average อยู่ระหว่าง 3.06 ถึง 3.97, infit MNSQ และ outfit MNSQ อยู่ระหว่าง 0.50 ถึง 1.50) 3. โรงเรียนที่มีผลสัมฤทธิ์ทางวิทยาศาสตร์แตกต่างกัน มีค่าดัชนีความสอดคล้องระหว่างข้อสอบในการประเมินระดับชาติ กับข้อสอบในประเมินระดับชั้นเรียนที่ใกล้เคียงกัน โดยมีดัชนีความสอดคล้อง อยู่ระหว่าง 0.436 ถึง 0.588 4. ค่าสัมประสิทธิ์การสรุปอ้างอิงสำหรับตัดสินใจเชิงสัมบูรณ์ ของคะแนนการประเมินความสอดคล้องในแนวเดียวกันระหว่างมาตรฐานและตัวชี้วัด กับข้อสอบในการประเมินระดับชั้นเรียน มีค่าเพิ่มขึ้นเมื่อจำนวนผู้ประเมินเพิ่มขึ้น ในทุกรูปแบบการออกแบบการประเมิน โดยในการประเมินระดับความซับซ้อนทางปัญญา และการประเมินระดับความสอดคล้องในแนวเดียวกันระหว่างข้อสอบกับตัวชี้วัด ด้วยมาตรประมาณค่า 5 ระดับ ด้วยผู้ประเมินจำนวน 2 คน และ 3 คน ตามลำดับ ทำให้ได้สัมประสิทธิ์การสรุปอ้างอิงสูงตามเกณฑ์ที่ยอมรับได้

Other Abstract (Other language abstract of ETD)

The objectives of this research were to 1) examine rater effects in the evaluation of the science standards and indicators-classroom test items alignment in the junior secondary school education, 2) compare the extent to which standards & indicators and test items was aligned after and before controlling for severity/leniency effects, 3) investigate and compare the degree of alignment between national and classroom science item tests assessed by Porter’s alignment index among schools with different science achievements, and 4) estimate and compare the generalizability coefficients of the evaluation results of the standards and indicators-classroom test items alignment when the different number of raters and evaluation designs vary. Research subjects were 1,089 science classroom test items used in junior secondary school under the Office of the Basic Education Commission in Bangkok, and 20 expert panelists who evaluate alignment. Research instrument were the evaluation of the science standards and indicators-items alignment scale. MFRM, Paired-samples t-test, alignment index analysis, and G-theory were employed to analyze the data. Research results were as follows: 1. There were severity/leniency effects in the evaluation of the science standards and indicators-classroom test items alignment. The raters tend to be severe rather than a lenient (rater logit ranged from -3.24 to 1.83). The majority of 16 raters (80.00%) fit the profile of accurate raters. No raters exhibited central tendency effect, restriction of range effect, randomness effect. The 4 raters (20.00%) exhibited other profile. 2. There was a statistically significant difference at .01 level between before and after controlling for severity/leniency effects in the evaluation of the standards and indicators-classroom test items alignment (t = 17.044, p = .00). When the severity/leniency effects were controlled, there were 21 item tests (1.93%) changes in the alignment evaluation results, and there were 901 item tests (82.74%) that alignment with standards and indicators and fit to model (Fair-M Average ranged from 3.06 to 3.97, infit MNSQ and outfit MNSQ ranged from 0.50 to 1.50). 3. The schools with different science achievements have similar alignment indices between national and classroom science item tests. The alignment indices were between 0.436 and 0.588. 4. The generalizability coefficient for an absolute decision of the evaluation scores of the standards and indicators-classroom test items alignment increased when the number of raters increased in all evaluation designs. In the cognitive demand evaluation and the alignment between items and indicators level evaluation with 5-point rating scale the number of raters at least equal 2 and 3 raters respectively yield an acceptably high generalizability coefficient.

Share

COinS
 
 

To view the content in your browser, please download Adobe Reader or, alternately,
you may Download the file to your hard drive.

NOTE: The latest versions of Adobe Reader do not support viewing PDF files within Firefox on Mac OS and if you are using a modern (Intel) Mac, there is no official plugin for viewing PDF files within the browser window.