
ภาพ การวิเคราะห์ข้อสอบควรพิจารณาค่า p, r และความเชื่อมั่นร่วมกัน
ที่มา: ปรมัตถ์ปัญปรัชญ์ ต้องประสงค์ และภิรดี วัชรสินธุิ์. (2568).

Figure High-quality tests require analysis of p, r, and reliability.
Source: Tongprasong & Watcharasin. (2525).
การสอบคัดเลือกเพื่อเข้าศึกษาต่อหรือเข้าทำงาน จำเป็นต้องอาศัยแบบทดสอบที่มีคุณภาพ การวิเคราะห์ข้อสอบจึงเป็นกระบวนการสำคัญในการประเมินคุณภาพของเครื่องมือวัด โดยพิจารณาค่าทางจิตมิติหลัก ได้แก่ ค่าความเชื่อมั่น (Reliability), ค่าความยาก (p) และ ค่าอำนาจจำแนก (r) ซึ่งมีความสัมพันธ์กันและส่งผลต่อความแม่นยำของผลการทดสอบ
ค่าความเชื่อมั่น หมายถึง ความสามารถของแบบทดสอบในการให้ผลการวัดที่สม่ำเสมอ เมื่อทำการทดสอบซ้ำในเงื่อนไขที่ใกล้เคียงกัน การคำนวณสามารถทำได้หลายวิธี เช่น Cronbach’s α, KR-20, test-retest และ split-half โดยทั่วไป ค่า α หรือ KR-20 ≥ 0.70 ถือว่ายอมรับได้ และ ≥ 0.80 ถือว่าอยู่ในระดับดี
งานวิจัยพบว่า ข้อสอบที่มี p อยู่ในช่วง 0.20–0.80 และมีค่า r สูง จะช่วยแยกแยะผู้สอบที่มีความสามารถแตกต่างกันได้ดี ส่งผลให้ค่าความเชื่อมั่นของแบบทดสอบทั้งฉบับสูงขึ้น (Cohen, Swerdlik, & Sturman, 2021)
| ค่า Reliability (α) | การแปลความหมาย | คำแนะนำในการใช้งาน |
|---|---|---|
| 0.90–1.00 | สูงมาก | เหมาะสำหรับการประเมินที่มีผลกระทบสูง |
| 0.80–0.89 | สูง | เหมาะกับการประเมินทั่วไป |
| 0.70–0.79 | พอใช้ | ใช้ได้ แต่ควรพัฒนาเพิ่มเติม |
| 0.60–0.69 | ต่ำ | ควรทบทวนแบบทดสอบ |
| ต่ำกว่า 0.60 | ต่ำมาก | ไม่เหมาะต่อการตัดสินใจที่สำคัญ |
Selection examinations for admission or employment require high-quality assessment instruments. Item analysis is a critical process for evaluating test quality through key psychometric indices, including reliability, item difficulty (p), and item discrimination (r). These indices are interrelated and directly influence the accuracy and credibility of assessment results.
Reliability refers to the consistency and stability of test scores across repeated administrations under similar conditions. Common estimation methods include Cronbach’s alpha, KR-20, test-retest, and split-half reliability. In practice, a coefficient of α or KR-20 ≥ 0.70 is considered acceptable, while ≥ 0.80 indicates good reliability.
Empirical evidence shows that items with moderate difficulty (p = 0.20–0.80) and higher discrimination (r) more effectively differentiate examinees of varying ability, thereby increasing overall test reliability (Cohen, Swerdlik, & Sturman, 2021).
| Reliability (α) | Interpretation | Recommended Use |
|---|---|---|
| 0.90–1.00 | Excellent | High-stakes assessment |
| 0.80–0.89 | Good | General assessment use |
| 0.70–0.79 | Acceptable | Usable with improvement |
| 0.60–0.69 | Questionable | Revision recommended |
| < 0.60 | Poor | Not recommended |
ค่าความยากของข้อสอบ (p-value) หมายถึง สัดส่วนของผู้สอบที่สามารถตอบข้อสอบข้อนั้นได้ถูกต้อง ซึ่งสะท้อนระดับความง่ายหรือความยากของข้อสอบแต่ละข้อ หากค่า p สูงใกล้ 1 แสดงว่าข้อสอบง่ายเกินไป ในขณะที่ค่า p ต่ำใกล้ 0 แสดงว่าข้อสอบยากเกินไป (Nitko & Brookhart, 2013)
โดยทั่วไป ค่า p คำนวณจากสัดส่วนของผู้สอบที่ตอบถูก หากข้อสอบมีค่า p สูง จะไม่สามารถจำแนกผู้สอบที่มีความสามารถแตกต่างกันได้อย่างมีประสิทธิภาพ เช่นเดียวกับข้อสอบที่มีค่า p ต่ำมาก ซึ่งยากเกินไปสำหรับผู้สอบส่วนใหญ่
การเลือกใช้ข้อสอบที่มีค่า p อยู่ในช่วง 0.20–0.80 จะช่วยให้ข้อสอบสามารถแยกแยะความสามารถของผู้สอบได้ดี และส่งผลให้ค่าความเชื่อมั่น (reliability) ของแบบทดสอบสูงขึ้น (Embretson & Reise, 2013; Kline, 2016) ทั้งนี้ ข้อสอบที่ง่ายหรือยากเกินไป ทำให้ไม่สามารถจำแนกระดับผู้สอบได้อย่างแม่นยำ (Crocker & Algina, 2006)
เมื่อพิจารณาความเชื่อมโยงระหว่าง p, r และ Reliability พบว่าข้อสอบที่มีค่าความยากเหมาะสม จะช่วยเพิ่มค่าอำนาจจำแนก (r) และส่งผลให้ผลการทดสอบมีความแม่นยำและน่าเชื่อถือมากขึ้น (Embretson & Reise, 2013; Kline, 2016)
ตัวอย่างการคำนวณ:
ผู้สอบตอบถูก จำนวน 45 คน จากทั้งหมด 50 คน
45 / 50 → p = 0.90
| ค่า p | ความยากของข้อสอบ | ข้อเสนอแนะ |
|---|---|---|
| 0.00–0.19 | ยากมาก | ควรปรับปรุงหรือยกเลิก |
| 0.20–0.39 | ค่อนข้างยาก | ใช้ได้หากต้องการวัดผู้มีความสามารถสูง |
| 0.40–0.60 | ปานกลาง | เหมาะสมที่สุด |
| 0.61–0.80 | ค่อนข้างง่าย | ใช้เพื่อรักษาดุลยภาพของข้อสอบ |
| 0.81–1.00 | ง่ายมาก | ควรปรับหรือตัดออกจากชุดข้อสอบ |
ที่มา: Crocker & Algina (2006)
Item difficulty (p-value) refers to the proportion of examinees who answer an item correctly. It indicates how easy or difficult a test item is. A p value close to 1 suggests that the item is too easy, whereas a value close to 0 indicates that the item is overly difficult (Nitko & Brookhart, 2013).
In practice, item difficulty is calculated as the ratio of correct responses to the total number of examinees. Extremely easy or extremely difficult items provide limited information and fail to effectively differentiate examinees with different ability levels.
Selecting items with p values between 0.20 and 0.80 enhances the ability of a test to distinguish between high- and low-performing examinees, which in turn increases overall test reliability (Embretson & Reise, 2013; Kline, 2016). Items that are too easy or too difficult typically show weak discrimination (Crocker & Algina, 2006).
When considered together with item discrimination (r) and reliability, appropriately difficult items contribute to higher discrimination indices and more accurate, trustworthy assessment outcomes (Embretson & Reise, 2013; Kline, 2016).
Example:
If 45 out of 50 examinees answer an item correctly,
45 / 50 → p = 0.90
| p Value | Item Difficulty | Recommendation |
|---|---|---|
| 0.00–0.19 | Very Difficult | Revise or discard |
| 0.20–0.39 | Difficult | Useful for high-ability assessment |
| 0.40–0.60 | Moderate | Most appropriate |
| 0.61–0.80 | Easy | Maintain test balance |
| 0.81–1.00 | Very Easy | Revise or remove |
Source: Crocker & Algina (2006)
ค่าอำนาจจำแนก (r) หมายถึง ดัชนีที่ใช้วัดความสามารถของข้อสอบในการแยกแยะระหว่างผู้สอบ ที่มีผลการเรียนหรือความสามารถสูงกับผู้สอบที่มีผลการเรียนหรือความสามารถต่ำ โดยทั่วไปคำนวณจากความสัมพันธ์ระหว่างคะแนนรายข้อกับคะแนนรวมของแบบทดสอบ
ค่า r ที่สูง แสดงว่าข้อสอบข้อนั้นสามารถจำแนกผู้สอบได้ดี กล่าวคือ ผู้ที่มีความสามารถสูงมีแนวโน้มตอบถูก ในขณะที่ผู้ที่มีความสามารถต่ำมีแนวโน้มตอบผิด ซึ่งถือเป็นคุณลักษณะที่สำคัญของข้อสอบที่มีคุณภาพ
เมื่อพิจารณาความเชื่อมโยงกับ Reliability และ p พบว่า ค่า r ที่สูง ช่วยให้การแยกแยะกลุ่มผู้เรียนมีความชัดเจนและแม่นยำมากขึ้น ส่งผลให้ค่าความเชื่อมั่นของแบบทดสอบโดยรวมเพิ่มสูงขึ้น (Thompson, 2017)
| ค่า r | การแปลความหมาย |
|---|---|
| 0.60–1.00 | ดีมาก (Excellent) |
| 0.40–0.59 | ดี (Good) |
| 0.20–0.39 | พอใช้ (Fair) |
| 0.00–0.19 | ต่ำ ควรปรับปรุงหรือตัดออก (Poor) |
ที่มา: Crocker & Algina (2006); Nitko & Brookhart (2013); Kline (2016)
Item discrimination (r) refers to an index that indicates how well an item distinguishes between high-performing and low-performing examinees. It is commonly calculated as the correlation between an individual item score and the total test score.
A high r value indicates that the item effectively differentiates examinees according to their ability levels, meaning that high-ability examinees tend to answer the item correctly, whereas low-ability examinees tend to answer incorrectly.
When considered in relation to reliability and item difficulty (p), higher discrimination values enhance the clarity and precision of score interpretation and contribute to increased overall test reliability (Thompson, 2017).
| r Value | Interpretation |
|---|---|
| 0.60–1.00 | Excellent |
| 0.40–0.59 | Good |
| 0.20–0.39 | Fair |
| 0.00–0.19 | Poor (Revise or remove) |
Source: Crocker & Algina (2006); Nitko & Brookhart (2013); Kline (2016)
การพิจารณาค่าความเชื่อมั่น (Reliability) ค่าความยาก (p) และค่าอำนาจจำแนก (r) ร่วมกัน ช่วยให้การวิเคราะห์ข้อสอบมีความน่าเชื่อถือและแม่นยำมากยิ่งขึ้น โดยสามารถสรุปสาระสำคัญได้ดังนี้
การใช้ค่าทั้งสามนี้ร่วมกัน จะช่วยให้การออกแบบและพัฒนาแบบทดสอบมีความแม่นยำ และสามารถสะท้อนความสามารถที่แท้จริงของผู้สอบได้อย่างถูกต้อง
| ตัวชี้วัด | เกณฑ์มาตรฐาน |
|---|---|
| p | 0.20–0.80 |
| r | ≥ 0.20 |
| Reliability (α / KR-20) | ≥ 0.70–0.80 |
Considering reliability, item difficulty (p), and item discrimination (r) together enhances the accuracy and trustworthiness of test item analysis. The key points can be summarized as follows.
Using these three indices together supports precise test design and ensures that assessment results accurately reflect the true abilities of examinees.
| Indicator | Standard Criterion |
|---|---|
| p | 0.20–0.80 |
| r | ≥ 0.20 |
| Reliability (α / KR-20) | ≥ 0.70–0.80 |
หลักสูตรบริหารธุรกิจบัณฑิต
สาขาวิชาธุรกิจสร้างสรรค์และเทคโนโลยีดิจิทัล
มหาวิทยาลัยสวนดุสิต
ผศ. ดร.ลัดดา สวนมะลิ
ผศ. สุภารัตน์ คุ้มบำรุง
ผศ. ชวาลิน เนียมสอน
ผศ. กนิษฐา ศรีเอนก
ผศ. ดร.อัญชนา ลักษณ์วิรามสิริ
B.B.A. Program in Creative Business and Digital Technology
Suan Dusit University
Asst. Prof. Dr. Ladda Suanmali
Asst. Prof. Suparat Khumbamrung
Asst. Prof. Chawalin Niamsorn
Asst. Prof. Kanitha Srianek
Asst. Prof. Dr. Anchana Lakviramsiri
American Educational Research Association et al. (2014). Standards for educational and psychological testing.
Cohen, R. J., Swerdlik, M. E., & Sturman, E. D. (2021). Psychological Testing and Assessment: An Introduction to Tests and Measurement (9th ed.). McGraw-Hill Education.
Crocker, L., & Algina, J. (2006). Introduction to classical and modern test theory. Cengage Learning.
DeVellis, R. F. (2016). Scale development: Theory and applications (4th ed.). Sage Publications.
Embretson, S. E., & Reise, S. P. (2013). Item Response Theory for Psychologists. Psychology Press.
George, D., & Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference (4th ed.). Allyn & Bacon.
Kline, T. J. B. (2016). Psychometrics: An Introduction (2nd ed.). SAGE Publications.
Kuder, G. F., & Richardson, M. W. (1937). The Theory of the Estimation of Test Reliability. Psychometrika, 2(3), 151–160.
Nitko, A. J., & Brookhart, S. M. (2013). Educational assessment of students (7th ed.). Pearson.
Nunnally, J. C., & Bernstein, I. H. (1994). Psychometric theory (3rd ed.). McGraw-Hill.
Thompson, B. (2017). A Primer on the Validity of Psychological Tests: A Guide for Students and Practitioners. Springer.