คณิตหลัก

การหาค่ากลางของข้อมูล

การหาค่ากลางของข้อมูลที่เป็นตัวแทนของข้อมูลทั้งหมดเพื่อความสะดวกในการสรุปเรื่องราวเกี่ยวกับข้อมูลนั้นๆ จะช่วยทำให้เกิดการวิเคราะห์ข้อมูลถูกต้องดีขึ้น  การหาค่ากลางของข้อมูลมีวิธีหาหลายวิธี  แต่ละวิธีมีข้อดีและข้อเสีย  และมีความเหมาะสมในการนำไปใช้ไม่เหมือนกัน  ขึ้นอยู่กับลักษณะข้อมูลและวัตถุประสงค์ของผู้ใช้ข้อมูลนั้นๆ

 

ค่ากลางของข้อมูลที่สำคัญ  มี 3  ชนิด คือ

1.      ค่าเฉลี่ยเลขคณิต    (Arithmetic mean)
2.      มัธยฐาน    (Median)
3.      ฐานนิยม             (Mode)

 

  1. ค่าเฉลี่ยเลขคณิต(Arithmetic mean)

ใช้สัญลักษณ์ คือ 

1.1 การหาค่าเฉลี่ยเลขคณิตของข้อมูลที่ไม่แจกแจงความถี่ให้  x1 , x2 , x3 , …,  xN  เป็นข้อมูล  N  ค่า

ตัวอย่าง   จากการสอบถามอายุของนักเรียนกลุ่มหนึ่งเป็นดังนี้  14 , 16 , 14 , 17 , 16 , 14 , 18 , 17
1) จงหาค่าเฉลี่ยเลขคณิตของอายุนักเรียนกลุ่มนี้
2) ถ้ามีนักเรียนมาเพิ่มอีก 1 คน และมีอายุเป็น 17 ปี  ค่าเฉลี่ยเลขคณิตเป็นเท่าใด
3) เมื่อ 3 ปีที่แล้ว ค่าเฉลี่ยเลขคณิตของอายุนักเรียนกลุ่มนี้เป็นเท่าใด

 

1) วิธีทำ

   

ค่าเฉลี่ยเลขคณิตของนักเรียนกลุ่มนี้ คือ 15.75 ปี

2) วิธีทำ
 เดิมมีนักเรียน คน แต่มีนักเรียนเพิ่มใหม่อีก คน รวมมีนักเรียน คน

ค่าเฉลี่ยเลขคณิต  คือ  15.89 ปี


3) วิธีทำ    
เมื่อ ปีที่แล้ว    11   13   11   14   13   11   15   14
      อายุปัจจุบัน       14   16   14   17   16   14   18   17

เมื่อ 3 ปีที่แล้ว  ค่าเฉลี่ยเลขคณิตของอายุของนักเรียนกลุ่มนี้  คือ  12.75  ปี

 

1.2 ค่าเฉลี่ยเลขคณิตของข้อมูลที่แจกแจงความถี่
ถ้า  f1 , f2 , f3 , … , fk  เป็นความถี่ของค่าจากการสังเกต  x1 , x2 , x,…. , xk

ตัวอย่าง   จากตารางแจกแจงความถี่ของคะแนนสอบของนักเรียน 40 คน  ดังนี้  จงหาค่าเฉลี่ยเลขคณิต

วิธีทำ     =          =  34

ค่าเฉลี่ยเลขคณิต     =     34

สมบัติที่สำคัญของค่าเฉลี่ยเลขคณิต

1.       =   

2.       =  0 

3.       น้อยที่สุด  เมื่อ  M   =    หรือ    เมื่อ  M  เป็นจำนวนจริงใดๆ  

4.      
5.     ถ้า     y1  =  axi + b  ,   I =  1,  2,  3,  …….,  N   เมื่อ  a , b  เป็นค่าคงตัวใดๆแล้ว
                       = a  +  

ค่าเฉลี่ยเลขคณิตรวม (Combined Mean)  

             ถ้า    เป็นค่าเฉลี่ยเลขคณิตของข้อมูลชุดที่ 1 , 2 , … , k  ตามลำดับ
 ถ้า   N1 , N2 , … , Nk    เป็นจำนวนค่าจากการสังเกตในข้อมูลชุดที่ 1 , 2 ,… , k  ตามลำดับ 

  =  

 ตัวอย่าง      ในการสอบวิชาสถิติของนักเรียนโรงเรียนปราณีวิทยา  ปรากฏว่านักเรียนชั้น ม.6/1  จำนวน 40  คน  ได้ค่าเฉลี่ยเลขคณิตของคะแนนสอบเท่ากับ  70  คะแนน  นักเรียนชั้น ม.6/2  จำนวน 35 คน  ได้ค่าเฉลี่ยเลขคณิตของคะแนนสอบเท่ากับ  68  คะแนน  นักเรียนชั้น ม.6/3  

จำนวน 38 คน  ได้ค่าเฉลี่ยเลขคณิตของคะแนนสอบเท่ากับ  72 คะแนน  จงหาค่าเฉลี่ยเลขคณิตของคะแนนสอบของนักเรียนทั้ง ห้องรวมกัน

วิธีทำ     รวม   

 

 =    

= 70.05

มัธยฐาน (Median)

มัธยฐานเป็นค่าที่อยู่กึ่งกลางของข้อมูล และแบ่งครึ่งข้อมูลออกเป็นสองส่วนเท่ากัน สมมติให้ X เป็นชุดของข้อมูลที่เก็บรวบรวมได้ และจัดเรียงข้อมูลจากต่ำไปหาสูงแล้ว ส่วน R คืออันดับที่ของข้อมูล

X 2 7 16 19 20 25 27
R 1 2 3 4 5 6 7

จากตัวอย่าง มัธยฐาน คือ 19 ซึ่งเป็นค่าที่อยู่ในอันดับที่ 4 แบ่งข้อมูลออกเป็นกลุ่มสูง 3 ค่าและกลุ่มต่ำ 3 ค่าเท่ากัน ถ้าเพิ่มค่า 31 เข้าไป มัธยฐานสามารถหาได้จากการหาค่าเฉลี่ยของข้อมูล 2 ค่าที่อยู่ตรงกลางคือ 19 และ 20 คือ (19 + 20)/2 = 19.5ในกรณีที่ข้อมูลมีความถี่ดังตัวอย่าง

X 7 7 7 8 8 8 9 9 10 10
R 1 2 3 4 5 6 7 8 9 10

ในที่นี้สามารถคำนวณหาตำแหน่งของมัธยฐานได้โดยใช้สูตร (N + 1)/2 ดังนั้นมัธยฐานของข้อมูลชุดนี้คือ 8

 

การคำนวณมัธยฐานจากข้อมูลแจกแจงความถี่

ในการคำนวณมัธยฐานของข้อมูลที่มีการแจกแจงความถี่ มีปัญหาตรงที่จะต้องหาค่าที่อยู่ตรงกลางและแบ่งครึ่งข้อมูลกลุ่มสูงและกลุ่มต่ำเท่ากันพอดี ข้อมูลแสดงในตาราง 10

ตาราง 8 การแจกแจงความถี่ของคะแนนสอบ

ในขั้นแรกจะต้องหาความถี่สะสม ดังแสดงในสดมภ์ที่ 3ขั้นสอง หาตำแหน่งมัธยฐาน โดยใช้ N/2 จะได้ 38ขั้นสาม ดูชั้นที่มีคนที่ 38 ตกอยู่ พบว่าอยู่ในชั้น 15 – 19 ซึ่งมีขอบเขตแท้จริงเป็น 14.5 – 19.5 เรารู้ได้อย่างไรว่าคนที่ 38 อยู่ในชั้นนี้เพราะว่าดูที่ความถี่สะสม ดูจากค่าต่ำสุดขึ้นไปจนถึงคนที่ 38ขั้นสี่ ภายในชั้นที่มีคนที่ 38 อยู่นั้นมีความถี่เป็น 26 ซึ่งเราต้องทราบค่าตรงความถี่ที่ 25 เพราะ 2 + 11 + 25 = 38 ซึ่งเราจะพบค่านั้นอยู่ระหว่าง 14.5 – 19.5 เป็นค่าที่มีจำนวนคน 25 คนอยู่ตั้งแต่ค่านี้ลงไป และมีอยู่ 1 คนที่อยู่เหนือค่านี้ สัดส่วนของช่วงที่ต้องการคือ 25/26 แล้วคูณด้วยความกว้างอันตรภาคชั้นเป็น (25/26) X 5 = 4.81 เราจะบวกค่าที่ได้เพิ่มเข้าไปกับขีดจำกัดล่างแท้จริง จะได้ค่ามัธยฐาน = 14.50 + 4.81 = 19.31มีสูตรเพื่อให้ง่ายต่อการคำนวณดังนี้

จากตัวอย่าง L = 14.5, F = 13, fm = 26, N = 76 และ I = 5

คุณสมบัติของมัธยฐาน

1. ผลรวมของค่าสัมบูรณ์ของส่วนเบี่ยงเบนที่คำนวณจากค่ามัธยฐาน จะน้อยกว่าผลรวมของค่าสัมบูรณ์ของส่วนเบี่ยงเบนที่คำนวณจากค่าอื่น ๆ ถ้าเราสมมติค่าสัมบูรณ์ของส่วนเบี่ยงเบนมาตรฐานที่คำนวณจากมัธยฐานเป็น |X-Mdn| แล้ว ค่า |X – Mdn| จะมีค่าน้อยที่สุด2. ถ้านำค่าคงที่ไปบวก ลบ คูณหรือหาร คะแนนแต่ละตัวจะทำให้ได้ค่ามัธยฐานใหม่ที่เท่ากับการนำค่าคงที่ไปบวก ลบ คูณหรือหารกับค่ามัธยฐานเดิม

 

 

ฐานนิยม

การหาฐานนิยมของข้อมูลที่ไม่แจกแจงความถี่
หลักการคิด
– ให้ดูว่าข้อมูลใดในข้อมูลที่มีอยู่ทั้งหมด มีการซ้ำกันมากที่สุด( ความถี่สูงสุด) ข้อมูลนั้นเป็นฐานนิยมของข้อมูลชุดนั้น
 หมายเหตุ
– ฐานอาจจะไม่มี หรือ มีมากกว่า 1 ค่าก็ได้
 สิ่งที่ต้องรู้
1. ถ้าข้อมูลแต่ละค่าที่แตกต่างกัน มีความถี่เท่ากันหมด เช่น ข้อมูลที่ประกอบด้วย 2 , 7 , 9 , 11 , 13 จะพบว่า แต่ละค่าของข้อมูลที่แตกต่างกัน จะมีความถี่เท่ากับ 1 เหมือนกันหมด ในที่นี้แสดงว่า ไม่นิยมค่าของข้อมูลตัวใดตัวหนึ่งเป็นพิเศษ  ดังนั้น เราถือว่า ข้อมูลในลักษณะดังกล่าวนี้ ไม่มีฐานนิยม
2. ถ้าข้อมูลแต่ละค่าที่แตกต่างกัน มีความถี่สูงสุดเท่ากัน 2 ค่า เช่น ข้อมูลที่ ประกอบด้วย 2, 4, 4, 7, 7, 9, 8, 5 จะพบว่า 4 และ 7 เป็นข้อมูลที่มีความถี่สูงสุดเท่ากับ 2 เท่ากัน ในลักษณะเช่นนี้ เราถือว่า ข้อมูลดังกล่าวมีฐานนิยม 2 ค่า คือ 4 และ 7
3. จากข้อ 1, 2, และตัวอย่าง แสดงว่า ฐานนิยมของข้อมูล อาจจะมีหรือไม่มีก็ได้ ถ้ามีอาจจะมีมากกว่า 1 ค่าก็ได้

การหาฐานนิยมของข้อมูลที่มีการแจกแจงเป็นอันตรภาคชั้น
การประมาณอย่างคร่าวๆ
   ฐานนิยม คือ จุดกึ่งกลางชั้นที่มีความถี่สูงสุด
   ตัวอย่าง จากตารางแจกแจงความถี่ต่อไปนี้ จงหาฐานนิยมโดยประมาณอย่างคร่าวๆ

คะแนน

ความถี่

20-29
30-39
40-49
50-59
60-69

2
10
15
13
5

อันตรภาคชั้นที่มีความถี่สูงสุด คือ 40-49

จุดกลางชั้น คือ 

ดังนั้น ฐานนิยมโดยประมาณ คือ 44.5

คุณสมบัติที่สำคัญของฐานนิยม
1.     ฐานนิยมสามารถหาได้จากเส้นโค้งของความถี่ และฮิสโทแกรม
2.    ในข้อมูลแต่ละชุด อาจจะมีฐานนิยมหรือไม่มีก็ได้ ถ้ามี อาจจะมีเพียงค่าเดียว หรือหลายค่าก็ได้
3.   ให้ X 1, X 2, X 3, ….., X N เป็นข้อมูลชุดหนึ่งที่มีฐานนิยมเท่ากับ Mo
ถ้า k เป็นค่าคงตัว จะได้ว่า X 1+k, X 2+k, X 3+k, …., X N+k เป็นข้อมูลที่มีฐานนิยมเท่ากับ Mo + k
4.   ให้ X 1, X 2, X 3, …., X N เป็นข้อมูลชุดหนึ่งที่มีฐานนิยมเท่ากับ Mo
ถ้า k เป็นค่าคงตัว ซึ่ง k =/= 0 จะได้ว่า kX 1, kX 2, kX 3, …, kX N จะเป็นข้อมูลที่มีฐานนิยมเท่ากับ kMo
 คุณสมบัติข้อที่ 3 และ 4 ก็เช่นเดียวกับค่าเฉลี่ยเลขคณิต และมัธยฐาน กล่าวคือ ถ้านำค่าคงตัวไปบวก หรือคูณกับค่าจากการสังเกตทุกตัวในข้อมูลชุดหนึ่ง ฐานนิยมของข้อมูลชุดใหม่นี้ จะเท่ากับ ฐานนิยมของข้อมูลชุดเดิม บวกหรือคูณกับค่าคงตัวดังกล่าว ตามลำดับ ( อย่าลืม ! ถ้าเป็นการคูณ ค่าคงตัวที่นำไปคูณไม่เท่ากับศูนย์)

ใช้สัญลักษณ์ Med คือ ค่าที่มีตำแหน่งอยู่กึ่งกลางของข้อมูลทั้งหมด เมื่อได้เรียงข้อมูลตามลำดับ ไม่ว่าจากน้อยไปมาก หรือจากมากไปน้อย

   การหามัธยฐานของข้อมูลที่ไม่ได้แจกแจงความถี่
หลักการคิด
 1 ) เรียงข้อมูลที่มีอยู่ทั้งหมดจากน้อยไปมาก หรือมากไปน้อยก็ได้
2) ตำแหน่งมัธยฐาน คือ ตำแหน่งกึ่งกลางข้อมูล ดังนั้นตำแหน่งของมัธยฐาน =  เมื่อ N คือ จำนวนข้อมูลทั้งหมด

3) มัธยฐาน คือ ค่าที่มีตำแหน่งอยู่กึ่งกลางของข้อมูลทั้งหมด

 

 ข้อควรสนใจ
1. เนื่องจากตำแหน่งกึ่งกลางเป็นตำแหน่งที่เราจะหามัธยฐาน ดังนั้น เราจะเรียกตำแหน่งนี้ว่า ตำแหน่งของมัธยฐาน
2. เราไม่สามารถหาตำแหน่งกึ่งกลางโดยวิธีการตามตัวอย่างข้างต้น เพราะต้องเสีย เวลาในการนำค่าจากการสังเกตมาเขียนเรียงกัน        ทีละตำแหน่ง ดังนั้น เราจะใช้วิธีการคำนวณหา โดยสังเกตดังนี้

ตำแหน่งมัธยฐาน = 

3. ในการหามัธยฐาน ความสำคัญอยู่ที่ นักเรียนต้องหาตำแหน่งของมัธยฐานให้ได้ เสียก่อนแล้วจึงไปหาค่าของข้อมูล ณ ตำแหน่งนั้น

 

ตัวอย่าง กำหนดให้ค่าจากการสังเกตในข้อมูลชุดหนึ่ง มีดังนี้
5, 9, 16, 15, 2, 6, 1, 4, 3, 4, 12, 20, 14, 10, 9, 8, 6, 4, 5, 13
จงหามัธยฐาน
 วิธีทำ เรียงข้อมูล 1 , 2 , 3 , 4 , 4 , 4 , 5 , 5 , 6 , 6 , 8 , 9 , 9 , 10 , 12 , 13 , 14 , 15 , 16 , 20

 

ตำแหน่งมัธยฐาน =  = = 10.5

ค่ามัธยฐาน =  = 7

การหามัธยฐานของข้อมูลที่จัดเป็นอันตรภาคชั้น
 ขั้นตอนในการหามัธยฐานมีดังนี้
(1)     สร้างตารางความถี่สะสม

(2)หาตำแหน่งของมัธยฐาน คือ          เมื่อ N เป็นจำนวนของข้อมูลทั้งหมด

(3) ถ้า    เท่ากับความถี่สะสมของอันตรภาคชั้นใด อันตรภาคชั้นนั้นเป็นชั้น มัธยฐาน และมีมัธยฐานเท่ากับขอบบน        ของอันตรภาคชั้นนั้น ถ้า  ไม่เท่าความถี่สะสมของอันตรภาคชั้นใดเลย อันตรภาคชั้นแรกที่มีความถี่สะสมมากกว่า

เป็นชั้นของมัธยฐาน และหามัธยฐานได้จากการเทียบบัญญัติไตรยางค์ หรือใช้สูตรดังนี้      จากข้อมูลทั้งหมด N จำนวน ตำแหน่งของมัธยฐานอยู่ที่ 

 

Med = 

เมื่อ L คือ ขอบล่างของอันตรภาคชั้นที่มีมัธยฐานอยู่

คือ ผลรวมของความถี่ของทุกอันตรภาคชั้นที่มีมัธยฐานอยู่

f M คือ ความถี่ของชั้นที่มีมัธยฐานอยู่
I คือ ความกว้างของอันตรภาคชั้นที่มีมัธยฐานอยู่
N คือ จำนวนข้อมูลทั้งหมด

ตารางที่มีชั้นแบบเปิด จะหา  ไม่ได้ แต่หามัธยฐานและฐานนิยมได้ ถ้าตำแหน่ง
เท่ากับความถี่สะสม ( หรือเป็นตัวสุดท้ายของชั้น ) ให้ตอบขอบบนของชั้นนั้น

หมายถึง การหารผลรวมของข้อมูลทั้งหมดด้วยจำนวนข้อมูลทั้งหมด     การหาค่าเฉลี่ยเลขคณิตสามารถหาได้ 2 วิธี
1. ค่าเฉลียเลขคณิตของข้อมูลที่ไม่ได้แจกแจงความถี่  สามารถคำนวณได้จากสูตร

  เมื่อ  (เอ็กซ์บาร์) คือ ค่าเฉลี่ยเลขคณิต
              คือ ผลบวกของข้อมูลทุกค่า
              คือ จำนวนข้อมูลทั้งหมด

Ex.จากการสอบถามอายุของนักเรียนกลุ่มหนึ่งเป็นดังนี้ 14 , 16 , 14 , 17 , 16 , 14 , 18 , 17 จงหาค่าเฉลี่ยเลขคณิตของอายุนักเรียนกลุ่มนี้

วิธีทำ     = 

 =  = 
 = 15.75

ดังนั้นค่าเฉลี่ย อายุนักเรียนกลุ่มนี้    = 15.75 ปี

         2. ค่าเฉลี่ยเลขคณิตของข้อมูลที่แจกแจงความถี่ สามารถคำนวณได้จากสูตร

เมื่อ   คือ ค่าเฉลี่ยเลขคณิต

           คือ ความถี่ของข้อมูล
   คือ ค่าของข้อมูล(ในกรณีการแจกแจงความถี่ไม่เป็นอันตรภาคชั้น)
หรือ จุดกึ่งกลางของอันตรภาคชั้น(ในกรณีการแจกแจงความถี่เป็นอันตรภาคชั้น) หาได้จาก

  คือ ผลรวมความถี่ทั้งหมด หรือ จำนวนข้อมูลทั้งหมด

       2.1 การหาค่าเฉลี่ยเลขคณิตข้อมูลที่แจกแจงความถี่ในกรณีที่ข้อมูลไม่เป็นอันตรภาคชั้น

Ex.จากการสอบถามอายุของนักเรียนกลุ่มหนึ่งเป็นดังนี้ 14 , 16 , 14 , 17 , 16 , 14 , 18 , 17 จงหาค่าเฉลี่ยเลขคณิตของอายุนักเรียนกลุ่มนี้

วิธีทำ  สร้างตารางแจกแจกความถี่ข้อมูล

ค่าข้อมูล() ความถี่( )
14 3 42
16 2 32
17 2 34
18 1 18
.  = 8  = 126

แทนค่าสูตร     =                         =                         = 15.75
ดังนั้นค่าเฉลี่ย อายุนักเรียนกลุ่มนี้    = 15.75 ปี

     2.2 การหาค่าเฉลี่ยเลขคณิตข้อมูลที่แจกแจงความถี่ในกรณีที่ข้อมูลเป็นอันตรภาคชั้น (Class Interval) หรือเรียกสั้นๆ ว่า  “ชั้น”  หมายถึง ช่วงของคะแนนในแต่ละพวกที่แบ่ง

Ex. จากข้อมูลในตารางแจกแจงความถี่ จงหาค่าเฉลี่ยเลขคณิต

คะแนน ความถี่
5-9 3
10-14 4
15-19 3
20-24 7
25-29 6
30-34 4
35-39 2
40-44 3
. N = 32

วิธีทำ

คะแนน ความถี่() จุดกื่งกลางอันตรภาคชั้น()  
5-9 3 7 21
10-14 4 12 48
15-19 3 17 51
20-24 7 22 154
25-29 6 27 162
30-34 4 32 128
35-39 2 37 74
40-44 3 42 126
. N = 32 .  = 764

แทนค่าสูตร                             =                         = 23.86 ปี
ดังนั้นค่าเฉลี่ย อายุนักเรียนกลุ่มนี้    = 23.86 ปี

การวัดการกระจายของข้อมูล

ในการสรุปหรืออธิบายชุดข้อมูลโดยใช้ค่าสถิติ นอกจากการนำเสนอข้อมูลด้วยตาราง แผนภูมิและแผนภาพแล้ว ยังสามารถสรุปได้โดยใช้ค่ากลางชนิดต่าง ๆ ซึ่งถ้าพิจารณาให้ละเอียดจะเห็นว่า การทราบแต่เพียงค่ากลางของข้อมูลไม่เพียงพอที่จะอธิบายการแจกแจงของข้อมูลชุดนั้น ค่ากลางแต่ละชนิด มิได้บอกให้ทราบว่า ค่าจากการสังเกตทั้งหลายในข้อมูลชุดนั้นต่างจากค่ากลางมากน้อยเพียงใด และค่าส่วนใหญ่รวมกลุ่มกันหรือกระจายกันออกไป สมมุติว่าคะแนนสอบวิชาหนึ่งของนักเรียนสองห้อง ซึ่งใช้ข้อสองชุดเดียวกันมีค่าเฉลี่ยเลขคณิตเท่ากันคือ 67 คะแนน ห้องแรกมีคะแนนสูงสุด 72 คะแนน คะแนนต่ำสุด 62 คะแนน ส่วนห้องหลังมีคะแนนสูงสุด 97 คะแนน และคะแนนต่ำสุด 25 คะแนน จะเห็นว่าคะแนนสูงสุดกับคะแนนต่ำสุดของห้องแรกต่างกันเพียง 10 คะแนน แต่ห้องหลังคะแนนต่างกันถึง 72 คะแนน แสดงว่าคะแนนของห้องหลังมีการกระจายของคะแนนสูงกว่าคะแนนของห้องแรกมาก ซึ่งอาจกล่าวได้ว่านักเรียนห้องแรกส่วนใหญ่สอบได้คะแนนใกล้เคียงกัน แต่นักเรียนห้องหลังสอบได้คะแนนแตกต่างกัรมาก เพื่อให้เห็นลักษณะของข้อมูลชัดเจนขึ้นและสามารถได้ข้อสรุปเกี่ยวกับข้อมูลให้มากพอที่จะนำไปช่วยในการตัดสินใจบางอย่างได้ จึงจำเป็นต้องทราบทั้งค่ากลางและค่าแสดงการกระจายของข้อมูลด้วย

 

การกระจาย (Dispersion)

ค่าการวัดการกระจายเป็นค่าสถิติที่อธิบายถึงการกระจายของข้อมูลในชุดข้อมูล ซึ่งการวัดการกระจายนี้อาจทำได้หลายลักษณะด้วยกัน ที่สำคัญคือการวัดการกระจายด้วยพิสัย ความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน การวัดการกระจายมีความสำคัญในลักษณะที่ทำให้ตัดสินใจเกี่ยวกับความเชื่อถือได้ของค่าวัดแนวโน้มสู่ส่วนกลางได้ดีมากขึ้นรวมทั้งสามารถเปรียบเทียบข้อมูลสองชุดได้ดีขึ้น

 

2.5.5 พิสัย (Range)

การทราบเพียงค่ากลางแต่ละชนิดไม่ได้บอกให้ทราบว่าค่าส่วนใหญ่อยู่รวมกลุ่มกันหรือกระจายกันออกไป แต่ถ้าทราบคะแนนสูงสุดและต่ำสุดของข้อมูลชุดนั้น จะบอกได้อย่างคร่าว ๆ ว่า ข้อมูลชุดนั้นมีการกระจายมากน้อยเพียงใด เช่น คะแนนสอบของนักเรียนสองกลุ่มซึ่งใช้ข้อสอบชุดเดียวกันในตัวอย่างต่อไปนี้

 

 

จะเห็นว่า คะแนนสูงสุดกับคะแนนต่ำสุดของห้องแรกต่างกันเพียง 10 คะแนน แต่ห้องหลังต่างกัน 72 คะแนน กล่าวได้ว่า นักเรียนกลุ่มแรกส่วนใหญ่ได้คะแนนสอบใกล้เคียงกัน แต่นักเรียนกลุ่มที่สองได้คะแนนต่างกันมาก แสดงว่าข้อมูลที่เป็นคะแนนสอบของห้องที่สองมีการกระจายมากกว่ากลุ่มแรกมาก

วิธีการวัดการกระจายของข้อมูลในตัวอย่างข้างต้น เป็นการวัดการกระจายของข้อมูลโดยใช้พิสัย

 

การวัดการกระจายโดยใช้พิสัยนี้เป็นวิธีวัดการกระจายอย่างคร่าว ๆ เพราะค่าที่ได้ หามาจากค่าของข้อมูลเพียงสองค่าเท่านั้น ค่าอื่น ๆ ของข้อมูลไม่ได้นำมาใช้ในการคำนวณหาพิสัยเลย ดังนั้น ถ้าค่าของข้อมูลค่าใดค่าหนึ่งมีค่ามากหรือน้อนผิดปกติจากค่าของข้อมูลอื่น ๆ เช่น ค่าสังเกตที่ได้จากข้อมูลชุดหนึ่งมีดังนี้

10, 70, 71, 72, 73, 74, 75, 76, 77, 100

พิสัยของข้อมูลชุดนี้ คือ 100 – 10 = 90 แต่ข้อมูลส่วนใหญ่จะมีค่าอยู่ระหว่าง 70-77 จะเห็นว่าการวัดการกระจายของข้อมูลชุดนี้โดยใช้พิสัยอาจทำให้ตีความได้คลาดเคลื่อน นอกจากนี้ในการเปรียบเทียบข้อมูลตั้งแต่สองชุดขึ้นไป เรายังไม่สามารถบอกได้ว่า ข้อมูลที่มีพิสัยเท่ากันจะต้องมีการกระจายของข้อมูลคล้ายกันหรือไม่ ดังตัวอย่างต่อไปนี้

พิจารณาข้อมูลต่อไปนี้

1)               5, 7, 9, 11, 13, 15, 17

2)               5, 6, 7, 11, 15, 16, 17

3)               5, 5, 5, 11, 17, 17, 17

จะเห็นว่า ข้อมูลทั้งสามชุดข้างต้นมีค่าเฉลี่ยเลขคณิต มัธยฐาน และพิสัยเท่ากัน การกระจายของข้อมูลชุดที่ 1) และ 2) ใกล้เคียงกัน แต่การกระจายของข้อมูลชุดที่ 3) ต่างจากข้อมูลทั้งสองชุดที่กล่าวมาค่อนข้างมาก

การวัดการกระจายโดยใช้พิสัยมีข้อดีที่สามารถหาได้สะดวกและรวดเร็ว ส่วนใหญ่จึงมักใช้วัดการกระจายของข้อมูลในกรณีซึ่งไม่ต้องการความถูกต้องมากนัก

นอกจากการวัดการกระจายที่กล่าวมาแล้วยังมีการวัดการกระจายโดยใช้วิธีอื่นอีกได้แก่การวัดการกระจายที่ใช้ค่ากลางของข้อมูลมาใช้ในการคำนวณดังนี้

การวัดการกระจายที่จะกล่าวถึงต่อไปนี้เป็นการวัดการกระจายที่บอกให้ทราบว่าค่าจากการสังเกตแต่ละค่าต่างจากค่ากลาง (ซึ่งในที่นี้จะใช้ค่าเฉลี่ยเลขคณิต) มากน้อยเพียงใด

พิจารณาข้อมูลสองชุดต่อไปนี้ ซึ่งมีค่าเฉลี่ยเลขคณิตเท่ากัน

 

ตัวอย่างที่ 4 พิจารณาแผนภาพต้น – ใบ ที่แสดงคะแนนสอบของนักเรียน 200 คน ที่มีคะแนนเต็ม 100 คะแนน ดังนี้

 

2.5.3 ความสัมพันธ์ระหว่างการแจกแจงความถี่ ค่ากลาง และการกระจายของข้อมูล

ลักษณะของการกระจายของข้อมูลอาจแบ่งได้เป็น 3 แบบ พิจารณาฮิสโทแกรมต่อไปนี้

รูปที่ (1) ลักษณะการกระจายของข้อมูลในแบบที่ (1) เป็นการกระจายแบบสมมาตร (symmetric distribution) ค่าเฉลี่ยเลขคณิต มัธยฐาน และฐานนิยม มีค่าเท่ากัน หรือยู่ที่จุดเดียวกันคือจุดที่มีความถี่สูงสุด

รูปที่ (2) เป็นการกระจายที่เบ้ทางขวา (righ-skewed distribution) แท่งสี่เหลี่ยมมุมฉากของฮิสโทแกรมที่มีความถี่น้อยและน้อยที่สุดอยู่ทางด้านขวา ค่าเฉลี่ยเลขคณิตจะมีค่ามากที่สุดรองลงมาเป็นมัธยฐาน และฐานนิยมตามลำดับ

รูปที่ (3) เป็นการกระจายเบ้ทางซ้าย (left-skewed distribution)  แท่งฮิสโทแกรมที่มีความถี่น้อยและน้อยที่สุดจะอยู่ทางด้านซ้าย ฐานนิยมจะมีค่ามากที่สุด รองลงมาเป็นมัธยฐาน และค่าเฉลี่ยเลขคณิตจะมีค่าน้อยที่สุด

ความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน (The Variance and Standard Deviations)

ความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ยนั้นจะมีค่าทั้งบวกและลบ ถ้านำข้อมูลเบี่ยงเบนนี้มาบวกกันจะได้เป็น 0 วิธีการหนึ่งที่นำเสนอในการแก้ไขค่าที่ติดลบก็คือการใช้ส่วนเบี่ยงเบนเฉลี่ยดังที่ได้เสนอไปแล้ว อีกทางเลือกที่ใช้กันโดยทั่วไปก็คือการยกกำลังสองของค่าความเบี่ยงเบนแต่ละตัว นำมาบวกกัน ผลบวกที่ได้จะเป็นนิยามของการวัดการกระจาย ตัวอย่างเช่น ค่าเฉลี่ยของข้อมูล 1, 4, 7, 10 และ 13 คือ 7 ความเบี่ยงเบนของข้อมูลแต่ละตัวกับค่าเฉลี่ยเป็น -6, -3, 0, 3 และ 6 ยกกำลังสองจะได้ 36, 9, 0, 9, 36 และนำมาบวกกันได้ 90การวัดการกระจายที่นิยมใช้กันมากคือความแปรปรวนซึ่งมีความสัมพันธ์กับส่วนเบี่ยงเบนมาตรฐาน ต่อไปนี้จะพูดถึงความแปรปรวนของประชากรและการประมาณค่าความแปรปรวนของประชากรจากกลุ่มตัวอย่างความแปรปรวนของประชากร มีสูตรคำนวณว่า

เมื่อ 2 แทนความแปรปรวนของประชากร, แทนค่าเฉลี่ยของประชากร และ Np แทน จำนวนประชากร (X – )2 คือกำลังสองของความเบี่ยงเบนของข้อมูลแต่ละตัวจากค่าเฉลี่ยเมื่อเราหาร (X – )2 ด้วย Np จะหมายถึงส่วนเบี่ยงเบนเฉลี่ยยกกำลังสองหากเราต้องการประมาณค่าความแปรปรวนของประชากร เราจะต้องประมาณค่าจากกลุ่มตัวอย่าง ความแปรปรวนของกลุ่มตัวอย่างที่ใช้ประมาณค่า 2 คือ

เมื่อ S2 แทนความแปรปรวนของกลุ่มตัวอย่าง , แทนค่าเฉลี่ยของกลุ่มตัวอย่าง และ N แทนจำนวนกลุ่มตัวอย่างบางครั้งเราอาจหาร (X – )2 ด้วย N ไม่หารด้วย N – 1 ก็ได้ ทั้งนี้ขึ้นอยู่กับว่า ถ้า N มีจำนวนมาก ๆ ความแตกต่างของการใช้ N กับ N – 1 จะน้อยมาก แต่ถ้า N มีจำนวนน้อยความแตกต่างก็จะมีมากขึ้นมีความจำเป็นอย่างไรในการใช้ N กับ N-1 ในกรณีที่เราหารด้วย N, (X – )2/N นั้นจะเกิคดวามลำเอียงในการประมาณค่า 2 ซึ่งเป็นความคลาดเคลื่อนอย่างมีระบบ ความลำเอียงคืออะไร สมมติว่าเราสุ่มกลุ่มตัวอย่างมาหลาย ๆ กลุ่มจากประชากรซึ่งมีขนาด N และมีค่าเฉลี่ย และคำนวณ S2 ของแต่ละกลุ่มโดยใช้ N ค่า S2 ที่ได้แต่ละค่าจะไม่เข้าใกล้ 2 ซึ่งเป็นความลำเอียงอย่างมีระบบในการประมาณค่า 2 ซึ่งมีค่าความลำเอียงเท่ากับ (N – 1)/N เมื่อเราหาร (X – )2 ด้วย N – 1 จะไม่มีความลำเอียงและค่าแต่ละค่าจะมีความแตกต่างจาก 2 น้อยที่สุดเมื่อใส่สแควร์รูทความแปรปรวน ผลที่ได้คือส่วนเบี่ยงเบนมาตรฐานส่วนเบี่ยงเบนมาตรฐานของประชากรคือ

และของกลุ่มตัวอย่าง

สมมติข้อมูลชุดหนึ่งคือ 7, 8 และ 15 มีค่าเฉลี่ยคือ 10 และความเบี่ยงเบนเป็น -3, -2, +5 ผลบวกของความเบี่ยงเบนเป็น 0 ((-3) + (-2) + 5 = 0) แต่ถ้านำความเบี่ยงเบนมายกกำลังแล้วบวกกัน 9 + 4 + 25 = 38 แม้ว่าผลบวกของความเบี่ยงเบนกำลังสองจะเป็นการเพิ่มขึ้นของข้อมูลทั้ง 3 ค่าแต่จะมีเพียง 2 ค่าเท่านั้นที่เป็นอิสระ จำนวนค่าที่เป็นอิสระถูกเรียกว่า degree of freedom ค่า (X – )2 เรียกได้ว่ามีความสัมพันธ์กับ N – 1 ซึ่งก็คือ degree of freedomซึ่งเป็นเหตุผลบางประการเกี่ยวกับแนวคิดในการวัดการกระจายว่า เราควรจะหารผลบวกของกำลังสองด้วยจำนวนของค่าที่เป็นอิสระ แนวคิดของ degree of freedom มีประโยชน์มากและเป็นแนวคิดทั่วไปทางสถิติในการพิจารณาความแตกต่างแต่ละค่ากับค่าอื่น เช่น ค่า 2 ค่าคือ X1 และ X2 เราจะพิจารณาความแตกต่างของ X1 – X2 หรือค่า 3 ค่า คือ X1, X2 และ X3 เราจะพิจารณาค่าแตกต่างของ X1 – X2, X1 – X3 และ X2 – X3โดยทั่วไป ถ้ามีข้อมูล N ค่า จำนวนของความแตกต่างคือ N(N – 1)/2ตัวอย่างสำหรับค่าที่ได้จากการวัด 1, 4, 7, 10 และ 13 ความแตกต่างระหว่างค่าการวัดแต่ละค่าคือ -3, -6, -9, -12, -3, -6, -9, -3, -6 และ -3 สัญลักษณ์ของความแตกต่างขึ้นอยู่กับอันดับที่ของค่า ถ้าเรายกกำลังสองของค่าความแตกต่างที่ได้ทั้งหมดแล้วนำมาบวกและหารด้วยจำนวนของความแตกต่าง ผลที่ได้จะมีความสัมพันธ์กับ S2 ซึ่งจะมีค่าเป็น 2 เท่าของ S2 ในตัวอย่างนี้ผลบวกเมื่อนำค่าความแตกต่างแต่ละค่ายกกำลังสองแล้วคือ 450 เราหารด้วย 10 จะ 45.0 ซึ่งจะมีค่าเป็น 2 เท่าของความแปรปรวนคือ 22.5 สูตรในการคำนวณคือ

ตัวอย่างในการประยุกต์ใช้เราเข้าใจธรรมชาติของความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานแล้ว ที่นี้เรามาดูตัวอย่างจะได้เข้าใจยิ่งขึ้นพิจารณาแบบแผนการทดลองง่าย ๆ เกี่ยวกับการวินิจฉัยผลข้างเคียงของยาที่มีผลต่อผลสัมฤทธิ์ในการทำงาน กลุ่มที่ได้รับการทดลองเป็นกลุ่มที่ได้รับยาและกลุ่มควบคุมเป็นกลุ่มที่ไม่ได้รับยา จะมีกลุ่มตัวอย่าง 10 คนในแต่ละกลุ่ม ผลของคะแนนที่ได้รับจากการประเมินผลสัมฤทธิ์ในการทำงานของทั้ง 2 กลุ่ม ปรากฏดังนี้

กลุ่มทดลอง 5 7 17 วันที่ 31 45 47 68 85 96 99
กลุ่มควบคุม 29 36 37 42 49 58 62 63 69 70

คะแนนเฉลี่ยของกลุ่มทดลองเป็น 50.0 และกลุ่มควบคุม 51.5 จากการวินิจฉัยที่ค่าเฉลี่ยเป็นไปได้ว่ายานั้นมีผลน้อยมากหรือไม่มีผลเลยกับกลุ่มตัวอย่างส่วนเบี่ยงเบนมาตรฐานของทั้ง 2 กลุ่มเป็น 35.63 และ 14.86 กลุ่มทดลองมีการกระจายมากกว่ากลุ่มควบคุม จะเห็นชัดเจนว่า ยามีผลต่อผลสัมฤทธิ์ในการทำงาน เห็นได้ถึงคะแนนการปฏิบัติงานที่มีการกระจาย ในการวิเคราะห์ข้อมูลจากการทดลองจะต้องพิจารณาให้ดี ถ้าเป็นไปได้จะต้องพิจารณาถึงความแตกต่างของส่วนเบี่ยงเบนมาตรฐานหรือความแปรปรวนมากกว่าความแตกต่างของค่าเฉลี่ยการคำนวณความแปรปรวนและส่วนเบี่ยงเบนมาตรฐานจากข้อมูลที่ไม่ได้จัดกลุ่มในการคำนวณความแปรปรวนนั้นสามารถเขียนด้วยสูตรอย่างง่าย ๆ ดังนี้

ผลบวกของ 2 จำนวน N ครั้งเขียนในรูปอย่างง่ายได้ N2ส่วนเบี่ยงเบนมาตรฐานมีสูตรง่าย ๆ ว่า

ตัวอย่าง ค่าที่วัดได้ 5 ค่า 1, 4, 7, 10 และ 13 มีค่าเฉลี่ย 7 ยกกำลังสองข้อมูลทั้งหมดได้ 1, 16, 49, 100 และ 169 ผลบวกของข้อมูลกำลังสองคือ 335 ความแปรปรวนคือ

และส่วนเบี่ยงเบนมาตรฐานคือ = 4.74อีกสูตรหนึ่งที่ใช้ในการคำนวณส่วนเบี่ยงเบนมาตรฐาน เพื่อหลีกเลี่ยงการคำนวณค่าเฉลี่ยคือ

ผลของส่วนเบี่ยงเบนมาตรฐานเมื่อบวกหรือคูณด้วยค่าคงที่ถ้านำค่าคงที่ไปบวกกับข้อมูลทุก ๆ ค่าในกลุ่มตัวอย่าง ส่วนเบี่ยงเบนมาตรฐานจะไม่เปลี่ยนแปลง ตัวอย่างคะแนนในการสอบครั้งหนึ่งเมื่อตัดสินใจเพิ่มคะแนนให้กับนักเรียนแต่ละคนคนละ 10 คะแนน ค่าของส่วนเบี่ยงเบนมาตรฐานใหม่จะเท่ากับค่าของส่วนเบี่ยงเบนมาตรฐานเดิมค่าแต่ละค่าของข้อมูลแทนด้วย X เมื่อบวกด้วยค่าคงที่ C จะได้ X + C ถ้า คือค่าเฉลี่ยดั้งเดิมของข้อมูลชุดนี้ ค่าเฉลี่ยใหม่ก็คือ + C ความเบี่ยงเบนจากค่าเฉลี่ยกับค่าคงที่ที่บวกเพิ่มเข้าไปคือ ( X + C ) – ( + C ) ผลที่ได้จะเท่ากับ X – จะเห็นได้ว่า ความเบี่ยงเบนจะไม่เปลี่ยนเมื่อเพิ่มด้วยค่าคงที่ ดังนั้นส่วนเบี่ยงเบนมาตรฐานจึงไม่เปลี่ยนแปลงตัวอย่าง เมื่อเพิ่มค่าคงที่ 5 ให้กับข้อมูล 1, 4, 7, 10 และ 13 จะได้ 6, 9, 12, 15 และ 18 ค่าเฉลี่ยของข้อมูลเดิมคือ 7 และค่าเฉลี่ยหลังจากเพิ่มด้วยค่าคงที่แล้วคือ 7 + 5 = 12 ความเบี่ยงเบนมาตรฐานของข้อมูลแต่ละตัวกับค่าเฉลี่ยของข้อมูลทั้ง 2 ชุดมีค่าเท่ากับคือ -6, -3, 0, +3 และ +16 ส่วนเบี่ยงเบนมาตรฐานคือ 4.74ถ้าข้อมูลแต่ละค่าของกลุ่มตัวอย่างถูกคูณด้วยค่าคงที่แล้ว ส่วนเบี่ยงเบนมาตรฐานจะเท่ากับส่วนเบี่ยงเบนมาตรฐานเดิมคูณด้วยค่าสัมบูรณ์ของค่าคงที่ ถ้าส่วนเบี่ยงเบนมาตรฐานของข้อมูลชุดหนึ่งเป็น 4 และนำค่าคงที่ 3 คูณด้วยข้อมูลแต่ละค่า ส่วนเบี่ยงเบนมาตรฐานใหม่ก็คือ 3 x 4 = 12 เราจะสังเกตเห็นว่า คือค่าเฉลี่ยของกลุ่มตัวอย่าง ค่าเฉลี่ยของการวัดคูณด้วย C คือ C ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย CX – C = C(X – ) ยกกำลังแล้วรวมกันและหารด้วย N – 1

ถ้าข้อมูลทุกค่าถูกคูณด้วยค่าคงที่ C ความแปรปรวนใหม่จะเท่ากับความแปรปรวนเดิมคูณด้วย C2 และส่วนเบี่ยงเบนมาตรฐาน ก็คือ ส่วนเบี่ยงเบนมาตรฐานเดิมคูณด้วยค่าสัมบูรณ์ของค่าคงที่ C ถ้า C เป็นจำนวนติดลบ เช่น -3 S ก็คูณกับค่าสัมบูรณ์ของ -3 ซึ่งก็คือ 3ตัวอย่างข้อมูล 1, 4, 7, 10, 13 มีค่าเฉลี่ย 7 ความแปรปรวน 22.50 และส่วนเบี่ยงเบนมาตรฐาน 4.74 ถ้าข้อมูลแต่ละค่าถูกคูณด้วยค่าคงที่ 5 กลายเป็น 5, 20, 35, 50, 65 ค่าเฉลี่ยใหม่คือ 5 x 7 = 35 ความเบี่ยงเบนจากค่าเฉลี่ยคือ -30, -15, 0, +15, +36 ยกกำลังสองได้ 900, 225, 0, 225, 900 แล้วบวกกันได้ 2,250 ความแปรปรวน = 562.50 และส่วนเบี่ยงเบนมาตรฐานคือ 23.72

การแจกแจงปกติ 

ขึ้นไป ^

ขึ้นไป ^


วิดีโอ

 

 

ขอขอบคุณข้อมูลจาก และวิดีโอ

 2014-07-29