Tabla de Contenidos
สถิติเชิงพรรณนาช่วยให้เราสามารถสรุปชุดข้อมูลเป็นตัวเลขจำนวนน้อยหรือหน่วยวัดที่ใช้อธิบายวิธีกระจายข้อมูลนั้น มีมาตรวัดต่างๆ ที่ใช้อธิบายแนวโน้มเข้าสู่ส่วนกลางของข้อมูล การกระจายตัว และรูปร่างของเส้นโค้งการกระจาย ซึ่งบางส่วนพบได้ในสรุปตัวเลขห้าตัว
สรุปเลขห้าคืออะไร?
จากข้อมูลข้างต้น สรุปตัวเลขห้าตัวสามารถกำหนดเป็นชุดของการวัดหรือสถิติห้ารายการที่เกี่ยวข้องกับชุดข้อมูลที่อนุญาตให้อธิบายในลักษณะง่ายๆ เกี่ยวกับความกว้างของชุด การกระจายตัว นอกจากนี้ยังเป็นการวัดแนวโน้มเข้าสู่ส่วนกลาง นอกจากนี้ยังสามารถแสดงข้อมูลสรุปตัวเลขห้าตัวในรูปแบบกราฟิก ทำให้ง่ายต่อการมองเห็นลักษณะเหล่านี้ของชุดข้อมูล ขณะเดียวกันก็ช่วยให้สามารถเปรียบเทียบกับชุดข้อมูลอื่นๆ ที่เกี่ยวข้องได้อย่างง่ายดาย
เลขห้าตัวคืออะไรและมีความหมายว่าอย่างไร?
สรุปตัวเลขห้าตัวประกอบด้วยค่าต่ำสุด ควอไทล์สามค่า และค่าสูงสุดของชุดข้อมูลทางสถิติ ควอไทล์คือข้อมูลหรือค่าที่แบ่ง ชุดคำสั่งของข้อมูลทั้งหมดออกเป็นสี่กลุ่มย่อยที่มีจำนวนองค์ประกอบเท่ากัน ดังนั้นหากเรามีชุดข้อมูล 100 ชุด ควอไทล์คือข้อมูลหรือค่าที่แบ่งชุดข้อมูลออกเป็น 4 ชุดย่อย ชุดละ 25 ชุด
ควอไทล์จะตั้งชื่อตามลำดับที่ปรากฏ จากต่ำสุดไปสูงสุด เช่น ควอไทล์ที่หนึ่ง สอง และสาม นอกจากนี้ยังแสดงด้วยอักษรตัวใหญ่ Q ตามด้วยตัวเลขที่ระบุตำแหน่งลำดับ ตามคำจำกัดความควอร์ไทล์ที่สอง Q2 เรียกอีกอย่างว่าค่ามัธยฐานหรือจุดกึ่งกลางของข้อมูล ไม่ควรสับสนกับค่าเฉลี่ยซึ่งเป็นค่าเฉลี่ยเลขคณิตของข้อมูล
นอกจากควอไทล์ทั้งสาม (Q1, Q2 และ Q3) ข้อมูลสรุปตัวเลขห้าตัวยังรวมถึงค่าต่ำสุดของข้อมูล เรียงลำดับจากน้อยไปมาก และค่าสูงสุด กล่าวอีกนัยหนึ่ง ตัวเลขห้าตัวในการสรุปนี้คือ:
- ต่ำสุด–เป็นค่าแรกของชุดข้อมูลสถิติที่เรียงลำดับจากต่ำสุดไปสูงสุด เป็นข้อมูลที่มีค่าต่ำสุด
- ไตรมาสที่ 1 หรือควอไทล์แรกคือข้อมูลหรือค่าที่แบ่งชุดข้อมูล โดยปล่อยให้ 25% (หรือหนึ่งในสี่) อยู่ด้านล่างและอีก 75% อยู่ด้านบน
- Q2 หรือควอไทล์ที่สอง–เป็นข้อมูลหรือค่าที่แบ่งชุดข้อมูลออกเป็นสองกลุ่มเท่าๆ กัน นั่นคือ เป็นค่าที่เว้น 50% ของข้อมูลทั้งด้านล่างและด้านบน ดังนั้นค่าดังกล่าวจึงแสดงถึงค่ามัธยฐานหรือจุดกึ่งกลางของข้อมูลด้วย
- ไตรมาสที่ 3 หรือควอไทล์ที่สาม–นี่คือข้อมูลหรือค่าที่เหลือ 75% หรือสามในสี่ของข้อมูลด้านล่างและอีก 25% ด้านบน
- สูงสุด–ตามชื่อที่ระบุ เป็นข้อมูลที่มีค่าสูงสุดของชุดข้อมูลทั้งหมด นั่นคือเป็นข้อมูลสุดท้ายเมื่อเรียงลำดับจากต่ำสุดไปสูงสุด
เมื่อตีความสรุปตัวเลขทั้งห้า ความแตกต่างระหว่างค่าต่ำสุดและค่าสูงสุดจะแสดงสิ่งที่เรียกว่าความกว้างของชุดข้อมูล ในทางกลับกัน ความแตกต่างระหว่างควอไทล์ที่สามและควอไทล์แรกซึ่งเรียกว่า Interquartile Range (RIC) แสดงให้เราเห็นว่าข้อมูลกระจายตัวอย่างไร เนื่องจากมันระบุช่วงของค่าที่มี 50% ของข้อมูลกลาง
ในทางกลับกัน ควอร์ไทล์ที่สองหรือค่ามัธยฐานเป็นการวัดแนวโน้มเข้าสู่ส่วนกลางที่สามารถใช้แทนค่าของข้อมูลทั้งหมดในอนุกรมด้วยตัวเลขเดียว แม้ว่าค่าเฉลี่ยมักจะถูกใช้เป็นการวัดแนวโน้มเข้าสู่ส่วนกลางในหลาย ๆ สถานการณ์ แต่ค่ามัธยฐานก็มีข้อดีตรงที่จะไม่ไวต่อค่ามาก (สูงหรือต่ำเกินไป)
โครงเรื่องแบบกล่อง: การแสดงกราฟิกของการสรุปตัวเลขห้าตัว
วิธีที่ใช้ได้จริงในการแสดงภาพสรุปของตัวเลขห้าตัวคือการใช้สิ่งที่เรียกว่าการลงจุดแบบกล่องหรือBox Plot ในการแสดงประเภทนี้ ช่วงระหว่างควอไทล์ (IQR) จะแสดงเป็นรูปสี่เหลี่ยมผืนผ้าหรือกล่องที่ขยายจาก Q1 ถึง Q3 และแบ่งออกเป็นสองส่วนด้วยเส้นที่ตั้งฉากกับแกนการวัดที่อยู่ใน Q2 นั่นคือในค่ามัธยฐาน
ในที่สุด ในแต่ละด้านของเส้นกล่องจะถูกวาดขนานกับแกนการวัดที่ขยายจากค่าต่ำสุดไปยัง Q1 และจาก Q3 ไปยังค่าสูงสุด ตราบเท่าที่ค่าต่ำสุดและค่าสูงสุดไม่เกิน 1.5.RIC ของระยะทางไปทางซ้ายและ ด้านขวาของ Q1 และ Q3 ตามลำดับ เส้นด้านข้างเหล่านี้เรียกว่าหนวดของกล่อง หากมีข้อมูลที่อยู่นอกช่วงที่แบ่งเขตโดย Q1 – 1.5.RIC และ Q3 + 1.5.RIC ด้านข้าง (บางครั้งเรียกว่าหนวด) จะขยายไปยังข้อมูลที่อยู่ไกลที่สุดจากกล่องที่อยู่ภายในช่วงนั้น และส่วนที่เหลือ ถูกทำเครื่องหมายเป็นค่าผิดปกติ
ตัวอย่างการเตรียมสรุปตัวเลข 5 ตัวสำหรับชุดข้อมูล
ต่อไปจะนำเสนอขั้นตอนทีละขั้นตอนสำหรับการสรุปรายละเอียดตัวเลขห้าตัวจากชุดข้อมูลสถิติ นอกจากนี้ยังอธิบายถึงวิธีสร้างการลงจุดกล่องสำหรับการแสดงข้อมูลสรุปนี้ในรูปแบบกราฟิก
ข้อมูลสอดคล้องกับจำนวนสินค้าที่ขายในแผนกสตรีของห้างสรรพสินค้าในช่วง 10 สัปดาห์ ผลการศึกษาแสดงไว้ด้านล่าง:
วันจันทร์ | วันอังคาร | วันพุธ | วันพฤหัสบดี | วันศุกร์ | วันเสาร์ | วันอาทิตย์ | |
สัปดาห์ที่ 1 | 158 | 145 | 156 | 156 | 164 | 167 | 147 |
สัปดาห์ที่ 2 | 161 | 146 | 157 | 152 | 162 | 160 | 153 |
เรา3 | 152 | 150 | 157 | 155 | 164 | 166 | 152 |
สัปดาห์ที่ 4 | 150 | 149 | 153 | 162 | 169 | 162 | 149 |
สัปดาห์ที่ 5 | 157 | 152 | 154 | 155 | 168 | 161 | 155 |
สัปดาห์ที่ 6 | 157 | 145 | 160 | 164 | 164 | 168 | 149 |
สัปดาห์ที่ 7 | 160 | 152 | 151 | 152 | 168 | 163 | 145 |
สัปดาห์ที่ 8 | 157 | 152 | 155 | 156 | 162 | 169 | 155 |
สัปดาห์ที่ 9 | 160 | 148 | 157 | 150 | 164 | 170 | 154 |
สัปดาห์ที่ 10 | 158 | 146 | 163 | 158 | 165 | 169 | 150 |
ขั้นตอนที่ 1: จัดเรียงข้อมูลทั้งหมดจากน้อยไปหามาก และกำหนดดัชนีที่ขึ้นต้นด้วย 1
ผลลัพธ์ของขั้นตอนนี้แสดงไว้ด้านล่าง:
ดัชนี | คุณค่า | ดัชนี | คุณค่า | ดัชนี | คุณค่า | ดัชนี | คุณค่า |
1 | 145 | 22 | 152 | 43 | 158 | 64 | 168 |
2 | 145 | 23 | 153 | 44 | 160 | 65 | 168 |
3 | 145 | 24 | 153 | สี่ห้า | 160 | 66 | 168 |
4 | 146 | 25 | 154 | 46 | 160 | 67 | 169 |
5 | 146 | 26 | 154 | 47 | 160 | 68 | 169 |
6 | 147 | 27 | 155 | 48 | 161 | 69 | 169 |
7 | 148 | 28 | 155 | 49 | 161 | 70 | 170 |
8 | 149 | 29 | 155 | ห้าสิบ | 162 | ||
9 | 149 | 30 | 155 | 51 | 162 | ||
10 | 149 | 31 | 155 | 52 | 162 | ||
สิบเอ็ด | 150 | 32 | 156 | 53 | 162 | ||
12 | 150 | 33 | 156 | 54 | 163 | ||
13 | 150 | 3. 4 | 156 | 55 | 163 | ||
14 | 150 | 35 | 157 | 56 | 164 | ||
สิบห้า | 151 | 36 | 157 | 57 | 164 | ||
16 | 152 | 37 | 157 | 58 | 164 | ||
17 | 152 | 38 | 157 | 59 | 164 | ||
18 | 152 | 39 | 157 | 60 | 164 | ||
19 | 152 | 40 | 157 | 61 | 165 | ||
ยี่สิบ | 152 | 41 | 158 | 62 | 166 | ||
ยี่สิบเอ็ด | 152 | 42 | 158 | 63 | 167 |
ขั้นตอนที่ 2: กำหนดควอไทล์ Q1 และ Q3
ในการระบุควอไทล์ Q1, Q2 และ Q3 เราเริ่มต้นด้วยการคำนวณดัชนีสำหรับข้อมูลที่สอดคล้องกับแต่ละควอไทล์ สูตรมีดังต่อไปนี้:
โดยที่Nคือจำนวนข้อมูลทั้งหมด การคำนวณนี้เป็นจำนวนเต็มหรือไม่ก็ได้ ดังนั้น แบ่งขั้นตอนออกเป็น 2 กรณี คือ
กรณีที่ 1: ผลลัพธ์ของจำนวนเต็ม
หากผลลัพธ์เป็นจำนวนเต็ม ควอไทล์ที่เกี่ยวข้องจะเป็นค่าของข้อมูลที่ดัชนีสอดคล้อง ตัวอย่างเช่น หากดัชนีของ Q1 ให้ 10 หมายความว่า Q1 จะเป็นค่าของหมายเลขข้อมูล 10 (149 ในตัวอย่างของเรา)
กรณีที่ 2: ผลลัพธ์ทศนิยม
หากดัชนีเป็นเลขทศนิยม ควอไทล์จะไม่ตรงกับข้อมูลใด ๆ ที่มีอยู่ในชุด ในกรณีนี้ ผลลัพธ์จะถูกปัดเศษลงและควอไทล์จะคำนวณจากข้อมูลนี้และข้อมูลที่ตามมาโดยใช้สูตรต่อไปนี้:
โดยที่dแทนส่วนทศนิยมของดัชนีx iคือข้อมูลที่มีการปัดเศษดัชนีลง และx i+1คือจุดข้อมูลถัดไป
ในกรณีตัวอย่างของเรา นี่คือผลลัพธ์ของการคำนวณดัชนีของควอไทล์ทั้งสาม:
ในทุกกรณีผลลัพธ์จะเป็นเลขทศนิยม ดังนั้นตอนนี้เราใช้สูตรจากกรณีที่ 2 เพื่อกำหนดค่าของแต่ละควอไทล์:
ขั้นตอนที่ 3: ระบุตัวเลขห้าตัว
ตอนนี้เราได้เรียงลำดับข้อมูลและเราได้กำหนดค่าของควอไทล์ทั้งสามแล้ว สรุปตัวเลขทั้งห้าคือ:
ขั้นต่ำ: | 145 |
ไตรมาสที่ 1: | 152 |
Q2 หรือค่ามัธยฐาน: | 157 |
ไตรมาสที่ 3: | 162.25 |
ขีดสุด: | 170 |
ขั้นตอนที่ 4: สร้าง boxplot
เรามีทุกสิ่งที่จำเป็นในการสร้าง boxplot ยกเว้น RIC จากผลลัพธ์ที่ได้ในขั้นตอนที่แล้ว ความแตกต่างระหว่าง Q3 และ Q1 คือ:
เพื่อตรวจสอบว่ามีค่าผิดปกติหรือไม่ เราคำนวณ Q1 – 1.5 IQR และ Q3 + 1.5 IQR และเปรียบเทียบกับค่าต่ำสุดและสูงสุด:
อย่างที่เราเห็น ไม่มีค่าผิดปกติเนื่องจากค่าต่ำสุด 140 มีค่ามากกว่า 136,625 นอกจากนี้ยังไม่มีค่าผิดปกติเนื่องจากค่าสูงสุด 170 น้อยกว่า 177,625
รูปต่อไปนี้แสดงผลของการสร้างพล็อตกล่องที่สอดคล้องกับตัวอย่าง:
อ้างอิง
วิธีรวบรวมตัวเลขห้าตัวโดยสรุปของตัวอย่างทางสถิติ (น). FaqSalex.info https://faqsalex.info/educaci%C3%B3n/21361-c%C3%B3mo-reunir-a-un-resumen-de-cinco-n%C3%BAmeros-de-una.html
McAdams, D. (2009, 4 มีนาคม). สรุปเลขห้าตัว. Life is a Story Problem.org. https://lifeisastoryproblem.tripod.com/th/f/fivenumbersummary.html
Serra, BR (2020, 22 พฤศจิกายน) ค่ามัธยฐาน สูตรจักรวาล https://www.universoformulas.com/estadistica/descriptiva/mediana/#calculo
Serra, BR (2021, 4 สิงหาคม) ควอไทล์ สูตรจักรวาล https://www.universoformulas.com/estadistica/descriptiva/cuartiles/#example
เซนติก้า โกลบอล (น). Brutalk – วิธีคำนวณสรุปเลข 5 สำหรับข้อมูลของคุณใน Python บรูทอล์ค https://www.brutalk.com/th/news/brutalk-blog/view/how-to-calculate-the-summary-of-5-numbers-for-your-data-in-python-6047097da7d56