Bài 9. Khoảng biến thiên và khoảng tứ phân vị
Tính khoảng biến thiên R và khoảng tứ phân vị ΔQ để đánh giá mức độ phân tán của mẫu số liệu ghép nhóm. So sánh ý nghĩa của hai đại lượng và ứng dụng vào bài toán thực tế.
Lý thuyết
1 1. Khoảng biến thiên R
Khoảng biến thiên của mẫu ghép nhóm $[a_1;a_2),\ [a_2;a_3),\ \ldots,\ [a_k;a_{k+1})$ là:
$$R = a_{k+1} - a_1$$
$R$ càng lớn → mẫu càng phân tán. $R$ chỉ phụ thuộc đầu mút hai đầu, không phản ánh phân tán bên trong. Nhược điểm: rất nhạy với giá trị ngoại lai.
2 2. Tứ phân vị Q₁, Q₂, Q₃ và khoảng tứ phân vị ΔQ
Tứ phân vị chia mẫu thành 4 phần bằng nhau:
- $Q_1$: tứ phân vị thứ nhất – 25% số liệu dưới $Q_1$.
- $Q_2$: trung vị – 50% số liệu dưới $Q_2$.
- $Q_3$: tứ phân vị thứ ba – 75% số liệu dưới $Q_3$.
Khoảng tứ phân vị: $\Delta_Q = Q_3 - Q_1$.
$\Delta_Q$ đo mức phân tán của 50% số liệu ở giữa, ít nhạy với giá trị ngoại lai.
• R: đo toàn bộ độ trải dữ liệu, nhạy với ngoại lai.
• ΔQ: đo phần trung tâm (50%), bền vững với ngoại lai.
→ Khi số liệu có ngoại lai hoặc phân phối lệch, ưu tiên dùng $\Delta_Q$.
3 3. Công thức nội suy tính Q₁ và Q₃
Với mẫu ghép nhóm cỡ $n$:
| Đại lượng | Vị trí cần đạt | Công thức nội suy |
|---|---|---|
| $Q_1$ | $\dfrac{n}{4}$ | $Q_1 = a_p + \dfrac{\frac{n}{4} - F_{p-1}}{n_p}\cdot h_p$ |
| $Q_2$ (trung vị) | $\dfrac{n}{2}$ | $Q_2 = a_m + \dfrac{\frac{n}{2} - F_{m-1}}{n_m}\cdot h_m$ |
| $Q_3$ | $\dfrac{3n}{4}$ | $Q_3 = a_q + \dfrac{\frac{3n}{4} - F_{q-1}}{n_q}\cdot h_q$ |
Trong đó: $F_{p-1}$ = tần số tích lũy trước nhóm chứa $Q$; $n_p$ = tần số nhóm chứa $Q$; $h_p$ = độ dài nhóm.
Các dạng bài tập
1 Tính khoảng biến thiên
- Xác định nhóm đầu: đầu mút trái $a_1$.
- Xác định nhóm cuối: đầu mút phải $a_{k+1}$.
- $R = a_{k+1} - a_1$.
Ví dụ minh họa
Đầu mút trái nhóm đầu: $a_1=0$. Đầu mút phải nhóm cuối: $a_{k+1}=6$.
$R=6-0=\mathbf{6}$ (giờ).
2 Tính tứ phân vị và khoảng tứ phân vị
- Tính tần số tích lũy $F_i$.
- Tìm nhóm chứa $Q_1$ (nhóm đầu có $F\geq n/4$) và nhóm chứa $Q_3$ ($F\geq 3n/4$).
- Nội suy theo công thức.
- $\Delta_Q = Q_3 - Q_1$.
Ví dụ minh họa
Tần số tích lũy: 2, 10, 25, 35, 40.
Q₁: vị trí $n/4=10$. Nhóm chứa $Q_1$: $[50;60)$ (F tích lũy đạt 10 tại đây). $F_{p-1}=2$, $n_p=8$, $h=10$.
$Q_1=50+\dfrac{10-2}{8}\cdot10=50+10=60$.
Q₃: vị trí $3n/4=30$. $F$ tích lũy: 25<30≤35 → nhóm $[70;80)$. $F_{q-1}=25$, $n_q=10$, $h=10$.
$Q_3=70+\dfrac{30-25}{10}\cdot10=70+5=75$.
$\Delta_Q=75-60=\mathbf{15}$ điểm.
3 So sánh mức độ phân tán
- Tính $R$ và $\Delta_Q$ cho từng mẫu.
- Mẫu có $R$ lớn hơn → phân tán toàn bộ nhiều hơn.
- Mẫu có $\Delta_Q$ lớn hơn → phần trung tâm phân tán nhiều hơn.
- Nếu kết quả mâu thuẫn → mẫu có ngoại lai → ưu tiên $\Delta_Q$.
Ví dụ minh họa
Mẫu A: $R$ lớn hơn (tổng thể trải rộng hơn) nhưng $\Delta_Q$ nhỏ (phần trung tâm tập trung hơn). Có thể mẫu A có ngoại lai.
Mẫu B: $\Delta_Q$ lớn hơn → dữ liệu trung tâm phân tán hơn.
→ Kết luận phụ thuộc mục tiêu phân tích.
Sẵn sàng thử thách bản thân?
Hoàn thành 25 câu hỏi để củng cố kiến thức và kiểm tra mức độ hiểu bài
Làm bài tập ngay