Bài 9. Khoảng biến thiên và khoảng tứ phân vị
Tính khoảng biến thiên R và khoảng tứ phân vị ΔQ để đánh giá mức độ phân tán của mẫu số liệu ghép nhóm. So sánh ý nghĩa của hai đại lượng và ứng dụng vào bài toán thực tế.
Lý thuyết
1. Khoảng biến thiên R
Khoảng biến thiên của mẫu ghép nhóm $[a_1;a_2),\ [a_2;a_3),\ \ldots,\ [a_k;a_{k+1})$ là:
$$R = a_{k+1} - a_1$$
$R$ càng lớn → mẫu càng phân tán. $R$ chỉ phụ thuộc đầu mút hai đầu, không phản ánh phân tán bên trong. Nhược điểm: rất nhạy với giá trị ngoại lai.
2. Tứ phân vị Q₁, Q₂, Q₃ và khoảng tứ phân vị ΔQ
Tứ phân vị chia mẫu thành 4 phần bằng nhau:
- $Q_1$: tứ phân vị thứ nhất – 25% số liệu dưới $Q_1$.
- $Q_2$: trung vị – 50% số liệu dưới $Q_2$.
- $Q_3$: tứ phân vị thứ ba – 75% số liệu dưới $Q_3$.
Khoảng tứ phân vị: $\Delta_Q = Q_3 - Q_1$.
$\Delta_Q$ đo mức phân tán của 50% số liệu ở giữa, ít nhạy với giá trị ngoại lai.
• R: đo toàn bộ độ trải dữ liệu, nhạy với ngoại lai.
• ΔQ: đo phần trung tâm (50%), bền vững với ngoại lai.
→ Khi số liệu có ngoại lai hoặc phân phối lệch, ưu tiên dùng $\Delta_Q$.
3. Công thức nội suy tính Q₁ và Q₃
Với mẫu ghép nhóm cỡ $n$:
| Đại lượng | Vị trí cần đạt | Công thức nội suy |
|---|---|---|
| $Q_1$ | $\dfrac{n}{4}$ | $Q_1 = a_p + \dfrac{\frac{n}{4} - F_{p-1}}{n_p}\cdot h_p$ |
| $Q_2$ (trung vị) | $\dfrac{n}{2}$ | $Q_2 = a_m + \dfrac{\frac{n}{2} - F_{m-1}}{n_m}\cdot h_m$ |
| $Q_3$ | $\dfrac{3n}{4}$ | $Q_3 = a_q + \dfrac{\frac{3n}{4} - F_{q-1}}{n_q}\cdot h_q$ |
Trong đó: $F_{p-1}$ = tần số tích lũy trước nhóm chứa $Q$; $n_p$ = tần số nhóm chứa $Q$; $h_p$ = độ dài nhóm.
Các dạng bài tập
Dạng 1: Tính khoảng biến thiên
Phương pháp giải:
- Xác định nhóm đầu: đầu mút trái $a_1$.
- Xác định nhóm cuối: đầu mút phải $a_{k+1}$.
- $R = a_{k+1} - a_1$.
Ví dụ:
Đầu mút trái nhóm đầu: $a_1=0$. Đầu mút phải nhóm cuối: $a_{k+1}=6$.
$R=6-0=\mathbf{6}$ (giờ).
Dạng 2: Tính tứ phân vị và khoảng tứ phân vị
Phương pháp giải:
- Tính tần số tích lũy $F_i$.
- Tìm nhóm chứa $Q_1$ (nhóm đầu có $F\geq n/4$) và nhóm chứa $Q_3$ ($F\geq 3n/4$).
- Nội suy theo công thức.
- $\Delta_Q = Q_3 - Q_1$.
Ví dụ:
Tần số tích lũy: 2, 10, 25, 35, 40.
Q₁: vị trí $n/4=10$. Nhóm chứa $Q_1$: $[50;60)$ (F tích lũy đạt 10 tại đây). $F_{p-1}=2$, $n_p=8$, $h=10$.
$Q_1=50+\dfrac{10-2}{8}\cdot10=50+10=60$.
Q₃: vị trí $3n/4=30$. $F$ tích lũy: 25<30≤35 → nhóm $[70;80)$. $F_{q-1}=25$, $n_q=10$, $h=10$.
$Q_3=70+\dfrac{30-25}{10}\cdot10=70+5=75$.
$\Delta_Q=75-60=\mathbf{15}$ điểm.
Dạng 3: So sánh mức độ phân tán
Phương pháp giải:
- Tính $R$ và $\Delta_Q$ cho từng mẫu.
- Mẫu có $R$ lớn hơn → phân tán toàn bộ nhiều hơn.
- Mẫu có $\Delta_Q$ lớn hơn → phần trung tâm phân tán nhiều hơn.
- Nếu kết quả mâu thuẫn → mẫu có ngoại lai → ưu tiên $\Delta_Q$.
Ví dụ:
Mẫu A: $R$ lớn hơn (tổng thể trải rộng hơn) nhưng $\Delta_Q$ nhỏ (phần trung tâm tập trung hơn). Có thể mẫu A có ngoại lai.
Mẫu B: $\Delta_Q$ lớn hơn → dữ liệu trung tâm phân tán hơn.
→ Kết luận phụ thuộc mục tiêu phân tích.