Trung bình (mean) – ký hiệu \bar{x}, \mu
Với tổng thể gọi là kỳ vọng: E(X)=\mu_X
Với mẫu: \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i
Khi lấy nhiều mẫu, các mẫu khác nhau có trung bình khác nhau. Khi đó trung bình mẫu \bar{x} là một biến ngẫu nhiên có kỳ vọng và độ lệch chuẩn như sau:
E(\bar{x}) = \mu_X = E(X) \sigma_{\bar{x}}=\frac{\sigma_X}{\sqrt{n}}Độ lệch chuẩn của trung bình mẫu (\sigma_{\bar{x}} còn được gọi là sai số chuẩn (standard error – SE)) Nếu tổng thể có phân bố chuẩn N(\mu_X,\sigma_X^2) hay nếu kích thước mẫu tương đối lớn (n\ge 30) thì theo kết quả của định lý giới hạn trung tâm (central limit theorem), biến Z dưới đây có phân bố chuẩn:
z=\frac{\bar{x}-\mu_X}{\sigma_{\bar{x}}}Nếu kích thước mẫu nhỏ (n < 30) nhưng tổng thể có phân phối chuẩn N(\mu_X, \sigma_X^2) thì biến ngẫu nhiên t có phân phối Gosset (Student’s t) với bậc tự do là n-1 (S_x là độ lệch chuẩn của mẫu):
t=\frac{\bar{x}-\mu_X}{S_x/\sqrt{n}}Lưu ý:
Một khái niệm liên quan đến trung bình đó là moment (mô-men).
- Moment thứ nhất (The first moment) chính là trung bình = \mu_X\text{ hoặc }\bar{x}.
- Từ Moment thứ hai (The second moment) là lũy thừa của giá trị biến trừ đi trung bình, tức moment thứ hai chính là phương sai: \text{moment thứ hai}=\frac{1}{n-1}\sum{(x_i-\bar{x})^2};
- Moment thứ 3=\frac{1}{n-1}\sum\limits{(x_i-\bar{x})^3}.
- Moment thứ 4=\frac{1}{n-1}\sum\limits{(x_i-\bar{x})^4}.
Tỉ lệ
Tỉ lệ mẫu: p_s=x/n
Tỉ lệ tổng thể: p_X=X/N
Trung vị (median)
Số nằm ở vị trí giữa (nếu số giá trị là lẻ) hoặc trung bình của cặp số nằm giữa (nếu số giá trị là chẵn) – dãy giá trị được sắp xếp từ nhỏ đến lớn hoặc ngược lại.
Tứ phân vị (quartile)
Sắp xếp dãy giá trị theo thứ tự tăng dần, chia dãy số làm 4 phần bằng nhau theo số giá trị – tương ứng ta sẽ có Q1 là điểm 25%, tức là có 25% giá trị bé hơn Q1, Q2 = trung vị, Q3 là điểm 75% tức là có 75% giá trị bé hơn Q3 và 25% giá trị lớn hơn Q3. Khoảng trải giữa (Interquartile range – IQR) = Q3-Q1.
Mode
Giá trị có tần số suất hiện lớn nhất.
Phương sai (variance) – ký hiệu S^2, \sigma^2, Var(X)
Ta không thể dùng trung bình các độ lệch (tức là \sum{X-\bar{x}}) để xem xét mức độ phân tán vì tổng các độ lệch luôn = 0\footnote{\sum{X-\bar{x}}=\sum{X}-\sum\bar{x}=\sum{X}-n\bar{x}=\sum{X}-\sum{X}=0}.
Vì vậy ta dùng trung bình tổng bình phương các độ lệch (gọi là phương sai).
Với tổng thể:
Var(X)=\sigma^2=E[(X-\mu)^2]=E(X^2)-\mu^2Với mẫu:
S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2Phương sai cho biết mức độ phân tán của tập giá trị xung quanh giá trị trung bình của nó – cũng tức là mức độ biến động nhiều hay ít của biến. Phương sai càng nhỏ thì hàm mật độ (PDF) càng nhọn – đuôi ngắn (và ngược lại). Tính chất của phương sai: + Phương sai của một hằng số = 0
- Nếu X và Y độc lập thì:
Var(X+Y)=Var(X)+Var(Y)
Var(X-Y)=Var(X)-Var(Y)
- Nếu a là một hằng số thì: Var(aX)=a^2Var(X)
- Nếu a và b là hằng số thì: Var(aX+b)=a^2Var(X)
- Nếu X và Y độc lập và a, b là hằng số thì: Var(aX+bY)=a^2Var(X)+b^2Var(Y)
Độ lệch chuẩn (standard deviation) – ký hiệu SD, S, \sigma
Với tổng thể:
\sigma_X=\sqrt{\sigma_X^2}=\sqrt{E(X^2)-\mu_X^2}Với mẫu:
S=\sqrt{S^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2}Kỳ vọng (expectation) – ký hiệu E(X), \mu
Kỳ vọng của biến X chính là trung bình tổng thể của biến đó.
E(X)=\mu_X=\sum_x{xf(X)}Tính chất của kỳ vọng:
- E(X+Y+Z)=E(X)+E(Y)+E(Z)
- E(c)=c \text{ (c là hằng số)}
- E(X+c)=E(X)+c
- E(cX)=cE(X)
- E(X/Y) \ne E(X)/E(Y)
- E(XY)\ne E(X)E(Y)
- Nếu X và Y độc lập thì E(XY)=E(X)E(Y)
- E[(X+Y)^2]=E(X^2+Y^2+2XY)=E(X^2)+E(Y^2)+2E(XY)
Độ lệch (skewness) – s
Với tổng thể:
s=\frac{E(X-\mu_X)^3}{\sigma_X^3}Với mẫu:
s=\frac{\sum{(X-\bar{x})^3}}{S_X^3}- s = 0: hàm mật độ (PDF) cân
- s > 0: Mean > Median > Mode, PDF lệch phải
- s < 0: Mean < Median < Mode, PDF lệch trái Độ lệch lớn cho thấy có thể có ngoại lệ dữ liệu. Khi xác định sử dụng kỹ thuật thống kê nào (áp dụng cho phân phối chuẩn hay không chuẩn), cần xem xét độ lệch tổng thể.
Độ nhọn (kurtosis) – k
Với tổng thể:
k=\frac{E(X-\mu_X)^4}{\sigma_X^2}Với mẫu:
k=\frac{\sum{(X-\bar{x})^4}}{S_X^2}- k = 3: độ nhọn chuẩn (mesokurtic)
- k < 3: đuôi ngắn – nhọn hơn (platykurtic)
- k > 3: đuôi dài – tù hơn (leptokurtic)
Mô-men (moment)
Trong toán học, các mô-men của một hàm số là các đo lường định lượng liên quan tới hình dáng của đồ thị hàm số đó.
Có 3 loại: mô-men gốc (raw moment), mô-men trung tâm (central moment) và mô-men chuẩn hóa (standardized moment).
Với biến ngẫu nhiên có phân phối chuẩn:
Thứ tự | Mô-men gốc | Mô-men trung tâm | Mô-men chuẩn hóa |
1 | Trung bình | 0 | 0 |
2 | – | Phương sai | 1 |
3 | – | – | Skewness |
4 | – | – | Kurtosis |
Hệ số biến thiên (variance coefficient)
Độ lệch chuẩn (hoặc phương sai) phụ thuộc vào đơn vị đo nên sẽ khó cho việc so sánh giữa các độ lệch chuẩn nếu chúng có các thước đo khác nhau.
Để loại bỏ ảnh hưởng của đơn vị đo người ta dùng hệ số biến thiên (V).
Với tổng thể: V=\frac{\sigma_X}{\mu_X}100
Với mẫu: V=\frac{S_X}{\bar{x}}100