Thống kê là gì và các nguồn học thống kê Statistic tốt nhất 2023

Tặng 45 phút tư vấn lộ trình ngành Tech cùng chuyên gia

Chỉ còn 7 suất cuối trong tháng này, hỗ trợ tư vấn ngoài giờ hành chính (Trị giá 500,000 VND)

Cám ơn bạn đã tin tưởng CoderSchool, các tư vấn viên sẽ liên lạc với bạn trong 24 giờ tới nên bạn nhớ chú ý điện thoại nhé.
Không thể gửi thông tin. Xin vui lòng kiểm tra và gửi lại.
coderschool-backgroud

Thống kê là một lĩnh vực quan trọng trong khoa học và kinh doanh, giúp chúng ta hiểu và phân tích dữ liệu để đưa ra những quyết định có tính xác suất và đáng tin cậy. Bài viết này sẽ giới thiệu về thống kê, từ các khái niệm cơ bản như thống kê mô tả (descriptive statistics) và thống kê suy luận (inferential statistics)  đến thống kê kiểm định (t-statistic) và cung cấp danh sách các nguồn học thống kê tốt nhất cho năm 2023.

1. Thống kê là gì?

Thống kê là một phần của toán học dùng để thu thập, phân tích, và hiểu dữ liệu. Nó giúp ta tổng hợp thông tin từ các dữ liệu và đưa ra những kết luận dựa trên xác suất và logic.

>> Phương pháp Thống kê mô tả (Descriptive Statistics) là gì và áp dụng ra sao trong phân tích dữ liệu

1.1 Descriptive Statistics (Thống kê mô tả)

Descriptive statistics giúp ta mô tả dữ liệu một cách tổng quan và đơn giản. Đây là các số liệu thường dùng như mean (trung bình), median (trung vị), và mode (mode) để mô tả dữ liệu.

1.2. Inferential Statistics (Thống kê suy diễn)

Inferential statistics là quá trình suy luận từ dữ liệu mẫu đến toàn bộ tập dữ liệu hoặc đưa ra dự đoán về tương lai. Điều này bao gồm việc sử dụng xác suất thống kê để đưa ra những kết luận về một dân số dựa trên dữ liệu mẫu.

2. T statistic là gì?

T statistic (còn được gọi là t-score) là một khái niệm quan trọng trong thống kê. Nó là một số đại diện cho sự khác biệt giữa trung bình của một mẫu dữ liệu và trung bình của toàn bộ tập dữ liệu. T statistic thường được sử dụng trong kiểm định giả thuyết để xác định xem sự khác biệt giữa hai nhóm là có ý nghĩa thống kê hay không.

3. Xác suất thống kê là gì?

Xác suất thống kê tiếng Anh (Statistical Probability) là một khái niệm quan trọng trong thống kê, nó liên quan đến xác định xác suất của các sự kiện dựa trên dữ liệu và thông tin có sẵn. Nó thường được sử dụng trong việc đánh giá và dự đoán các kết quả trong tương lai dựa trên dữ liệu quá khứ.

>> Phương pháp Thống kê mô tả (Descriptive Statistics) là gì và áp dụng ra sao trong phân tích dữ liệu

3.1 Các giá trị Mean, Median, Mode trong xác suất thống kê là gì?

- Mean (Trung bình): Là giá trị trung bình của một tập dữ liệu. Để tính mean, hãy cộng tất cả các giá trị rồi chia cho số lượng giá trị đó.

- Median (Trung vị): Là giá trị ở giữa của tập dữ liệu khi nó được sắp xếp theo thứ tự. Nó không bị ảnh hưởng bởi các giá trị ngoại lệ.

- Mode (Mode): Là giá trị xuất hiện nhiều nhất trong tập dữ liệu.

>>Tìm hiểu khoá học Data Science tại CoderSchool

3.2. Các phương pháp trong thống kê mô tả (Descriptive Statistics)

Các phương pháp thống kê mô tả bao gồm việc sử dụng biểu đồ, bảng biểu và số liệu thống kê cơ bản để mô tả dữ liệu một cách trực quan. Các phương pháp này giúp bạn hiểu sâu hơn về dữ liệu và tạo ra hình ảnh tổng quan về nó.

Khoá học Data Science tại CoderSchool hiện đang sử dụng Tableau để trực quan hoá dự liệu - một trong các phương pháp thống kê mô tả

3.3. Các phương pháp trong thống kê suy luận (Inferential Statistics)


Dưới đây là một số phương pháp quan trọng trong thống kê suy luận (Inferential Statistics):

- Kiểm định giả thuyết (Hypothesis Testing): Phân tích dữ liệu để xác định xem có sự khác biệt ý nghĩa giữa các nhóm hoặc biến số hay không.

- Ước tính khoảng tin cậy (Confidence Intervals): Xác định một khoảng giá trị có thể chứa giá trị trung bình hoặc tham số của dữ liệu với độ tin cậy.

- Phân tích phương sai (Analysis of Variance - ANOVA): So sánh sự khác biệt giữa ba hoặc nhiều nhóm để kiểm tra xem có sự ảnh hưởng ý nghĩa nào đó từ biến nhóm hay không.

- Kiểm định t (t-Tests): Sử dụng để so sánh trung bình của hai nhóm và kiểm tra xem sự khác biệt có ý nghĩa hay không.

- Kiểm định chi bình phương (Chi-Square Test): Sử dụng để kiểm tra mối liên hệ giữa các biến phân loại và kiểm tra xem có sự kết nối ý nghĩa hay không.

- Phân tích hồi quy (Regression Analysis): Sử dụng để dự đoán giá trị của biến phụ thuộc dựa trên biến độc lập và mối quan hệ giữa chúng.

- Kiểm tra tuân theo phân phối (Goodness-of-Fit Test): Sử dụng để kiểm tra xem dữ liệu có tuân theo phân phối xác định hay không.

- Kiểm định tương quan (Correlation Testing): Đánh giá mối quan hệ tương quan giữa hai biến liên tục.

- Phân tích dự đoán (Predictive Analytics): Sử dụng mô hình học máy để dự đoán sự kiện hoặc giá trị trong tương lai dựa trên dữ liệu lịch sử.

- Phân tích thời gian (Time Series Analysis): Sử dụng để xác định xu hướng và biến động trong dữ liệu theo thời gian.

- Phân tích dữ liệu tương quan (Causal Inference): Xác định mối quan hệ nhân quả giữa các biến và kiểm tra xem một biến có gây ra sự thay đổi trong biến khác hay không.

- Làm sạch và xử lý dữ liệu (Data Cleaning and Preprocessing): Quá trình chuẩn bị dữ liệu trước khi tiến hành phân tích thống kê suy luận.

Những phương pháp này đóng vai trò quan trọng trong việc rút ra kết luận và đưa ra quyết định dựa trên dữ liệu trong thống kê suy luận.

>>Tìm hiểu khoá học Data Science tại CoderSchool

>> Phương pháp Thống kê mô tả (Descriptive Statistics) là gì và áp dụng ra sao trong phân tích dữ liệu

4. Nguồn học thống kê Statistic tốt nhất cho năm 2023

Nếu bạn quan tâm đến việc học thống kê, dưới đây là một số nguồn học tốt nhất cho năm 2023:

4.1 Khan Academy - Thống Kê (Khan Academy - Statistics):

Khan Academy cung cấp một khóa học hoàn chỉnh về thống kê với nhiều bài giảng video và bài tập thực hành. Khóa học này rất phù hợp cho người mới bắt đầu.
Website: Khan Academy - Thống Kê

4.2 Stat Trek

Stat Trek là một nguồn học thống kê miễn phí với các bài giảng và bài tập. Nguồn này cung cấp giải thích chi tiết về các khái niệm thống kê.
Website: Stat Trek

4.3 Online Statistics Education

Trang web này cung cấp một cuốn sách giáo trình thống kê trực tuyến miễn phí (OpenIntro Statistics) và nhiều bài giảng video để giúp bạn hiểu sâu hơn về thống kê.
Website: Online Statistics Education

4.4 HyperStat Online

HyperStat Online là một tài liệu thống kê trực tuyến của David M. Lane (Rice University). Nguồn này giải thích các khái niệm thống kê một cách rõ ràng và dễ hiểu.
Website: HyperStat Online

4.5 MIT OpenCourseWare - Introduction to Probability and Statistics

Trường Đại học Massachusetts Inzstitute of Technology (MIT) cung cấp miễn phí tài liệu và bài giảng từ khóa học Introduction to Probability and Statistics. Đây là một nguồn học thống kê cao cấp.
Website: MIT OCW - Introduction to Probability and Statistics

Những nguồn này cung cấp nền tảng tốt để nắm vững kiến thức thống kê một cách miễn phí và hiệu quả.

Kiểm tra độ phù hợp trong ngành Tech

Bạn còn thắc mắc về chương trình học?

Tham gia ngay 45 phút định hướng cùng Mentor tại CoderSchool hoàn toàn miễn phí

Get a full refund within 7 days if you’re not happy with the course. If you don’t get a job within 6 months of completion, you’ll receive a full refund.

Đăng ký
/* ga4 user id */