Tin học lớp 10 Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản
A. Lý thuyết Tin học 10 Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản
1. Phân loại và biểu diễn thông tính trong máy tính
– Biểu diễn thông tin là cách mã hóa thông tin.
– Các kiểu dữ liệu thường gặp là văn bản, số, hình ảnh, âm thanh và lôgic.
– Việc phân loại dữ liệu để có cách biểu diễn phù hợp nhằm tạo điều kiện thuận lợi cho việc xử lí thông tin trong máy tính.
Bảng 1: Sơ đồ phân loại các kiểu dữ liệu
2. Biểu diễn dữ liệu văn bản
a) Bảng mã ASCII
– Ban đầu bảng mã này dùng các mã 7 bit, với 128 mã khác nhau chỉ thể hiện đúng 128 kí tự.
– Bảng mã 7 bit chỉ đủ dùng cho tiếng Anh trong khi nhiều quốc gia dùng kí tự riêng, như Trung Quốc, Hy Lạp, …
⇒ Người ta mở rộng bảng mã 7 bit thành bảng mã 8 bit gọi là ASCII mở rộng cho phép mã hóa 256 kí tự.
b) Bảng mã Unicode và tiếng Việt trong Unicode
– Ngoài các kí tự có trong bảng chữ cái tiếng Anh, Tiếng Việt còn có 134 nguyên âm có dấu thanh và phụ âm “đ” đều không có sẵn trong bảng mã ASCII, trong khi phần mở rộng của bảng mã ASCII lại chỉ có 128 vị trí.
– Tình trạng thiếu vị trí còn trầm trọng hơn với những quốc gia dùng chữ tượng hình như Trung Quốc, Hàn Quốc, …
⇒ Do đó bảng mã Unicode được xây dựng dùng chung cho mọi quốc gia.
– Unicode là một bộ tiêu chuẩn biểu diễn kí tự văn bản trong máy tính, cho phép biểu diễn kí tự thuộc nhiều loại ngôn ngữ khác nhau.
– UTF-8 là hệ thống mã hóa kí tự với độ dài khác nhau dành cho Unicode.
– Từ năm 2017, Việt Nam ban hành quy định bắt buộc sử dụng UTF-8 để biểu diễn các kí tự Tiếng Việt trong máy tính, dùng bảng mã ASCII để mã hóa kí tự latinh không dấu, sử dụng 2 byte để mã hóa các nguyên âm có dấu, các kí tự Đ đ và chỉ dùng 3 byte một số rất ít các kí tự đặc biệt.
c) Số hóa văn bản
– Tệp văn bản là định dạng lưu trữ ở bộ nhớ ngoài.
– Việc số hóa văn bản được thực hiện bằng các phần mềm soạn thảo văn bản như Word, Writer.
– Hiện tại có thể nhập văn bản bằng nhận dạng tiếng nói.
B. Bài tập trắc nghiệm Tin học 10 Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản
Câu 1. Trong bảng mã Unicode Tiếng Việt, mỗi kí tự được biểu diễn bởi bao nhiêu byte?
A. 1 byte.
B. 2 byte.
C. Từ 1 đến 3 byte.
D. 3 byte.
Hướng dẫn giải
Đáp án đúng là: C
Kí tự la tinh không dấu: 1 byte, nguyên âm có dấu: 2 byte, kí tự Đ và 3 byte với một số ít kí tự đặc biệt.
Câu 2. Trong chương trình THPT, các kiểu dữ liệu nào được đề cập?
A. Văn bản, số.
B. Lôgic.
C. Đa phương tiện.
D. Cả A, B, C.
Hướng dẫn giải
Đáp án đúng là: D
Trong chương trình THPT, các kiểu dữ liệu được đề cập là văn bản, số, lôgic, đa phương tiện như hình ảnh, ….
Câu 3. Trong bảng chữ cái La tinh không có kí tự nào sau đây?
A. G.
B. H.
C. Đ.
D. L.
Hướng dẫn giải
Đáp án đúng là: C
Chữ Đ không có trong bảng chữ cái La tinh.
Câu 4. Việt Nam ban hành sử dụng UTF-8 từ năm nào?
A. 2015.
B. 2016.
C. 2017.
D. 2018.
Hướng dẫn giải
Đáp án đúng là: C
Năm 2017 ở Việt Nam ban hành sử dụng UTF-8 để biểu diễn các kí tự tiếng Việt trong máy tính.
Câu 5. Tệp văn bản là định dạng lưu trữ ở bộ nhớ nào?
A. Bộ nhớ ngoài.
B. Bộ nhớ trong.
C. Cả hai bộ nhớ.
D. Không có bộ nhớ nào.
Hướng dẫn giải
Đáp án đúng là: A
Tệp văn bản có định dạng lưu trữ bộ nhớ ngoài.
Câu 6. Tìm phát biểu chính xác nhất khi nói về biểu diễn thông tin:
A. Biểu diễn thông tin là cách mã hoá thông tin.
B. Biểu diễn thông tin là cách mã hoá thông tin thành dữ liệu nhị phân.
C. Biểu diễn thông tin là cách mã hoá thông tin thành thông tin nhị phân.
D. Biểu diễn thông tin là biến đổi thông tin thành dữ liệu nhị phân.
Hướng dẫn giải
Đáp án đúng là: B
Biểu diễn thông tin là cách mã hoá thông tin thành dữ liệu nhị phân.
Câu 7. Tìm phát biểu sai trong các phát biểu sau:
A. Khi đưa vào máy tính thông tin chuyển thành dữ liệu.
B. Dữ liệu là số có thể tính toán và so sánh.
C. Dữ liệu là văn bản không thể tách so sánh được.
D. Biểu diễn thông tin là mã hoá thông tin.
Hướng dẫn giải
Đáp án đúng là: C
Dữ liệu dạng văn bản có thể tách, ghép, so sánh.
Câu 8. Đâu không phải kiểu dữ liệu thường gặp?
A. Văn bản.
B. Số.
C. Lôgic.
D. Bit.
Hướng dẫn giải
Đáp án đúng là: D
Các kiểu dữ liệu thường găp: số, văn bản, đa phương tiện, lôgic.
Câu 9. Tác dụng của việc phân loại dữ liệu là gì?
A. Tạo điều kiện thuận lợi cho xử lí thông tin.
B. Có cách biểu diễn phù hợp nhằm tạo điều kiện thuận lợi cho việc xử lí thông tin.
C. Dễ gọi tên và phân biệt.
D. Xử lí thông tin chính xác.
Hướng dẫn giải
Đáp án đúng là: B
Phân loại dữ liệu có cách biểu diễn phù hợp nhằm tạo điều kiện thuận lợi cho việc xử lí thông tin.
Câu 10. Số phát biểu đúng trong các phát biểu sau?
1) Ban đầu bảng mã ASCII thể hiện đúng 128 kí tự.
2) Bảng mã ASCII mở rộng dùng 8 bit để biểu diên mọi kí tự.
3) Bảng mã ASCII dùng 3 byte để biểu diễn nguyên âm.
4) Mọi kí tự đều biểu diễn bằng 1 byte trong bảng mã ASCII.
A. 4.
B. 1.
C. 3.
D. 2.
Hướng dẫn giải
Đáp án đúng là: B
Phát biểu đúng : 1.
Câu 11. Bảng mã ASCII mở rộng sử dụng mấy bit để biểu diễn 1 ký tự?
A. 8.
B. 16.
C. 32.
D. 256.
Hướng dẫn giải
Đáp án đúng là: A
Bảng mã ASCII mở rộng sử dụng 8 bit để biểu diễn 1 ký tự.
Câu 12. Tại sao cần có Unicode?
A. Để đảm bảo bình đẳng cho mọi quốc gia trong ứng dụng tin học.
B. Bảng mã ASCII mã hóa mỗi kí tự bởi 1 byte. Giá thành thiết bị lưu trữ ngày càng rẻ nên không cần phải sử dụng các bộ kí tự mã hóa bởi 1 byte.
C. Dùng một bảng mã chung cho mọi quốc gia, giải quyết vấn đề thiếu vị trí cho bộ kí tự của một số quốc gia, đáp ứng nhu cầu dùng nhiều ngôn ngữ đồng thời trong cùng một ứng dụng.
D. Dùng cho quốc gia sử dụng chữ tượng hình.
Hướng dẫn giải
Đáp án đúng là: C
Unicode là bảng mã dùng chung cho mọi quốc gia, giải quyết vấn đề thiếu vị trí cho bộ kí tự của một số quốc gia, đáp ứng nhu cầu dùng nhiều ngôn ngữ đồng thời trong cùng một ứng dụng.
Câu 13. Việc mã hóa thông tin thành dữ liệu nhị phân gọi là
A. Mã hóa thông tin.
B. Biểu diễn thông tin.
C. Xử lý thông tin.
D. Cung cấp thông tin.
Hướng dẫn giải
Đáp án đúng là: B
Việc mã hóa thông tin thành dữ liệu nhị phân gọi là mã hóa thông tin.
Câu 14. Biểu diễn thông tin là bước thứ mấy để đưa thông tin vào máy tính?
A. Thứ nhất.
B. Thứ hai.
C. Thứ 3.
D. Thứ 4.
Hướng dẫn giải
Đáp án đúng là: A
Biểu diễn thông tin là bước thứ nhất để đưa thông tin vào máy tính.
Câu 15. Trong bảng mã Unicode tiếng việt, mỗi kí tự được biểu diễn bởi bao nhiêu byte?
A. 1.
B. 4.
C. 8.
D. 32.
Hướng dẫn giải
Đáp án đúng là: A
UTF-8 tương đương 8 bit hay 1 byte.
Xem thêm các bài tóm tắt lý thuyết Tin học lớp 10 Kết nối tri thức hay, chi tiết khác:
Lý thuyết Tin học 10 Bài 2: Vai trò của thiết bị thông minh và tin học đối với xã hội
Lý thuyết Tin học 10 Bài 3: Một số kiểu dữ liệu và dữ liệu văn bản
Lý thuyết Tin học 10 Bài 4: Hệ nhị phân và dữ liệu số nguyên
Lý thuyết Tin học 10 Bài 5: Dữ liệu lôgic
Lý thuyết Tin học 10 Bài 6: Dữ liệu âm thanh và hình ảnh