Tin học lớp 10 Bài 3: Số hóa văn bản
Phần 1. Lý thuyết Tin học 10 Bài 3: Số hóa văn bản
1. Bảng mã ASCII
– Trong máy tính mỗi kí tự được biểu diễn bằng một dãy bit, dãy bit được gọi là mã nhị phân.
– ASCII là bộ mã chuẩn của Mỹ để trao đổi thông tin. Mã ASCII của một kí tự là dãy 7 bit, có thể biểu diễn 128 kí tự khác nhau và mở rộng mã ASCII bằng cách sử dụng mã nhị phân dài 8 bit, biểu diễn thêm được 128 kí tự nữa.
– Mã nhị phân của những kĩ tự đã có trong bảng mã ASCII được thêm bit 0 vào trước để đủ độ dài 8 bit. Các kĩ tự mới thêm đều có mã nhị phân bắt đầu với bit 1.
2. Bảng mã Unicode
– Bảng mã Unicode được thiết kế để thống nhất chung việc mã hóa các kí tự cho tất cả ngôn ngữ khác nhau trên thế giới.
– Chữ Nôm cổ của nước ra cũng có trong bảng mã, với chức năng như vậy, bảng mã Unicode được sử dụng ngày càng phổ biến.
3. Mã kí tự, bộ kí tự và mã nhị phân
Con đường đi từ kí từ cho đến mã nhị phân chia làm hai bước:
Bước thứ nhất: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất, là một dãy kí số, giống như số căn cước công dân là mã định danh duy nhất của mỗi người.
Bước thứ hai: Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được, gọi là mã hóa. Kết quả bước này là một dãy bit, đây là mã nhị phân của kí tự.
4. Dữ liệu văn bản và số hóa văn bản
– Trong bối cảnh phân biệt các loại dữ liệu trong máy tính thì dữ liệu văn bản được biểu diễn là văn bản chữ, không chứa hình ảnh, âm thanh.
Văn bản thuần chữ
– Văn bản thuần chữ (plain text), gồm các kí tự gõ nhập từ bàn phím khi soạn thảo văn bản, các kí tự xếp liên tiếp từ trái sang phải, từ trên xuống dưới.
– Mỗi kí tự là một dãy bit.
Dữ liệu văn bản
– Dữ liệu văn bản trong máy tính là một dãy bit biểu diễn các kí tự có kiểu dáng, màu sắc và các thông tin định dạng khác.
5. Kí tự tiếng Việt trong dữ liệu văn bản
– Hiện nay tiêu chuẩn Việt Nam đã thống nhất dùng bảng mã kí tự Unicode.
– Bộ gõ tiếng Việt Unikey khá phổ biến, hiện nay có công cụ dễ dàng chuyển đổi các văn bản theo tiêu chuẩn cũ sang dùng mà Unicode để phù hợp với tiêu chuẩn mới.
Hình 1: Công cụ chuyển đổi mã kí tự tiếng Việt trong bộ gõ UniKey
Phần 2. Bài tập trắc nghiệm Tin học 10 Bài 3: Số hóa văn bản
Câu 1. Khẳng định nào sau đây là đúng khi nói về bảng mã ASCII?
A. ASCII là viết tắt của cụm từ American Standard Code for Information Interchange, có nghĩa là chuẩn mã trao đổi thông tin Hoa Kỳ. Đây là bộ mã hóa ký tự cho bảng chữ cái La Tinh và được dùng để hiển thị văn bản trong máy tính.
B. Bảng mã được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới.
C. Là bảng mã dùng để gõ chữ tiếng việt trên máy tính.
D. Là bảng mã mã hóa được 250 kí tự.
Hướng dẫn giải
Đáp án đúng là: A
ASCII là viết tắt của cụm từ American Standard Code for Information Interchange, có nghĩa là chuẩn mã trao đổi thông tin Hoa Kỳ. Đây là bộ mã hóa ký tự cho bảng chữ cái La Tinh và được dùng để hiển thị văn bản trong máy tính.
Câu 2. Khẳng định nào sau đây là đúng khi nói về bảng mã UNICODE?
A. Không gian mã Unicode được chia thành các khối, cứ hai khối mã sẽ được dành riêng cho cho một ngôn ngữ cụ thể.
B. Bảng mã được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới.
C. Là bảng mã mã hóa được 250 kí tự.
D. Là bảng mã không hỗ trợ Tiếng Việt.
Hướng dẫn giải
Đáp án đúng là: B
Bảng mã UNICODE là bảng mã được thiết kế với mục đích thống nhất mã kí tự để máy tính có thể “viết chữ” của rất nhiều ngôn ngữ khác nhau trên thế giới.
Câu 3. Bộ mã ASCII dùng bao nhiêu bit để mã hoá các kí tự:
A. 7
B. 1
C. 2
D. 8
Hướng dẫn giải
Đáp án đúng là: D
Hiện nay, người ta mở rộng bảng mã ASCII bằng cách sử dụng mã nhị phân dài 8 bit.
Câu 4. Trong bảng mã ASCII 1 kí tự được mã hóa bằng bao nhiêu bit?
A. 7
B. 8
C. 16
D. 32
Hướng dẫn giải
Đáp án đúng là: A
Mã ASCII của một kí tự là dãy 7 bit.
Câu 5. Hãy chọn mệnh đề đúng trong các mệnh đề sau:
A. Bộ mã ASCII dùng để mã hoá thông tin dạng hình ảnh.
B. Bộ mã ASCII dùng để mã hoá thông tin dạng văn bản.
C. Bộ mã ASCII dùng để mã hoá thông tin dạng âm thanh.
D. Bộ mã UNICODE có thể mã hoá được 65536 kí tự khác nhau, cho phép thể hiện trong máy tính văn bản của hầu hết các ngôn ngữ trên thế giới.
Hướng dẫn giải
Đáp án đúng là: D
Bộ mã UNICODE có thể mã hoá được 65536 kí tự khkác nhau, cho phép thể hiện trong máy tính văn bản của hầu hết các ngôn ngữ trên thế giới.
Câu 6. Trong các bộ mã dưới đây, bộ mã nào không hỗ trợ Tiếng Việt?
A. ASCII
B. UNICODE
C. TCVN3
D. VNI
Hướng dẫn giải
Đáp án đúng là: A
Có 2 bộ mã chữ Việt chủ yếu biến dựa trên bộ mã ASCII là TCVN3 và VNI thường được sử dụng. Ngoài ra, còn có bộ mã UNICODE, bộ mã này được dùng chung cho mọi quốc gia trên thế giới.
Câu 7. Bộ mã ASCII mở rộng có thể biểu diễn bao nhiêu kí tự khác nhau:
A. 255
B. 256
C. 266
D. 258
Hướng dẫn giải
Đáp án đúng là: B
Bộ mã ASCII mở rộng có thể biểu diễn 256 kí tự khác nhau.
Câu 8. Các kí tự “ â”, á”, “ể”.. có trong bảng mã nào?
A. Bảng mã ASCII.
B. Bảng mã ASCII mở rộng.
C. Bảng mã UNICODE.
D. Không có trong bảng mã nào.
Hướng dẫn giải
Đáp án đúng là: C
Các kí tự “ â”, á”, “ể”.. có trong bảng mã UNICODE.
Câu 9. Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm mấy bước?
A. 1
B. 2
C. 3
D. 4
Hướng dẫn giải
Đáp án đúng là: B
Con đường đi từ các kí tự cho đến mã nhị phân của nó được chia làm 2 bước:
– Bước 1: Cho tương ứng mỗi kí tự với một mã kí tự duy nhất.
– Bước 2: Chuyển từ mã kí tự thành dãy bit để máy tính xử lí được.
Câu 10. Trong các phông chữ dưới đây, phông chữ nào dùng mã Unicode?
A. VNI-Times
B. VnArial
C. VnTime
D. Time New Roman
Hướng dẫn giải
Đáp án đúng là: D
Phông chữ dùng mã Unicode: Time New Roman, Arial, Tahoma…
Câu 11. Trong bảng mã ASCII biểu diễn của kí tự “A” ở hệ nhị phân là:
A. 100 0001
B. 100 0000
C. 000 0001
D. 000 0000
Hướng dẫn giải
Đáp án đúng là: A
Sử dụng bảng mã ASCII để tìm mã nhị phân của kí tự “A”
Câu 12. Trong bảng mã ASCII ở hệ nhị phân biểu diễn 100 0010 là của kí tự:
A. “A”
B. “B”
C. “C”
D. ”D”
Hướng dẫn giải
Đáp án đúng là: B
Sử dụng bảng mã ASCII để tìm kí tự tương ứng với biểu diễn nhị phân 100 0010
Câu 13. Khẳng định nào sau đây là sai:
A. Ba dạng thông tin cơ bản là: Dạng âm thanh, dạng văn bản, dạng hình ảnh.
B. Thông tin trong máy tính được biểu diễn dưới dạng hệ thập phân.
C. Khi thông tin được biểu diễn trong máy tính, người ta gọi là dữ liệu.
D. Để máy tính có thể xử lí, thông tin cần được biểu diễn dưới dạng dãy bit chỉ gồm hai kí hiệu 0 và 1.
Hướng dẫn giải
Đáp án đúng là: B
Thông tin trong máy tính được biểu diễn dưới dạng hệ nhị phân.
Câu 14. Có bao nhiêu dạng thông tin trong máy tính:
A. 1
B. 2
C. 3
D. 4
Hướng dẫn giải
Đáp án đúng là: C
Ba dạng thông tin cơ bản là: Dạng âm thanh, dạng văn bản, dạng hình ảnh .
Câu 15. Font chữ nào sau đây thuộc bảng mã TCVN3:
A. Vn times
B. Tahoma
C. Times New Roman
D. Arial
Hướng dẫn giải
Đáp án đúng là: A
Font chữ thuộc bảng mã TCVN3 bắt đầu bằng Vn
Xem thêm các bài tóm tắt Lý thuyết Tin học lớp 10 Cánh diều hay, chi tiết khác:
Lý thuyết Bài 2: Thực hành về các phép toán bit và hệ nhị phân
Lý thuyết Bài 3: Số hóa văn bản
Lý thuyết Bài 4: Số hóa hình ảnh và số hóa âm thanh
Lý thuyết Bài 1: Tạo văn bản tô màu và ghép ảnh
Lý thuyết Bài 2: Một số kĩ thuật thiết kế sử dụng vùng chọn, đường dẫn và các lớp ảnh
Lý thuyết Bài 3: Tách ảnh và thiết kế đồ họa với kênh alpha