SlideShare ist ein Scribd-Unternehmen logo
1 von 28
ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNH
Phần 1 : Lý thuyết
Câu I : Các đặc trưng cơ bản của âm thanh
1.1 Khái niệm về âm thanh và các tham số đánh giá
Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động
của vật thể và được truyền đi trong một môi trường truyền âm nhất định.
Âm thanh có các tham số đánh giá đặc trưng sau dây:
1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một
đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn
thì âm thanh càng cao và ngược lại. Ðơn vị để đo là Hertz (Hz).
    Tai con ngưừi chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến
khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay
âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những
âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được
các sóng âm này nhưng có khá nhiêu loài vật có thể cảm nhận được (ví dụ loài dơi có thể
nghe được sóng siêu âm).
   Ứng với mỗi tần số dao động f , có chu kỳ dao động T là một bước sóng λ của âm
thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyên của âm thanh trong
không khí = 340m/s). Do dó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến
0.017m.
2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyần lan
đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một
điểm gọi là thanh áp ở điểm dó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động
lên một diện tích 1cm2 mot lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta
thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2.
3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian
một giây. Công suất âm thanh P có thể tính bằng biểu thức:
           P = p.S.v
Trong dó p là thanh áp, v là tôc do dao động của một phân tử không khí tại đó và S là
diện tích. Công suất âm thanh tính theo đơn vị oát (W).
4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị
diện tích là 1cm2.
         I = P/S = p.v
Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suât của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt
là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo nên âm
lượng của âm và trong âm của từ.
6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh
tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên
các nguyên âm đối lập nhau vê độ dài. Hai từ "tang" và "tăng" trong tiêng Viet có sự đối
lập âm a dài (trong "tang") và âm a ngắn (trong "tăng").
7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các
thành phần kết cấu của âm. Ðây là vẻ riêng biet của một âm. Âm sắc được quyết định
bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm
thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ
dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với
từ một ống sáo nhỏ, ngắn; từ việc gẩy se khác với việc gõ, búng, cọ xát hoặc thổi.
       Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau. Các lĩnh vực cụ thể liên quan
đến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếng
nói; tổng hợp tiếng nói; nâng cao chất lượng(enhancement) và hồi phục tiếng nói
(restoration).
      Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin
di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén
cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử
dụng tài nguyên hệ thống có hiệu quả hơn.
    Để có thể xử lý âm thanh thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếng
nói và đặc trưng hệ thống thính giác con người.
1.2. Các đặc điểm của hệ thống thính giác con người
     Cấu trúc tai người:
Hệ thống thính giác của con - Tai người là một cơ quan cực kỳ phức tạp. Hình 1.1 minh
họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai phần, vành tai –
lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâu
vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm thanh từ môi
trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn " trong
hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ (tympanic
membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào màng nhĩ và
làm cho nó rung động.

 Hình 1.1: Sơ đồ chức năng của tai người

Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của màng
nhĩ tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung động
được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ có
chứa dung dịch chât lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu
được minh họa ở dạng duỗi thẳng ở hình 1.1, trên thực tế, tai trong được cuộn lại và trông
giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp
có nghĩa là ốc sên (snail) – hình 1.2.
Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chât lỏng, chỉ có
một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khi
đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở kháng cơ
học thấp (áp suât âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao),
trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính kỹ thuật,
người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí.
Chính sự khác nhau vê trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trr lại
tại giao tiếp không khí/chất lỏng.
Cùng với ốc tai là màng nền, cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giác
quan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve). Màng nền
cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó họat động
như là một bộ phân tích phổ tần số (frequency spectrum analyzer).Khi gặp một tín hiệu
tần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của các
tế bào thần kinh ở gần cửa sổ oval. Tương tự như vậy, các âm tần số thấp kích thích các
tế bào thần kinh ở phía đầu xa của màng nền. Điều này làm cho các sợi riêng biệt trong
thần kinh ốc tai đáp ứng lại với các tần số riêng biệt. Tổ chức tuân theo nguyên lý vị trí
(place principle) và được dành riêng cho các đường dẫn âm tới bộ não.
     Sự cảm thụ của tai người đối với âm thanh:
1. Ngưỡng nghe
Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được đo
bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức
áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện
được. Ngưỡng nghe này được minh họa trong hình 1.3 dưới đây. Ngưỡng này là một hàm
của tần số âm thanh. Lưu ý là trong hình 1.3 này, có các thành phần tần số thấp ở dưới
mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất
trong phạm vi tần số từ 2 – 4KHz.
 Hình 1.3: Ngưỡng nghe

2. Mặt nạ tần số (frequency masking)
Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che
khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này
gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng”
qua các thành phần bên cạnh. Nấu như thành phần tần số bên cạnh bị che phủ bởi “phần
bóng” này thì các thành phần tín hiệu tần số này sã không nghe được. Kêt quả là có một
thành phần – thành phần che khuât làm dịch ngưỡng nghe. Hình 1.4 minh họa hiện tượng
này.
     Hình 1.4: Mặt nạ tần số

3. Mặt nạ thời gian
Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phân bên cạnh trong miền tần
số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che
khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm
lượng có thể bị che khuất. Hình 1.5 minh họa hiện tượng mặt nạ thời gian điển hình. Lưu
ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau.

 Hình 1.5: Mặt nạ thời gian diện tí di diện tích là 1cm2.
I = P/S = p.v
Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suât của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt
là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ện tích
là 1cm2.
         I = P/S = p.v
Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suât của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt
là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ch là
1cm2.
         I = P/S = p.v
Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền
với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn
thì công suất, cường độ và áp suât của âm thanh càng lớn.
5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động
là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn,
âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt
là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo


4. Các dải băng tần tới hạn
Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tới
hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âm
trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là
khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đên 5000Hz.
Do dó, tai hoạt động giống như các bộ lọc thông dưới, mỗi bộ lọc cho phép một dải tần số
nhất định đi qua và khóa tât cả các tần sô khác (hình 1.6).
      Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các
dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người
ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ
biến nhất trong các chuẩn nén âm thanh MPEG.

Câu II: Mô hình chung của hệ thống mã hóa thoại
       Hình 2.1 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại
tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa
thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biên đổi thành tín hiệu
rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá
(nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã
hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh.
       Tại đầu thu, một bộ giải mã kênh sẽ tách và sửa những lỗi trong quá trình truyền
dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống
hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến
theo một vài cách nào dó (nén có tổn thất).
 Hình 2: Sơ đồ khối hệ thống mã hóa thoại
Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứng
dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý Nyquist,
tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránh
méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn cho tiếng nói. Nêu sự dụng từ
mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s.
Như ta đã biết, tín hiệu số ưu diểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫn
và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật điều chế xung
mã được sử dụng rất phổ biến trong mạng thoại truyền thông để biến đổi tín hiệu tương tự
thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi thành một kênh
PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoại
truyền thông đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn.
Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tôc độ của một
cuộc gọi càng thấp thì càng cung câp được thêm các dịch vụ khác - d ữ liệu; hình ảnh;
video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16
Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP
(VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet.
Câu III: Các phương pháp mã hóa thoại (mã hóa dạng sóng, mã hóa tham số,
mã hóa lai).
    1. Mã hóa dạng sóng:
      Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của các
sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại nguồn
tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng nói. Tại
phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá thành tín
hiệu số trước khi phát di. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để khôi
phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi
phục được sẽ rất giống với dạng sóng của tiếng nói gốc.
      Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất
lượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạng
sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỉ số tín hiệu trên nhiễu – SNR
(Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa
dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM.
    Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số. Có rất nhiều kiểu
mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín hiệu thoại đầu vào
trong miền tần số trong khi các phương pháp khác thực hiện việc phân tích trong miền
thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ít
độ dư thừa vốn có trong tiếng nói của con người do dó nó không có nhiều hiệu quả trong
việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế phương pháp này chỉ cho
phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất lượng tốt và có thể chịu
được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng sóng có thể mã hóa cả âm
nhạc và những âm thanh khác không phải là tiếng nói của con người. Phương pháp này
hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng xây dựng lại tín hiệu gần
giống với tín hiệu gốc ban đầu.
Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương đối cao
(trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn giản nhất,
phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa sóng đầu
vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng trong một số
hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức tạp hơn
nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM có thể
tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727).
a. Mã hóa 64 Kbít PCM (ITU G. 711)
Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất. Thoại
băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng tử
hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa cho
một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm
xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính.
Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã hóa cho
một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt được so với
thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại bộ mã hóa
phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thê kỷ 20.
Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị của
mẫu tiếp theo từ những mẫu trước đó. Nêu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa
những mẫu đã dự đoán và những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với
giữa các mẫu thoại nguyên gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai
lệch này với một số lượng bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của
những mô hình điều chế xung mã vi sai – DPCM (Differential Pulse Code Modulation)-
chúng lượng tử hoá sự khác biet giữa những tín hiệu gốc và tín hiệu dự đoán.
Kêt quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ lượng
tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại được mã
hoá. Điều này dẫn tới kỹ thuật điêu chế xung mã vi sai thích ứng – ADPCM (Adaptive
Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã chuẩn hoá
bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương đương với
phương pháp điêu chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt động ở các
tôc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải mã ADPCM
được minh họa ở hình 3.1 dưới đây.


Hình 3.1: Bộ mã hóa và giải mã ADPCM
b. Mã hóa ADPCM (ITUG.721, G.726, G.727)
Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay vì
lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử hóa sự
khác nhau giữa tín hiệu thoại và tín hiệu dự doán.
Nêu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán sẽ nhỏ
hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được lượng
tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu thoại gốc.
Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu dự
đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện
thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ
lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá.

2. Mã hóa tham số
Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps. Để tiếp
tục giảm tốc độ bit, cân phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có khái
niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình.
Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra như
thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham sô của mô hình
và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hieu thoại còn được gọi là
Vocoder (Voice + Coder).
Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, trong khi nó
lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ
có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với tôc độ bit thấp
(xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn dễ hiểu nhưng
chúng lại khác khá nhiêu so với giọng nói tự nhiên của con người.
    a. Mô hình LPC
  Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây:

Hình 3.2: Mô hình toán học của LPC

Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các
xung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biên
đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đọan thoại
vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh.
Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âm
vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh.
Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (nonstationary)
của tín hiệu thoại.
Hàm truyên đạt của bộ lọc được xác định theo biểu thức
Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình vi phân
tuyến tính:




Mô hình LPC có thể được biểu diễn lại dưới dạng vector như sau:



A thay đổi theo chu kỳ 20 ms, tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương đương với
160 mẫu. Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20 ms hay có
50 khung/sec. Mô hình A theo bieu thức trên tương đương với



    b. LPC Vocoder 2,4Kbps
      LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 3.3 dưới
đây. Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo ra
thoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại con
người. LPC Vocoder chủ yếu được áp dụng trong lĩnh vực quân sự, ở đó các âm thanh tự
nhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điênn
thoại an toàn.
Hình 3.3: Sơ đồ khối chức năng LPC Vocoder 2,4Kbps
3. Mã hóa lai
      Mã hóa lai cố gắng lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóa
nguồn. Mã hóa dạng sóng như được mô tả ở trên là có khả năng cung cấp được thoại với
chất lượng khá tốt với tốc độ bít xuống đến 16Kbps nhưng bị giới hạn về sử dụng tới tốc
độ thấp hơn. Bộ mã nguồn có thể hoạt động ở tốc độ khoảng 2,4 Kbps và thấp hơn,
nhưng không thể tạo ra âm thanh trung thực ở bất kỳ tốc độ nào.
    Mặc dù có nhiều dạng mã hóa lai, nhưng thành công và thường được sử dụng nhiều
nhất là các bộ mã hóa trong miền thời gian “thực hiện các phép phân tích thông qua việc
tổng hợp” - AbS (Analysic - by - Synthesis). Những bộ mã hóa này sử dụng mô hình bộ
lọc dự đoán tuyến tính cho cơ quan phát âm như trong các bộ mã thoại LPC. Tuy nhiên,
để thay thế cho việc ứng dụng mô hình ở trạng thái đơn giản – hữu thanh/vô thanh, mô
hình này cô gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào và dạng sóng tín
hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích thích lý tưởng.
     Các bộ mã hóa AbS lần đầu tiên được giới thiệu bởi Atal và Remde và mô hình đầy
đủ của hệ thống mã hóa và giải mã AbS được miêu tả ở trong hình 3.4 dưới đây:

Hình 3.4: Cấu trúc bộ mã hóa và giải mã lai AbS
Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn có
độ dài 20 ms. Các tham số của một khung sẽ xác định một bộ lọc tổng hợp tương ứng với
khung đó và tín hiệu kích thích tương ứng cho mỗi bộ lọc này sẽ được xác định thông
qua một vòng lặp. Tín hiệu kích thích phải đảm bảo rằng sai lệch giữa tín hiệu đầu vào và
tín hiệu được tái tạo lại là nhỏ nhất. Cuối cùng bộ mã hóa sẽ truyền đi những thông tin
liên quan đến các bộ lọc bao gồm các tham số và tín hiệu kích thích tương ứng với mỗi
bộ lọc gửi cho bộ giải mã. Ở bộ giải mã, tín hiệu kích thích sẽ được đưa qua bộ lọc tổng
hợp để xây dựng lại tín hiệu thoại ban đầu. Bộ lọc tổng hợp thường là một bộ lọc tuyến
tính, ngắn hạn nhưng nó cũng có thể bao gồm một bộ lọc độ cao âm thanh (pitch filter)
liên quan đến mô hình tuần hoàn dài hạn của tín hiệu thoại. Phương pháp này cung cấp
tín hiệu thoại có chất lượng cao tại tốc độ bit thấp. Tuy nhiên độ phức tạp của phương
pháp này là khá lớn bởi vì tất cả các tín hiệu kích thích có thể có đều phải được đưa qua
bộ lọc tổng hợp để tìm ra tín hiệu kích thích thích hợp nhất.
Câu IV : Mã hóa âm thanh (ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian, các
dải băng tần tới hạn, perceptual coding…) (đã làm ở câu I)
      Tín hiệu âm thanh có thể được số hóa bởi một thiết bị ADC (Bộ chuyển đổi tương
tự/số). ADC nhận tín hiệu đầu vào là điện áp của tín hiệu và đầu ra là các số nhị phân.
Xem một ví dụ về một tín hiệu âm thanh ở dạng sóng hình sin (Hình 4.1a). Để biểu diễn
tín hiệu này ở dạng số, trước tiên chúng ta lấy mẫu tín hiệu này theo chu ky T (Hình.
4.1b). Nếu 1 tín hiệu âm thanh không phải là một sóng sin chuẩn mà là một sóng sin tổ
hợp tuyến tính của nhiều sóng sin khác, và có tần số lớn nhất là f, thì theo định lý
Nyquist, tần số lấy mẫu là 2f.


    Hình 4.1: (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa
       Nén âm thanh có thể được thực hiện theo một trong hai cách. Cách thứ nhất là mã
hóa dạng sóng, các tín hiệu được biến đổi toán học bằng phép biến đổi Fourier thành các
thành phần tần số. Các biến độ của mỗi thành phần sau đó được mã hóa. Mục tiêu là để
tái tạo lại dạng sóng một cách chính xác với số lượng bit mã hóa thấp nhất có thể.
Cách thứ hai là mã hóa dựa trên cảm nhận của các giác quan của con người. Ở đây, người
ta khai thác một số điểm yếu trong hệ thông thính giác của con người để mã hoá một tín
hiệu, đó là mã hóa dựa trên khoa học tâm sinh lý nghe (Psychoacoustics) – cách thức con
người cảm nhận âm thanh. Chuẩn nén MP3 dựa trên mã hóa cảm nhận này (perceptual
coding).
      Đặc tính chính của mã hóa cảm nhận là một số âm thanh có thể che các âm thanh
khác. Hãy tưởng tượng bạn thổi sáo trong một ngày mùa hè ấm áp. Sau đó, đột ngột có
một nhóm thợ gần đó bật búa khoan và bắt đầu phá mặt đường. Khi đó không ai có thể
nghe được sáo nữa. Âm thanh của tiếng sáo đã bị che bởi âm thanh của tiếng búa. Do vậy
để mã hoá chỉ cần tần số bằng tần sô của búa bởi vì không thể nghe được tiếng sáo. Đây
gọi là che tần số (frequency masking) – khả năng một âm thanh lớn trong một băng tần
số sẽ che những âm thanh có tần số thấp hơn và do vậy chỉ có thể nghe những âm thanh
có tần số lớn. Trong thực tế, ngay cả sau khi âm thanh của tiếng búa ngừng, cũng không
thể nghe thấy các âm thanh của tiếng sáo trong một khoảng thời gian ngắn. Hiện tượng
này được gọi là che thời gian (temporal masking).
So sánh giữa nén thoại và nén âm thanh được mô tả vắn tắt ở bảng dưới đây




Câu V: Các khái niệm cơ bản về âm thanh, xử lý ảnh, video
    Đứng trên góc độ cảm nhận của thị giác, ảnh là một sự       vật đại diện cho người,
sinh vật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biết thông
qua hệ thống thị giác hai chiều. Ảnh động (video) như đã thấy trên truyền hình, phim ảnh
là tập hợp của nhiều ảnh liên tiếp. Khi một ảnh được số hoá thì nó trở thành ảnh số và
ảnh số này lại là tập hợp của các phân tử ảnh nhỏ được gọi là điểm ảnh “pixel”. Mỗi điểm
ảnh lại được biểu diễn dưới dạng một số hữu hạn các bit. Ta có thể chia thành 3 loại ảnh
khác nhau:
    • Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bởi 1 bit, các ảnh này đôi khi còn
       được gọi là Bi-level hoac Bi-tonal images.
    • Ảnh Gray-scale: mỗi điểm ảnh được biểu diễn bằng các mức chói khác nhau,
       thường thì được biểu diễn bằng 256 mức chói hay 8 bit cho mỗi điểm ảnh.
    • Ảnh màu: mỗi điểm ảnh màu được chia ra gồm 1 tín hiệu chói và các tín hiệu màu.
Lĩnh vực xử lý ảnh đề cập đến việc xử lý ảnh bằng máy tính số. Trong thực tế, người ta
phân chia thành ba loại xử lý của máy tính trong quá trình liên tục từ: mức thấp, mức
trung, đến mức cao.
- Quá trình xử lý mức thấp liên quan đến những hoạt động như là tiền xử lý ảnh để giảm
nhiễu, tăng độ sáng. Một quá trình xử lý thấp có đặc điểm là có đầu vào và đầu ra của nó
đều là hình ảnh.
- Xử lý ảnh mức trung liên quan đến công việc như phân đọan ảnh (segmentation), mô
tả những đối tượng và đưa chúng vào một mẫu thích hợp cho các máy tính xử lý, và phân
loại từng đối tượng. Mức trung có đặc điểm đâu vào của nó thường là hình ảnh, nhưng
kêt quả đâu ra của nó là thuộc tính trích ra từ những hình ảnh (ví dụ như các cạnh, đường
viền của ảnh, và nhận dạng của các đối tượng cá nhân).
- Xử lý ảnh mức cao liên quan đến việc "tạo cảm nhận" của một tập các đối tượng nhận
dạng, như trong phân tích ảnh, và xa hơn là quá trình thực hiện các chức năng nhận dạng
thông thường gần với hệ thống thị giác của con người.

Câu VI: Các bước xử lý ảnh số
Các bước xử lý ảnh số được mô tả ở hình vẽ 6.1 dưới đây.
Hình 6.1: Các bước xử lý ảnh số

Các giai đọan chính trong xử lý ảnh:
1. Thu nhận hình ảnh: Đây là giai đọan đầu tiên và quan trọng nhất trong toàn bộ quá
trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai
đọan sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽ
bị giảm. Thiêt bị thu nhận có thể là các ống ghi hình chân không (vidicon, plumbicon...)
hoac CCD (Charge-Coupled Device).
2. Tiền xử lý ảnh: Giai đọan xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để
trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi
đường biên, khử nhiễu …
3. Phân đọan: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là
một trong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nêu thực hiện tách
quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức tạp, còn
ngược lại nếu quá trình phân đọan được thực hiện quá thô hoặc phân đọan sai thì kết quả
nhận được cuôi cùng sẽ không chính xác.
4. Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đọan hình ảnh. Các vật thể
sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh to nên ranh giới một
vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua
ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài
của chi tiêt ảnh như độ cong, các góc cạnh… Biểu diễn vùng thường được sử dụng khi
chúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường vân (texture) hay hình
dạng (skeletal).
5. Nén ảnh: bao gôm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiêt để lưu trữ
hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số.
6. Nhận dạng: là quá trình phân lọai vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó
(ví dụ các phương tiện giao thông có trong ảnh).
Câu VII: Các thành phần của hệ thống xử lý ảnh số
Thiết bị thu nhận hình ảnh: là thiêt bị biến đổii quang-điên, cho phép biến đổi hình ảnh
quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng só. Có nhiều
dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai lọai thiết
bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và CCD.
Bo nhớ trong và ngoài: các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để
lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước
1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu mot ảnh
màu không nén, dung lượng bố nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý
ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý.
Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngoài có tốc
Độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có
thể là ổ cứng, thẻ nhớ flash... 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường
có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần
(ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ra
trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như
giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc
biệt bằng công nghệ nung nóng …
Câu trúc của một hệ thống xử lý ảnh số được mô tả ở hình vẽ 7.1 dưới đây.
Hình 7.1: Các thành phần chính của hệ thống xử lý ảnh số
Bộ xử lý ảnh chuyên dụng: Sử dụng chip xử lý ảnh chuyên dụng, có khả năng th ực
hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý
ảnh như lọc, làm nổi đường bao, nén và giải nén video số…Trong bộ xử lý ảnh thường
tích hợp bộ nhớ đệm có tốc độ cao.
Màn hình hiển thị: Hệ thống biên đổi điện - quang hay đèn hình (đen trắng cũng như
màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành
hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT
(Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình
CRT thường có khả năng hiện thị màu sắc tốt hơn màn hình LCD nên được dùng phổ
biến trong các hệ thống xử lý ảnh chuyên nghiệp.
Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất
cả các bộ phận chức năng trong hệ thống xử lý ảnh số.

Câu VIII: Lấy mẫu và lượng tử hóa tín hiệu ảnh, video
       1. Lấy mẫu và lượng tử hóa tín hiệu ảnh
     Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 8.1. Tín hiệu ảnh
ứng với một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ biến
đổi liên tục (hình 8.1b). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều
đọan bằng nhau. Giá trị tín hiệu tới các điểm lấy mẵu được đánh dấu ô vuông trên đồ thị.
Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn
nhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rải rác nhận được hoàn toàn xác
định tín hiệu đó.
     Để biến đổi tiếp tín hieu thành dạng số, chúng ta phải thực hiện giai đọan lượng tử
hóa các mẫu vừa nhận được. Đây là quá trình rời rạc tín hiệu theo biên độ. Trên hình 8.1d
thang xám được chia thành 8 mức rời rạc từ mức trắng tới mức đen. Lượng tử hóa được
thực hiện đơn giản bằng cách tìm giá trị mức lượng tử gần giống nhất với giá trị th ực của
mẫu và gán giá trị này cho mẫu ảnh.
Kết quả nhận được sau khi lấy mẫu và lượng tử hóa là chuỗi số rời rạc mô tả biến đổi
độ chói trong một dòng ảnh. Nêu thực hiện quá trình số hóa cho tât cả các dòng ảnh từ
trên xuống dưới, chúng ta sẽ nhận được ảnh số trong không gian hai chiều.

Hình 8.1: Quá trình số hóa tín hiệu ảnh
       2. Lấy mẫu và lượng tử hóa tín hiệu Video
      Trong những năm gần đây công nghệ phần cứng và những hoạt động chuẩn hóa đã
phát triển tới mức có tính khả thi trong việc truyền tải, lưu trữ, xử lý, và xem những tín
hiệu video được lưu ở dạng số, và trong việc chia sẻ tín hiệu video giữa các ứng dụng
khác nhau. Đó là sự phát triển tự nhiên vì thay đổi tạm thời thường có liên quan đến
chuyển động của vài kiểu là thuộc tính quan trọng nhất của một tín hiệu trực quan.
    Theo lý thuyết, một tín hiệu video tương tự I(x, y, t) trong đó (x, y) là tọa độ không
gian liên tục và t là thời gian liên tục thì liên tục trong cả hai chiều thời gian và không
gian, vì thông lượng bức xạ vốn có ở độ cảm biến video là liên tục ở mức quan sát bình
thường.
   Video số là hiển thị của một hiện tượng tự nhiên trự c quan (thế giới thực), được lấy
mẫu theo không gian và thời gian. Một hiện tượng được lấy mẫu ở một điểm thời gian
để tạo ra khung (là hiển thị của hiện tượng trực quan một cách đầy đủ tại thời điểm đó)
hoặc một trường (bao gồm các dãy các mẫu về không gian được đánh số chẵn lẻ). Lấy
mẫu được lặp lại theo chu kì (ví dụ, chu kì 1/25 hoặc 1/30 giây) để tạo ra tín hiệu video
động. Có 3 bộ mẫu (các thành phần) được yêu câu chủ yếu để hiển thị một hiện tượng
theo màu sắc. Như vậy mỗi một mẫu không gian – thời gian (yêu tô hình ảnh hay pixel)
được hiển thị như là một số hay một bộ các số mô tả độ chói và màu sắc của mẫu.

Hình 8.2: Lấy mẫu theo không gian và thời gian của một chuỗi video
Lấy mẫu không gian
       Đâu ra của một mảng CCD là một tín hiệu tương tự, một tín hiệu điện biến đổi
hiển thị hình ảnh video. Lấy mẫu tín hiệu tại một thời điểm tạo ra một hình ảnh hay
khung hình được lấy mẫu xác định giá trị trong tập các điểm lấy mẫu. Định dạng phổ
biến nhất cho một ảnh lấy mẫu là một hình chữ nhật với điểm lấy mẫu nằm trên một hình
vuông hay lưới chữ nhật. Việc lấy mẫu xảy ra tại một trong các điểm giao nhau trên
lưới và hình ảnh được lấy mẫu có thể được tái tạo lại bởi việc hiển thị từng mẫu như là
một yếu tố hình ảnh vuông (pixel).
Lấy mẫu thời gian
       Một hình ảnh video chuyển động được chụp bởi việc chụp theo điểm chữ nhật của
tín hiệu theo các chu kì thời gian. Chiếu lại một loạt các khung tạo ra sự chuyển động.
Tốc độ lấy mẫu cao hơn (tốc độ khung) cho ta sự chuyển động mượt mà hơn trong cảnh
video nhưng yêu cầu nhiều mẫu được chụp và lưu nhiều hơn. Tốc độ khung dưới 10
khung trên giây thường được sử dụng cho thông tin video tốc độ bit thấp (vì số lượng
thông tin tương đối nhỏ) nhưng sự chuyển động thì khá giật và không tự nhiên ở tốc độ
này. Từ 10 đến 20 khung trên giây thì thông dụng hơn cho thông tin video tốc độ bit thấp;
hình ảnh trơn tru hơn nhưng chuyển động bị giật có thể xảy ra trong các phần hình ảnh
chuyển động nhanh. Lấy mẫu ở 25 đến 30 hình trên giây là chuẩn cho hình ảnh truyền
hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60
khung trên giây sự chuyển động mượt mà (tuy nhiên chi phí cao cho tôc độ rất cao này)

Câu IX: Tổng quan về nén ảnh
        Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu câu để tái hiện lại
một ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toán
học, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quan
về mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyền
hình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạ o lại hình ảnh
gốc hoặc gần đúng của nó.
        Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đa
phương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏ
hơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nén
ảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên mà
có trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết được
phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượng
bit ít hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽ
tổ chức, sắp xếp lại được bức ảnh, xâp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoả
mãn chất lượng yêu cầu, đảm bảo được thông tin cần thiết.
        1. Nguyên tắc cơ bản
         Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giảm lượng số liệu dư thừa số liệu
cần thiết để biểu diễn cùng một lượng thông tin cho trước. Độ dư thừa số liệu là vấn đề
trung tâm trong nén ảnh số. Đánh giá cho quá trình thực hiện giải thuật nén là tỉ lệ nén
(CN ) được xác định như sau: Nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng
được dùng để biểu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối R D của
tập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau:
RD = 1 – 1/ CN
trong đó:
C N = N1 / N2

       Trong trường hợp N1 = N2 thì CN = 1 và có nghĩa là so với tập số liệu thứ hai thì tập
số liệu thứ nhất không chứa số liệu dư thừa. Khi N 2 << N1 thì CN tiến tới vô cùng và R D
tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn
hay tập số liệu thứ hai đã được nén khá nhỏ.
      Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ làm
giảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi tùy
theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đề
nghị tính số bit cho một điểm trong ảnh nén (N b). Nó được xác định là tổng sô bit ở ảnh
nén chia cho tổng số điểm:
Nb = Số bit nén/Số điểm
Trong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạ ng và phân biệt.
        • Dư thừa mã (Coding Redundancy)
        Nêu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết
(tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thường
Sử dụng các mã VLC như mã Huffman, mã RLC v.v... Lượng thông tin vê hình ảnh có
xác suất thấp hơn.
        • Dư thừa trong pixel (Interpixel Redundancy)
       Vì giá trị của bất kỳ một pixel nào đó, cũng có thể được dự báo từ giá trị của các
lân cận của nó, nên thông tin từ các pixels riêng là tương đối nhỏ. Sự tham gia của một
pixel riêng vào một ảnh là dư thừa. Để giảm độ dư thừa trong pixel của một ảnh, dãy
pixel hai chiều dùng cho việc nhìn và nội suy, phải được biến đổi thành một dạng có hiệu
quả hơn. Trong các phương pháp nén ảnh được trình bày, ta dùng phép biến đổi cosin rời
rạc (DCT) biến đổi pixel từ miền không gian sang miền tần số, bằng cách này se giảm
được độ dư thừa số liệu trong pixel ở miền tần số cao.
        • Dư thừa tâm sinh lý
        Bằng trực quan ta thấy, sự thu nhận cường độ sáng thay đổi chỉ giới hạn trong một
phạm vi nhất định. Hiện tượng này xuât phát từ sự thật là mắt không đáp ứng với cùng độ
nhạy của tất cả các thông tin nhìn thấy. Thông tin đơn giản có tầm quan trọng ít hơn
thông tin khác trong vùng nhìn thấy. Thông tin này được gọi là độ dư thừa tâm lý nhìn.
Nó có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh. Khác
Với độ dư thừa mã và dư thừa trong pixel, độ dư thừa tâm sinh lý có liên quan đến thông
tin theo định lượng, nó có quan hệ tới việc lượng tử hóa. Điều đó có nghĩa là ánh xạ một
khoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đầu ra. Đó là toán tử không
đảo ngược (mất thông tin) cho kêt quả nén số liệu có tổn hao.
        2. Mô hình nén
Một hệ thống nén video tiêu biểu (hay bộ mã hoá nguồn) bao gồm: bộ chuyển đổi,
Bộ lượng tử hoá, bộ mã hoá (hình 9.1).
Hình 9.1: Sơ đồ khối hệ thống nén ảnh tiêu biểu
- Bộ chuyển đổi: thường dùng phép biến đổi Cosin rời rạc để tập trung năng lượng tín
hiệu vào một số lượng nhỏ các hệ số khai triển để thực hiện phép nén hiệu quả hơn là
dùng tín hiệu nguyên thủy.
- Bộ lượng tử hoá: tạo ra một lượng kí hiệu giới hạn cho ảnh nén với hai kỹ thuật: lượng
tử vô hướng (thực hiện lượng tử hoá cho từng phần dữ liệu) và lượng tử vectơ (thực hiện
lượng tử hoá một lần một khối dữ liệu). Quá trình này không thuận nghịch.
- Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi kí hiệu.
Các hệ thống nén được phân biệt dựa trên sự kết hợp khác nhau giữa 3 bộ xử lý trên và
được phân loại như sau:
- Hệ thống nén không mất thông tin (lossless data reduction): thực hiện tối thiểu tốc độ
bit mà không làm méo ảnh, hệ thống còn gọi là nén toàn bit hay có tính chất thuận
nghịch.
- Hệ thống nén có mất thông tin (loss data reduction): đạt được do trung thực tốt nhất đối
với tốc độ bit cho trước, hệ thống phù hợp áp dụng cho tín hiệu âm thanh và hình ảnh vì
có hệ số nén cao.
Trong sơ đồ hình 9.1, tầng chuyển đổi và tầng mã hoá là nơi tín hiệu xử lý không bị tổn
thất, tầng lượng tử là có tổn thất. Ngoài ra, dựa trên quan điểm về tổn thất chúng ta có thể
phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã hoá
nguồn (mã hoá có tổn thất).

Câu X: Phân loại các phương pháp nén ảnh
Có nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào nguyên
lý nén. Cách này phân các phương pháp nén thành hai loại chính:
• Nén không mất thông tin: bao gôm các phương pháp nén mà sau khi giải nén ta thu
được chính xác dữ liệu gốc.
• Nén có mất thông tin: bao gồm các phương pháp mà sau khi giải nén ta không thu được
dữ liệu như bản gốc, trong nén ảnh, người ta gọi là các phương pháp “tâm lý thị giác”.
Các phương pháp này lợi dụng tính chât của mắt người, chấp nhận một số sai số trong
ảnh khi khôi phục lại. Tất nhiên, các phương pháp này chỉ có hiệu quả khi mà độ sai lệch
là chấp nhận được bằng mắt thường hay với dung sai nào đó.
Cách phân lo i thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta cũng
phân thành hai phương pháp:
• P2 không gian: thực hiện nén bằng cách tác động trực tiếp lên việc lấy mẫu của ảnh gốc.
• Phương pháp sử dụng biến đổi (Transform Coding): tác động lên sự biến đổi của ảnh
gốc mà không tác động trực tiếp.
Quá trình nén và giải nén có thể được mô tả tóm tắt theo hình vẽ dưới đây:
Hình 10: Quá trình nén

Câu XI: Các ppháp mã hóa dùng trong kỹ thuật nén ảnh không tổn thất
      Trong một vài ứng dụng nén không tổn thất nghĩa là chỉ có thể chấp nhận được sự
giảm bớt dữ liệu. Trong một vài trườg hợp khác, nhu cầu việc nén không tổn thất được
thúc đẩy bởi việc xem xét hoàn cảnh sử dụng hoặc tính tự nhiên của ảnh sau khi nén.
Chúng ta sẽ tập trung vào những kế hoạch của việc nén không tổn thất hiện thời đang
được sử dụng. Thông thường chúng cung cấp hệ số nén từ 2-10. Hơn nữa, chúng cũng
thích hợp với cả ảnh nhị phân và mức độ xám. Kỹ thuật nén error-free thường bao gồm 2
thao tác tương đối độc lập: (1) việc sắp xếp một biểu diễn ảnh thay thế ảnh cũ trong đó sử
dư thừa interpixel của nó được giảm bớt và (2) mã hoá lại biểu diễn ảnh đó để loại trừ tối
đa sự dư thừa. Những bước này tương ứng với việc ánh xạ và mã hoá ký tự của kiểu mã
hoá nguồn.
      1. Mã hoá với độ dài từ mã thay đổi:
       Để đạt được tốc độ bít thấp hơn, các hệ số biến đổi và các tọa độ của các véc tơ
chuyển động được mã với độ dài thay đổi (VLC). Trong VLC, các từ mã ngắn được gán
tương ứng các giá trị xác suất cao và các từ mã dài ứng với các giá trị xác suất thấp. Độ
dài của các mã nên biên đổi nghịch đảo với xác suất xuất hiện của các kí hiệu trong VLC.
      Tốc độ bít cần để mã hóa các kí hiệu này là nghịch đảo của logarit của xác suất, tức
là log2p. Do dó, entropy của các kí hiệu là sô bít trung bình tối thiểu cần để biểu diễn các
kí hiệu:
Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman và
mã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC)
chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng như
giải mã các vec tơ chuyển động.
       2. Mã hoá dự đoán không tổn hao:
     Bây giờ chúng ta quay lại với một phương pháp nén mà nó không yêu cầu việc phân
tích một ảnh thành một loạt các mặt phẳng bit. Với cách này quy chung lại là mã hoá dự
đoán không tổn hao, được dựa trên cơ sở sự rút gọn đa điểm dư thừa của các điểm trong
không gian gần nhau bằng cách rút ra và mã hoá chỉ với các thông tin mới trong mỗi
điểm ảnh. Thông tin mới của một điểm ảnh mô tả sự khác nhau giữa các giá trị dự đoán
và thực tế của điểm ảnh đó.
    Hình 1 chỉ ra các thành phàn cơ bản của một hệ thống mã hoá dự đoán không tổn hao.
Hệ thống này bao gồm một bộ mã hoá và một bộ giải mã, mỗi khối chứa một bộ dự đoán
đồng nhất. Với mỗi điểm ảnh lần lượt của ảnh đầu vào, biểu thị bằng f n , được đưa vào
trước tiên trong bộ mã hoá, bộ dự đoán t ạo ra một giá trị dự đoán tước của điểm ảnh trên
cơ sở số các đầu vào cũ.
    Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu thị
bởi fn, và được sử dụng để tạo ra sự khác biệt hoặc lỗi dự đoán.



Hình 11: Mã hoá dự đoán không tổn hao: (a) Bộ mã hoá (b) Bộ giải mã
      Sự khác biệt được mã hoá sử dụng mã hoá loạt dài thay đổi (bằng bộ mã hoá biểu
tượng) để tạo ra thành phần tiếp theo của dòng dữ liệu đã nén. Bộ giải mã trong hình 1
(b) tái tạo từ các từ mã loạt dài thay đổi nhận được và thực hiện quá trình đảo:




Câu XI: Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn thất
     Không như phương pháp nén không tổn thất được đưa ra ở phân trước, nén tổn thất
được xây dựng trên cơ sở độ chính xác của việc khôi phục lạ i ảnh trong lúc trao đổi
nhằm tăng hiệu quả nén. Nếu kết quả không chính xác (có thể được hiển thị rõ ràng hoặc
không) có thể chấp nhận được, sự tăng dần trong việc nén là đáng kể.
      1. Mã hoá dự, đoán có tổn thất
           Như hình 1 chỉ ra, bộ lượng tử, bộ thu toàn bộ chức năng của bộ mã hoá lỗi tự
      nhiên, được chèn vào giữa bộ mã hoá biểu tượng và điểm mà lỗi dự đoán được tạo
      ra. Nó ánh xạ lỗi dự đoán tại khoảng giới hạn đầu ra, biểu thị là e n, điều thiết lập
      sự liên đới giữa nén và
      kết hợp méo với mã hoá dự đoán tổn hao.
      Mã hóa DPCM (Differential Pulse Code Modulation)
           Đây là phương pháp mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát hiện
      sự giống nhau và khác nhau giữa các điểm ảnh (pixels) gần nhau để tìm cách loại
bỏ các thông tin thừa. Phương pháp DPCM còn sử dụng đặc điểm của mắt người
      (kém nhạy với mức lượng tử có chênh lệch về độ chói giữa điểm ảnh gần nhau, so
      với mức lượng tử hóa chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về
      lượng tử hóa. Hình vẽ 2 mô tả sơ đồ khối của bộ mã hóa và giải mã DPCM


Hình 11.1: Mô hình mã hóa dự đoán có tổn thất (a): bộ mã hoá, (b): bộ giải mã


       2. Mã hoá biến đổi (transform coding)
      Trong mã hoá biến đổi, một dòng đảoo ngược chuyển đổi (như biến đổi Fourier)
được sử dụng để ánh xạ một ảnh vào một hệ số biến đổi, phân mà sau đó sẽ được lượng
tử hoá và mã hoá. Cho hầu hết các ảnh tự nhiên, một số lớn đáng kể các hệ số cường độ
nhỏ và được lượng tử thô (hoặc loại bỏ hoàn toàn) với ảnh méo nhỏ. Sự đa dạng trong
biến đổi, bao gồm biến đổi rời rạc Fourier (DFT) có thể được sử dụng để biến đổi dữ liệu
ảnh.
    Hình 3 chỉ ra hệ thống mã hoá chuyển đổi đặc trưng. Bộ giải mã thi hành bước đảo
chuỗi (với sự loại bỏ thuật toán lượng tử) của bộ giải mã, bộ này thực hiện bốn hoạt động
cân xứng đơn giản: Phân tích ảnh nhỏ, biến đổi, lượng tử hoá và mã hóa.
Một ảnh đầu vào kích cỡ N×N đầu tiên được chia nhỏ ra thành các ảnh nhỏ cỡ n× n, sau
đó được chuyển đổi để tạo ra mạng chuyển đổi ảnh nhỏ, mỗi phần có kích cỡ n× n. Mục
đích của quá trình chuyển đổi là để sắp đặt mối tương quan của các điểm ảnh của mỗi ảnh
nhỏ, hoặc để gói nhiều thông tin nhất có thể vào một số nhỏ nhất hệ số chuyển đổi. Cuối
quá trình mã hoá là việc mã hoá (thường sử dụng mã hoá loạt dài) các hệ số lượng tử. Bất
kỳ hay toàn bộ các bước mã hoá chuyển đổi có thể thích ứng với nội dung vùng ảnh gọi
là mã hoá chuyển đổi thích ứng hoặc sửa đổi toàn bộ ảnh nhỏ gọi là mã hoá chuyển đổi
không thích ứng.

Hình 11.2: Hệ thống mã hóa biến đổi
   3.Mã hoá Wavelet
           Mã hóa Wavelet dựa trên ý tưởng của mã hóa biến đổi, thay vì nén trực tiếp các
điểm ảnh (pixel) thì nén các hệ số sau khi biến đổi. Điểm khác nhau cơ bản là Wavelet
không chia ra các ảnh con trước khi biến đổi. Wavelet là phép biến đổi được sử dụng để
phân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tần
số thay đổi theo thời gian. Để khắc phục những hạn chế của biến đổi Fourier (FT), phép
biến đổi Fourier thời gian ngắn (STFT) được đề xuất. Chỉ có một khác biệt nhỏ giữa
STFT và FT là trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ và trong
khoảng đó tín hiệu được giả định là tín hiệu ổn định. Để thực hiện kỹ thuật này cần chọn
một hàm cửa sổ w sao cho độ dài của cửa sổ đúng bằng các khoảng tín hiệu phân chia.
Với phép biến đổi STFT, chúng ta có thể thu được đáp ứng tần số - thời gian của tín hiệu
đồng thời mà với phép biến đổi FT ta không thực hiện được.
     Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau:
X ( f , t ) =∫ [x (t )w (t –τ)] . e-2jᴨf dt
Trong dó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí của
cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác nhau của đọan
tín hiệu ta thay đổi giá trị τ.
      Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giải
quyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vãn còn hạn
chế. Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet
(tương tự như nhân với hàm của số trong biến đổi STFT), rồi thực hiện biến đổi riêng rẽ
cho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau. Cách
tiếp cận như vậy còn được gọi là: phân tích đ phân giải MRA (Multi Resolution
Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau.
MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số kém ở
các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp.
Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuất
hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thời
gian dài chẳng hạn như ảnh và khung ảnh video.
Hình 3 minh hoạ một hệ thống mã hoá Wavelet

Câu 12: Nén trong ảnh
1. Nguyên lý
      Nén trong ảnh nhằm giảm bớt thông tin dư thừa trong miên không gian. Sử dụng cả
hai quá trình nén có tổn hao và nén không tổn hao. Không sử dụng thông tin của các ảnh
trước và sau ảnh đang xét.
Hình 12.1: Nén trong ảnh (Intra Frame Compression)
2. Tiền xử lý
       Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khôi lớn riêng biệt
không chồng lên nhau (MB – Macro Block). Mỗi MB bao gôm 4 block các mẫu tín hiệu
chói UY và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB). Số các block của tín
hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video. Các block có cùng kích thước, mỗi
block là một ma trận điểm ảnh 8x8 được lấy mẫu từ màn hình từ trái sang phải, từ trên
xuống dưới.
      Câu trúc MB phụ thuộc vào loại quét ảnh. Nếu quét liên tục thì các block bao gồm
các mẫu từ các dòng liên tục (nén theo ảnh – frame). Ngược lại trong trường hợp quét
xen kẽ, trong 1 block chỉ có các mẫu của một nửa ảnh trên (nén theo mành – field).
3.Quá trình biến đổi Cosin rời rạc
     Biến đổi Cosin rời rạc (DCT) xử lý các giá trị của khối các diểm ảnh dưới một khối
các hệ số trong miền tần số.
     Quá trình mã hoá DCT một chiều gồm 8 điểm ảnh biểu diễn tín hiệu chói trong tiêu
chuẩn lấy mẫu 4:2:2. Sự thay đổi đố dọc theo 8 bit trong phạm vi dải tần số từ 0 đến
f/2=6.75 MHz. Mã hoá DCT chia phổ này thành 8 dải băng nhỏ hơn. Tương ứng với mọi
giải băng tần có một số đặc trưng cho năng lựơng tín hiệu trong dải băng tần đó.
     Giá trị đầu tiên bên trái đặc trưng cho mức giá trị thành phần một chiều của tín hiệu
gọi là hệ số DC. Từ trái sang phải, các hệ số lần lượt biểu diễn các thành phần tần số cao
hơn trong tín hiệu ban đầu gọi là hệ số AC.
Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phép
biến đổi cho khối 8x8 giá trị các điểm chói.
Quá trình mã hoá thuận cho khối 8x8 được xác định.




Trong dó:
 f( i,j ) là các hàm mẫu ban đầu trong khối 8x8 điểm chói
F( u,v ) là các hệ số biến đổi DCT khối 8x8.
u là tần số chuẩn hoá theo chiều ngang ( 0<u<7 )
v là tần số chuẩn hoá theo chiều đứng ( 0<v<7 )




Quá trình biến đổi DCT không giảm tốc độ dòng số liệu và tính chất đảo ngược (Inverse
DCT) tái tạo lại chính xác giá trị điểm ảnh ban đầu nếu các hệ số DCT giữ nguyên.
4. Lượng tử hoá khối DCT
    Quá trình lượng tử hoá khối DCT đóng vai trò quan trọng trong việc thiết kế hệ thống
nén video vì việc nó ảnh hưởng trực tiếp đến việc tái tạo lại hình ảnh. Thành phần DC và
tần số thấp là các thông số có ý nghĩa nhất của khối điểm ảnh ban đầu. Hệ số DC được
lượng tử với độ chính xác 12 bit để tránh các nhiễu xuất hiện giữa các khối điểm ảnh.
Trong khi hệ số tương ứng với thành phần tần số cao được lượng tử với độ chính xác 2
bit (do khả năng cảm nhận ở mắt người giảm). Ảnh càng chi tiết thì hệ số thành phần tần
số càng lớn, có thể tràn bộ nhớ đệm nếu hệ số trong bảng lượng tử quá thấp.
5. Mã hoá Entropy
     Mã hoá entropy làm tăng độ phức tạp, yêu cầu bộ nhớ lớn hơn so với mã có độ dài cố
định và tốc độ bít thay đổi theo thời gian. Khi phân bố xác suất càng lệch khỏi phân bố
đều thì xuất hiện càng tăng nhờ mã hoá entropy.
6. Bộ nhớ đệm
Các từ mã RLC tạo ra dòng số liệu với tốc độ biến đổi, phụ thuộc vào độ phức tạp của
ảnh được mã hoá. Số liệu này được ghi vào bộ nhớ đệm, các bit số liệu sẽ được đọc ra từ
bộ nhớ đệm này với một tốc độ cố định theo bộ mã hoá. Bộ nhớ đệm không được tràn,
rỗng. Quá trình điều khiển được thực hiện bằng trọng số. Nếu bộ nhớ đệm đầy, quá trình
lượng tử hoá được thực hiẹn với mức biểu diễn bit ít hơn nhằm tạo ra tốc độ dòng bit nhỏ
lại bằng cách tăng hệ số cân bằng của bộ lượng tử.
7. Giải mã DCT
Quá trình lượng tử hoá ngược được tiến hành theo biểu thức:

Các hệ số sẽ được biến đổi ngược (IDCT) bằng quá trình f( j,k ) để tạo lại khối giá trị các
điểm ban đầu theo biểu thức:
Hình 12.2: Giải mã DCT

Câu 13: Nén liên ảnh
        1. Mô hình
       Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồn tại trong một khung ảnh
(frame); bản chất của sự chuyển động của một đối tượng trong xâu: đó là sự thay đổi vị
trí tương đối (toạ độ ngang và dọc) của nó trong từng frame.

Hình 13.1: Mô hình nén liên ảnh
      Vì một chuỗi ảnh liên tục, lượng thông tin chứa trong mỗi ảnh rất ít từ ảnh này đến
ảnh khác. Do đó việc tính toán dự định chuyển vị trí của nội dung ảnh là yếu tố quan
trọng của kỹ thuật nén ảnh. Đặc điểm của nén liên ảnh là làm xâp xỉ, bù chuyển động và
nén trong ảnh, ý tưởng đó được xây dựng như trong hình 1.
        2. Kỹ thuật dự đoán bù chuyển động
        Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từ
frane này tới frame khác cũng tạo nên ảnh chuyển động. Trong kỹ thuật bù chuyển động,
ảnh của frame hiện hành được dự báo từ ảnh của frame kề trước bằng cách làm xâp xỉ
chuyển động giữa hai frame và bù chuyển động đó: sự khác nhau giữa frame hiện hành
và frame dự báo được gọi là phân dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chính
là dựa vào việc mã hoá phân dư thừa bù chuyển động này.
       Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnh
động, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều so
với ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đã
giúp tránh được phân dư thừa này bị mã hoá lặp nhiều lần. Sự đánh giá chuyển động của
ảnh có thể thực hiện trên toàn khung: người ta chia mỗi khung thành các ô màu nhỏ
(thường lấy 8x8 pixel/1ô), sau đó đánh giá chuyển động của từng ô.
      Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu câu: (1) là Phải xác định
biên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung. (2) là Phải xác
định cái gì được điền vào không gian trống do vùng ảnh đã chuyển động. trong hệ thống
mã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu ảnh trước trong khi tạo lại ảnh
tiếp theo; khi bộ mã hoá thực hiện mã hoá khung 2 thì đồng thời phải tạo lại mỗi ảnh (sau
khi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này vì bộ giải mã không có chức
năng tạo lại các ô màu bù chuyển động.
     Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung hình (frame)
liền kề và tạo ra một vector chuyển động, vector chuyển động sẽ phối hợp với các ô ở
trong biên biểu diễn vùng chuyển động được mã hoá trước đó để lập lại các ô này tại vị
trí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnh
trước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lập
trước đó: thành phần dự đoán này được lấy từ đầu vào của khung trước để tạo ra một
khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tạ i và ô dự đoán của nó trong
khung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động.
3. Ảnh dự đoán trước
Phương pháp mã hoá nhờảnh dự đoán trước sử dụng xác suất các ảnh liên tục trong chuỗi
ảnh. Nhờ xác suât này, phần lớn các ảnh trong chuỗi có thể nhận biết gần giống nhau trên
cơ sở thông tin chứa trong ảnh. Phương pháp này rất hiệu quả khi chuỗi ảnh là ảnh tĩnh
hoàn toàn, trong trường hợp này chỉ cần truyền ảnh đầu tiên là đủ. Khi xuất hiện vật thể
chuyển động nào đó phải xác định vật thể này và biểu diễn đặc trưng về sự thay đổi vị trí
của nó.
Các chuyển động ngoài vùng tìm kiếm không thể thực hiện dự đoán bù chuyển động từ
khung hình trước. Trường hợp này sẽ được mã hoá bằng phương pháp nén trong ảnh.
Trong khối xác định vecto chuyển động. Vecto chuyển động tính toán sao cho ảnh hiện
thi và ảnh dự báo cho ra ảnh khác biệt ở đầu ra. Sô liệu về vecto chuyển động và ảnh
khác biệt sẽ được truyền đi. Hạn chế của mô hình này là không biểu diễn phần lớn các
chuyển động có thể coi như các chuyển động quay, giảm hoặc tăng lên và các chuyển
động phức tạp khác.

Hình13.2: Nén liên ảnh (ảnh dự đoán trước)
4. Ảnh dự đoán hai chiều
Dự đoán hai chiều theo thời gian, còn gọi là nội suy bù chuyển động sử dụng thông tin
trong một khung hình cho trước và một khung hình hiển thị để dự đoán.
Mô hình này cho khả năng nén số liệu cao hơn. Hiệu ứng nhiều trong khung hình hiện thị
giảm bằng mức nhiễu trung bình của khung hình trước và khung hình sau, có khă năng
dự đoán ngoài phạm vi của vùng tìm kiếm nhờ các khung hình tiếp theo.
Ảnh dự đoán hai chiêu là kêt quả nội suy giữa hai ảnh để xác định chuản cảa nó, nên sẽ
làm thay đổi thứ tự truyền ảnh. Bộ mã hoá ảnh đầu tiên phải truyền cả hai ảnh chuẩn, sau
đó mới truyền đến ảnh dự đoán hai chiều.
Mã hoá dự đoán giữa các khung hình áp dụng cho các chương trình có ít chuyển động
hoặc chuyển động quá chậm.

Hình 13.3: Nén liên ảnh (ảnh dự đoán 2 chiều)
Câu 14: Các chuẩn mã hóa thoại.
Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông tin liên lạc và
cho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và các dịch vụ
dựa trên cùng một tham chiếu.
Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại :
   • Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU
       (ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đên mã hóa thoại cho các
       ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định.
   • Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa
       thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia
       Hoa Ky (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện
thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia
     theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA.
   • Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước
     Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn
     thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất
     trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu
     dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới.
   • Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa
     thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ,
     được ứng dụng chủ yếu trong quân sự.
   • Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR):
     Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR.
Câu 14: Các chuẩn mã hóa âm thanh
    1. Các chuẩn mã hóa âm thanh ISO/MPEG
      Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén
âm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh
và hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ MO
và ổ cứng máy tính.
     MPEG, viêt tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên
n.cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC.
Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1,
MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC
JTC1 SC29 WG11.
     MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra
một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mức
độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít)
của bộ mã hóa. Ba bộ mã hóa này tương thích vứi nhau theo cách có thứ tự, có nghĩa là
bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tất
cả các Layer thấp hơn N.
    Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tât cả các Layer
Sử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận
thức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phần
Phổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận
Để xác định mức nhiễu có thể nghe thấy. Trong giai đọan lượng tử hóa và mã hóa, bộ mã
hóa sễ cố gắng để chỉ rõ sô bít dữ liệu cần để đáp ứng cả yêu câu dòng bít và hiện tượng
che lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ các
thành phần phổ được mã hóa.
4.2.2. Doby AC-3
Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trong
nhiều bộ phim ở rạp hát, ở nhà, và trong truyên hình chất lượng cao HDTV ở nước Mỹ.
AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai đọan
đầu tiên của bộ giải mã hoá AC-3 là lây 512 mẫu đầu vào và áp dụng biến đổi MDCT. Để
tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các hàm loga và
hàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các kênh khác và
được đóng thành các khung để truyền đi.
4.2.3. AES-3 (Audio Engineering Society-3)
Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là định
dạng truyên nôi tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ đơn
giản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung của
Hiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng
quảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cân
Bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đên 100 mét. Ba tốc độ
lấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz.

Câu 15: Các chuẩn nén ảnh JPEG
1. Chuẩn JPEG
JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn
nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức
được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG được
khẳng định với tiêu chuẩn ISO 10918-1.
JPEG là định dạng nén ảnh có tổn thất. Hệ số nén càng cao thì hình ảnh sau khi giải nén
sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ không đạt hoàn toàn
như hình ảnh gốc. Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy
nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng
khôi phục khá tốt và ít tính toán hơn so với nén MPEG.
Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa để làm
cho ảnh có nhiều đọan giống nhau hơn thực tế. Bước tiêp theo là lấy mẫu cho các kênh
màu (gọi là “downsampling” hoặc “chroma subsampling”). Đây là 1 trong 2 công đọan
làm mất thông tin và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp
(high compression/low quality) của JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệ
thống các thông tin màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước. Bước tiếp
theo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8 không chồng
chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khối ảnh sẽ được trừ đi 128.
Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã hoá Huffman
cho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén cũng như giảm
thiểu lỗi.
Ở phía giải nén, luông bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ số
DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử.
Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây:

Hình 15.1: Sđồ qt nén ảnh theo chuẩn JPEG

Hình 15.2: Sđồ qt giải nén theo chuẩn JPEG
2. Chuẩn JPEG-2000
Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ JPEG
truyên thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được phát
triển từ các tiêu chuẩn đã có. Điều quan trọng hơn, nó cho phép tách các phân giải khác
nhau, các điểm ảnh, các miền quan tâm, các thành phần và hơn nữa, tât cả chúng được
đưa vào một dòng bit nén đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thông
tin cần thiết cho bất kỳ một thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩn
JPEG-2000. Tính tương thích này là một trong những ưu điểm nổi trổi mà các kỹ thuật
xử lý JPEG truyên thống gặp rất nhiều khó khăn.
Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến đổi cosin
rời rạc dùng mã Huffman, JPEG-2000 sử dụng kỹ thuật mã hóa dạng sóng rời rạc dùng
mã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian
trong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩn
JPEG-2000 mô tả ở hình 3 dưới đây:

Hình 15.3: Sđồ qt nén và giải nén theo chuẩn JPEG-2000
Bước 1: Xử lý trước biến đổi
Do sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối xứng qua
0. Xử lý trước biến đổi chính là giai đọan đảm bảo dữ liệu đưa vào nén ảnh có dạng trên.
Ở phía giải mã, giai đọan xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho dữ liệu ảnh.
Bước 2: Biến đổi liên thành phân
Giai đọan này sễ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000 sử
dụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (RCT) và biên đổi
màu không thuận nghịch (ICT) trong đó biên đổi thuận nghịch làm việc với các giá trị
nguyên, còn biến đổi không thuận nghịch làm việc với các giá trị thực. ICT và RCT
chuyển dữ liệu ảnh từ không gian màu RGB sang YCrCb. RCT được áp dụng trong cả
hai dạng thức nén có tổn thất và không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất.
Việc áp dụng các biển đổi này trước khi nén ảnh không nằm ngoài mục đích làm tăng
hiệu quả nén. Các thành phân Cr, Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh của
mắt trong khi thành phần độ chói Y có ảnh hưởng rất lớn tới ảnh.
Bước 3: Biến đổi riêng thành phần
Biên đổi riêng thành phân được áp dụng trong JPEG-2000 chính là biên đổi Wavelet.
Bước 4: Lượng tử hoá – Giải lượng tử hoá
Các hệ số của phép biến đổi sễ được tiến hành lượng tử hoá. Quá trình lượng tử hoá cho
phép đạt tỉ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính xác tương
ứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được lượng tử hoá
theo phép lượng tử hoá vô hướng.
Bước 5: Mã hoá
Có thể sử dụng nhiều phương pháp mã hoá khác nhau cũng như nhiều cách biên đổi
Wavelet khác nhau để có thể thuđược chất lượng ảnh tương ứng với ứng dụng cần xửlý.
     JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so
       với JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh
       gấp ít nhất là 2 lần so với JPEG. Với tần số nén cao, chât lượng của hình ảnh giảm
       ít hơn. Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu
câu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là
      những hình ảnh có the tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị.

Câu 16: Các chuẩn nén video MPEG
1. MPEG-1
Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết kế để
cung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM. Chuẩn
MPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm cả ghép kênh
video và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về audio nén.
Các đặc tính của MPEG-1
Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0
(Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels.
Mỗi khung video được mã hóa để tạo ra một bước ảnh mã hóa. Có 3 loại chính: các ảnh I,
các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D nhưng loại
này hiếm khi sử dụng trong các ứng dụng thực tế).
Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm tham
khảo cho những ảnh dự đoán xa hơn.
Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo. Do đó một ảnh loại
P được dự đoán sử dụng dự đoán chuyển tiếp và bản thân một ảnh P có thể được sử dụng
làm tham khảo cho các ảnh dự đoán xa hơn.
Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc ảnh I
trước và sau ảnh B hiện tại. Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán
(chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trong
macroblock sai phân. Bản thân các ảnh loại B không được sử dụng như các tham khảo dự
đoán cho bất kỳ khung dự đoán xa hơn nào.
Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó,
chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thực
tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chia
những chức năng nhất định.

2. MPEG-2
Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là truyền
hình số. Để cung cấp một số lựa chọn cải tiến cho truyên hình tương tự, một vài đặc tính
chủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu quả các
kích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân giải của
ITU-R 601) và mã hóa video kêt hợp. Với những độ phân giải chất lượng truyền hình,
video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng những
yêu câu này.
MPEG-2 bao gồm 3 phân chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) và
Systems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồng
audio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:
    Mã hóa hiệu quả video với chất lượng truyền hình
    Hỗ trợ mã hóa video kết hợp
 Khả năng phân cấp : Phân cấp theo không gian, phân cấp theo thời gian, phân
     cấp SNR, phân vùng dữ liệu.

3. MPEG-4
Chuẩn MPEG-4 được phát triển với mục đích mở rộng khả năng của những chuẩn trước
đó theo một số hướng.
Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-1 và MPEG-2 có hiệu quả chấp nhận
được trong mã hóa các tốc độ bit khoảng trên 1 Mbps. Tuy nhiên, nhiều ứng dụng nổi
bật (đặc biệt là các ứng dụng dựa trên Internet) yêu cầu tốc độ bit truyền rất thấp hơn
Nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp.
Hỗ trợ mã hóa dựa trên đối tượng: một cảnh video có thể được xử lý như một tập các
đối tượng nền và đối tượng cận cảnh hơn là chỉ như một chuỗi các khung hcn. Loại mã
hóa này mở ra một dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác
nhau trong một cảnh, dùng lại các thành phần cảnh, ghép lại (các vật thể từ một số nguồn
được kết hợp trong một cảnh) và độ tương tác cao.
Mã hóa dựa trên bộ công cụ: MPEG-1 có độ linh động rât hạn chế, MPEG-2 đưa ra
khái niệm về ‘bộ công cụ’ gồm các profile và level mà có thể kết hợp theo nhiều cách cho
các ứng dụng khác nhau. MPEG-4 mở rộng đặc điểm này thành một tập hợp các công cụ
mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một khung chuẩn
hóa cho phép các công cụ mới được thêm vào ‘bộ công cụ’.
Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thể được
tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các công
cụ cũng tiêp tục tăng lên.
4. MPEG-7
Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để mô tả
nhiều loại thông tin đa phương tiện với các codec chuẩn, cũng như những cơ sở dữ liệu
khác và thậm chí cả thông tin nghe nhìn tương tự. Các bộ mô tả cùng với các cơ chế mô
tả sẽ được kết hợp với bản thân nội dung để tạo ra một phương pháp tìm kiếm tài liệu
nhanh và có hiệu quả của người dùng.
Cùng với việc mô tả nội dung, có thể cần thêm một số loại thông tin khác về dữ liệu đa
phương tiện, như: dạng, Những điều kiện để truy cập tài liệu, sự phân loại, Liên kết đến
dữ liệu liên quan khác, bối cảnh.
Các phân tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng. Hiện nay
MPEG-7 cũng tạo ra mảng lưới có khả năng tìm kiếm nội dung đa phương tiện như khả
năng tìm kiếm văn bản. Điều này có thể áp dụng cho việc thu được nội dung lớn cũng
như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhằm mục
đích mua sắm. Thông tin sử dụng cho việc khôi phục nội dung có thể được sử dụng bởi
các thực thể, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân.
4.4.4.5. MPEG-21
Việc phát triển một khung đa phương tiện chung sẽ làm cho sự liên kết giữa những bộ
phận như những người cung câp nội dung, tài chính, truyền thông, máy tính và các bộ
phận điển tử của người sử dụng và các khách hàng trở nên thuận tiện và hỗ trợ sợ hoạt
đề Cương xử lý âm thanh hình ảnh

Weitere ähnliche Inhalte

Was ist angesagt?

trắc nghiệm ôn tập thông tin di động
trắc nghiệm ôn tập thông tin di độngtrắc nghiệm ôn tập thông tin di động
trắc nghiệm ôn tập thông tin di độngPTIT HCM
 
(Led nháy theo nhạc) báo cáo đồ án điện tử viễn thông 1
(Led nháy theo nhạc) báo cáo đồ án điện tử   viễn thông 1(Led nháy theo nhạc) báo cáo đồ án điện tử   viễn thông 1
(Led nháy theo nhạc) báo cáo đồ án điện tử viễn thông 1Huy Tuong
 
[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE
[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE
[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTEThe Nguyen Manh
 
Các loại mã đường truyền và ứng dụng neptune
Các loại mã đường truyền và ứng dụng neptuneCác loại mã đường truyền và ứng dụng neptune
Các loại mã đường truyền và ứng dụng neptune給与 クレジット
 
Bài Tập Xử Lí Tín Hiệu Số
Bài Tập Xử Lí Tín Hiệu SốBài Tập Xử Lí Tín Hiệu Số
Bài Tập Xử Lí Tín Hiệu Sốviethung094
 
Cac ky thuat_dieu_che_4543
Cac ky thuat_dieu_che_4543Cac ky thuat_dieu_che_4543
Cac ky thuat_dieu_che_4543PTIT HCM
 
[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...
[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...
[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...The Nguyen Manh
 
Giáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCM
Giáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCMGiáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCM
Giáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCMfrank5991
 
Truyen song-va-anten
Truyen song-va-antenTruyen song-va-anten
Truyen song-va-antenĐỗ Kiệt
 
[Báo cáo] Bài tập lớn: Thiết kế anten Yagi
[Báo cáo] Bài tập lớn: Thiết kế anten Yagi[Báo cáo] Bài tập lớn: Thiết kế anten Yagi
[Báo cáo] Bài tập lớn: Thiết kế anten YagiThe Nguyen Manh
 
[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM
[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM
[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDMThe Nguyen Manh
 
Ly thuyet da truy nhap va trai pho
Ly thuyet da truy nhap va trai phoLy thuyet da truy nhap va trai pho
Ly thuyet da truy nhap va trai phoQuangthuc Nguyen
 
Chuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdf
Chuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdfChuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdf
Chuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdfCngNguynHuy8
 
Thong tin quang 2
Thong tin quang 2Thong tin quang 2
Thong tin quang 2vanliemtb
 

Was ist angesagt? (20)

Kho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểm
Kho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểmKho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểm
Kho 200 đề tài luận văn tốt nghiệp ngành điện tử viễn thông, 9 điểm
 
trắc nghiệm ôn tập thông tin di động
trắc nghiệm ôn tập thông tin di độngtrắc nghiệm ôn tập thông tin di động
trắc nghiệm ôn tập thông tin di động
 
Đề tài: Mô phỏng kênh truyền vô tuyến số bằng matlab, 9đ
Đề tài: Mô phỏng kênh truyền vô tuyến số bằng matlab, 9đ Đề tài: Mô phỏng kênh truyền vô tuyến số bằng matlab, 9đ
Đề tài: Mô phỏng kênh truyền vô tuyến số bằng matlab, 9đ
 
(Led nháy theo nhạc) báo cáo đồ án điện tử viễn thông 1
(Led nháy theo nhạc) báo cáo đồ án điện tử   viễn thông 1(Led nháy theo nhạc) báo cáo đồ án điện tử   viễn thông 1
(Led nháy theo nhạc) báo cáo đồ án điện tử viễn thông 1
 
[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE
[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE
[Báo cáo] Bài tập lớn Thông tin di động: mô phỏng kênh PSDCH trong 4G LTE
 
Các loại mã đường truyền và ứng dụng neptune
Các loại mã đường truyền và ứng dụng neptuneCác loại mã đường truyền và ứng dụng neptune
Các loại mã đường truyền và ứng dụng neptune
 
Ttq1
Ttq1Ttq1
Ttq1
 
Xử lý tín hiệu số
Xử lý tín hiệu sốXử lý tín hiệu số
Xử lý tín hiệu số
 
Bài Tập Xử Lí Tín Hiệu Số
Bài Tập Xử Lí Tín Hiệu SốBài Tập Xử Lí Tín Hiệu Số
Bài Tập Xử Lí Tín Hiệu Số
 
Hiệu năng hệ thống đa chặng phối hợp trên kênh Fading rayleigh
Hiệu năng hệ thống đa chặng phối hợp trên kênh Fading rayleigh Hiệu năng hệ thống đa chặng phối hợp trên kênh Fading rayleigh
Hiệu năng hệ thống đa chặng phối hợp trên kênh Fading rayleigh
 
Cac ky thuat_dieu_che_4543
Cac ky thuat_dieu_che_4543Cac ky thuat_dieu_che_4543
Cac ky thuat_dieu_che_4543
 
[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...
[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...
[Báo cáo] Bài tập lớn Hệ thống viễn thông: Viết phần mềm tính toán các tham s...
 
Giáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCM
Giáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCMGiáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCM
Giáo trình Thông tin vệ tinh - Học viện Bưu chính Viễn thông TP.HCM
 
Truyen song-va-anten
Truyen song-va-antenTruyen song-va-anten
Truyen song-va-anten
 
[Báo cáo] Bài tập lớn: Thiết kế anten Yagi
[Báo cáo] Bài tập lớn: Thiết kế anten Yagi[Báo cáo] Bài tập lớn: Thiết kế anten Yagi
[Báo cáo] Bài tập lớn: Thiết kế anten Yagi
 
[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM
[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM
[Báo cáo] Bài tập lớn Thông tin số: MIMO OFDM
 
Ly thuyet da truy nhap va trai pho
Ly thuyet da truy nhap va trai phoLy thuyet da truy nhap va trai pho
Ly thuyet da truy nhap va trai pho
 
Do thi-smith-chart
Do thi-smith-chartDo thi-smith-chart
Do thi-smith-chart
 
Chuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdf
Chuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdfChuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdf
Chuong 5_ KỸ THUẬT ĐIỀU CHẾ SỐ.pdf
 
Thong tin quang 2
Thong tin quang 2Thong tin quang 2
Thong tin quang 2
 

Ähnlich wie đề Cương xử lý âm thanh hình ảnh

Khái niệm chung về âm thanh
Khái niệm chung về âm thanhKhái niệm chung về âm thanh
Khái niệm chung về âm thanhHanh Aircon
 
SINH LÝ THÍNH GIÁC
SINH LÝ THÍNH GIÁCSINH LÝ THÍNH GIÁC
SINH LÝ THÍNH GIÁCSoM
 
Am hoc kien truc
Am hoc kien trucAm hoc kien truc
Am hoc kien trucDang Lam
 
Sóng âm (Sound waves)
Sóng âm (Sound waves)Sóng âm (Sound waves)
Sóng âm (Sound waves)VuKirikou
 
Ly Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptx
Ly Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptxLy Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptx
Ly Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptxBình Thanh
 
đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)
đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)
đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)nataliej4
 
bai dan luan ngon ngu phan ngu am
bai dan luan ngon ngu phan ngu ambai dan luan ngon ngu phan ngu am
bai dan luan ngon ngu phan ngu amatcak11
 
Taijsao khi xoay volum trong máy thanh của
Taijsao khi xoay volum trong máy thanh củaTaijsao khi xoay volum trong máy thanh của
Taijsao khi xoay volum trong máy thanh củaphanhaquang
 
ngữ âm
ngữ âmngữ âm
ngữ âmatcak11
 
Bai giang sieu am pgs thong
Bai giang sieu am pgs thongBai giang sieu am pgs thong
Bai giang sieu am pgs thongLe Thuy Dr
 
Luận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAY
Luận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAYLuận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAY
Luận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAYViết thuê trọn gói ZALO 0934573149
 
Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc
Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc
Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc nataliej4
 
Bản chất ngữ âm
Bản chất ngữ âmBản chất ngữ âm
Bản chất ngữ âmBích Phương
 
ELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOA
ELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOAELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOA
ELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOASoM
 

Ähnlich wie đề Cương xử lý âm thanh hình ảnh (20)

Khái niệm chung về âm thanh
Khái niệm chung về âm thanhKhái niệm chung về âm thanh
Khái niệm chung về âm thanh
 
Kqht 3
Kqht 3Kqht 3
Kqht 3
 
Đề tài: Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói, HAY
Đề tài: Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói, HAYĐề tài: Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói, HAY
Đề tài: Tìm hiểu các phương pháp phân tích đặc trưng tiếng nói, HAY
 
SINH LÝ THÍNH GIÁC
SINH LÝ THÍNH GIÁCSINH LÝ THÍNH GIÁC
SINH LÝ THÍNH GIÁC
 
Am hoc kien truc
Am hoc kien trucAm hoc kien truc
Am hoc kien truc
 
Am hoc kien truc
Am hoc kien trucAm hoc kien truc
Am hoc kien truc
 
Sóng âm (Sound waves)
Sóng âm (Sound waves)Sóng âm (Sound waves)
Sóng âm (Sound waves)
 
Ly Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptx
Ly Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptxLy Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptx
Ly Sinh Bai 3456-Le Thi Cam Tuyen - DNC.pptx
 
đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)
đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)
đồ áN dùng vi xử lý 89c51 để phát nhiều bài nhạc đơn âm (kèm chương trình)
 
bai dan luan ngon ngu phan ngu am
bai dan luan ngon ngu phan ngu ambai dan luan ngon ngu phan ngu am
bai dan luan ngon ngu phan ngu am
 
Taijsao khi xoay volum trong máy thanh của
Taijsao khi xoay volum trong máy thanh củaTaijsao khi xoay volum trong máy thanh của
Taijsao khi xoay volum trong máy thanh của
 
CHUYÊN ĐỀ SÓNG ÂM
CHUYÊN ĐỀ SÓNG ÂMCHUYÊN ĐỀ SÓNG ÂM
CHUYÊN ĐỀ SÓNG ÂM
 
ngữ âm
ngữ âmngữ âm
ngữ âm
 
Bai giang sieu am pgs thong
Bai giang sieu am pgs thongBai giang sieu am pgs thong
Bai giang sieu am pgs thong
 
Luận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAY
Luận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAYLuận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAY
Luận văn: Ứng dụng của sóng siêu âm trong công nghệ thực phẩm, HAY
 
Khám hệ hô hấp trẻ em
Khám hệ hô hấp trẻ emKhám hệ hô hấp trẻ em
Khám hệ hô hấp trẻ em
 
Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc
Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc
Chuyên Đề Thính Lực Đồ Đơn Giản Và Hoàn Chỉnh Phân Chia Các Loại Điếc
 
Vatly12 chuong2 6396
Vatly12 chuong2 6396Vatly12 chuong2 6396
Vatly12 chuong2 6396
 
Bản chất ngữ âm
Bản chất ngữ âmBản chất ngữ âm
Bản chất ngữ âm
 
ELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOA
ELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOAELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOA
ELECTRONIC FETAL MONITORING ( CTG ) CĂN BẢN TRONG THỰC HÀNH SẢN PHỤ KHOA
 

Mehr von Hải Dương

Nếu con ra đi khi còn quá trẻ
Nếu con ra đi khi còn quá trẻNếu con ra đi khi còn quá trẻ
Nếu con ra đi khi còn quá trẻHải Dương
 
đề Thi đợt 1 (tháng 7 năm 2012)
đề Thi đợt 1 (tháng 7 năm 2012)đề Thi đợt 1 (tháng 7 năm 2012)
đề Thi đợt 1 (tháng 7 năm 2012)Hải Dương
 
đề Cương ôn tập thông tin vệ tinh
đề Cương ôn tập thông tin vệ tinhđề Cương ôn tập thông tin vệ tinh
đề Cương ôn tập thông tin vệ tinhHải Dương
 
đề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinhđề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinhHải Dương
 
đề Cương chi tiết
đề Cương chi tiếtđề Cương chi tiết
đề Cương chi tiếtHải Dương
 
Cảm ơn em vì đã yêu anh
Cảm ơn em vì đã yêu anhCảm ơn em vì đã yêu anh
Cảm ơn em vì đã yêu anhHải Dương
 
Quy hoach va toi uu hoa mang truyen dan 3 g
Quy hoach va toi uu hoa mang truyen dan 3 gQuy hoach va toi uu hoa mang truyen dan 3 g
Quy hoach va toi uu hoa mang truyen dan 3 gHải Dương
 
đề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinhđề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinhHải Dương
 
Báo cáo chuyển mạch
Báo cáo chuyển mạchBáo cáo chuyển mạch
Báo cáo chuyển mạchHải Dương
 

Mehr von Hải Dương (10)

Nếu con ra đi khi còn quá trẻ
Nếu con ra đi khi còn quá trẻNếu con ra đi khi còn quá trẻ
Nếu con ra đi khi còn quá trẻ
 
đề Thi đợt 1 (tháng 7 năm 2012)
đề Thi đợt 1 (tháng 7 năm 2012)đề Thi đợt 1 (tháng 7 năm 2012)
đề Thi đợt 1 (tháng 7 năm 2012)
 
đề Cương qlmvt
đề Cương qlmvtđề Cương qlmvt
đề Cương qlmvt
 
đề Cương ôn tập thông tin vệ tinh
đề Cương ôn tập thông tin vệ tinhđề Cương ôn tập thông tin vệ tinh
đề Cương ôn tập thông tin vệ tinh
 
đề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinhđề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinh
 
đề Cương chi tiết
đề Cương chi tiếtđề Cương chi tiết
đề Cương chi tiết
 
Cảm ơn em vì đã yêu anh
Cảm ơn em vì đã yêu anhCảm ơn em vì đã yêu anh
Cảm ơn em vì đã yêu anh
 
Quy hoach va toi uu hoa mang truyen dan 3 g
Quy hoach va toi uu hoa mang truyen dan 3 gQuy hoach va toi uu hoa mang truyen dan 3 g
Quy hoach va toi uu hoa mang truyen dan 3 g
 
đề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinhđề Cương môn thông tin vệ tinh
đề Cương môn thông tin vệ tinh
 
Báo cáo chuyển mạch
Báo cáo chuyển mạchBáo cáo chuyển mạch
Báo cáo chuyển mạch
 

đề Cương xử lý âm thanh hình ảnh

  • 1. ĐỀ CƯƠNG XỬ LÝ ÂM THANH HÌNH ẢNH Phần 1 : Lý thuyết Câu I : Các đặc trưng cơ bản của âm thanh 1.1 Khái niệm về âm thanh và các tham số đánh giá Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định. Âm thanh có các tham số đánh giá đặc trưng sau dây: 1. Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm trong một đơn vị thời gian là 1 giây. Tần số biểu thị độ cao (pitch) của âm thanh. Tần số càng lớn thì âm thanh càng cao và ngược lại. Ðơn vị để đo là Hertz (Hz). Tai con ngưừi chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz. Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay âm tần hoặc sóng âm. Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiêu loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm). Ứng với mỗi tần số dao động f , có chu kỳ dao động T là một bước sóng λ của âm thanh được xác định theo biểu thức λ = c.T (c là tốc độ lan truyên của âm thanh trong không khí = 340m/s). Do dó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 0.017m. 2. Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp. Âm thanh truyần lan đến đâu thì làm thay đổi áp suất không khí ở đó. Áp suất do âm thanh tạo thêm ra ở một điểm gọi là thanh áp ở điểm dó. Đơn vị đo thanh áp là bar. Một bar là thanh áp tác động lên một diện tích 1cm2 mot lực là 1dyn. 1 bar = 1dyn/cm2. Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo thanh áp. 1 bar = 10 Kpa; 1 Pa = 1 N/m2. 3. Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong thời gian một giây. Công suất âm thanh P có thể tính bằng biểu thức: P = p.S.v Trong dó p là thanh áp, v là tôc do dao động của một phân tử không khí tại đó và S là diện tích. Công suất âm thanh tính theo đơn vị oát (W). 4. Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị diện tích là 1cm2. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suât của âm thanh càng lớn. 5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo nên âm lượng của âm và trong âm của từ.
  • 2. 6. Ðộ dài (Length): Do thời gian dao động của vật thể quyết định. Ðộ dài của âm thanh tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau vê độ dài. Hai từ "tang" và "tăng" trong tiêng Viet có sự đối lập âm a dài (trong "tang") và âm a ngắn (trong "tăng"). 7. Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung vào các thành phần kết cấu của âm. Ðây là vẻ riêng biet của một âm. Âm sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động. Một âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài, sẽ khác với từ một ống sáo nhỏ, ngắn; từ việc gẩy se khác với việc gõ, búng, cọ xát hoặc thổi. Xử lý âm thanh bao gồm nhiều lĩnh vực khác nhau. Các lĩnh vực cụ thể liên quan đến xử lý âm thanh (trong đó có thoại) bao gồm: Nén âm thanh, thoại, nhận dạng tiếng nói; tổng hợp tiếng nói; nâng cao chất lượng(enhancement) và hồi phục tiếng nói (restoration). Nén các tín hiệu thoại có rất nhiều ứng dụng, ví dụ như trong công nghệ thông tin di động số có nhiều người sử dụng dùng chung băng tần số. Nói cách khác, kỹ thuật nén cho phép nhiều người sử dụng chia sẻ tài nguyên của hệ thống hơn và làm cho việc sử dụng tài nguyên hệ thống có hiệu quả hơn. Để có thể xử lý âm thanh thoại cần hiểu rõ được các cơ sở của quá trình tạo ra tiếng nói và đặc trưng hệ thống thính giác con người. 1.2. Các đặc điểm của hệ thống thính giác con người  Cấu trúc tai người: Hệ thống thính giác của con - Tai người là một cơ quan cực kỳ phức tạp. Hình 1.1 minh họa những kết cấu chính của tai người. Tai ngoài (outer ear) gồm có hai phần, vành tai – lớp da và sụn, gắn vào phía cạnh bên của đầu và ống tai có đường kính 0.5cm và cắm sâu vào trong đầu khoảng chừng 3cm. Cơ cấu tai ngoài này dẫn hướng âm thanh từ môi trường bên ngoài tới các cơ quan nhạy cảm là tai giữa và tai trong nằm an toàn " trong hộp sọ của người. Cuối ống tai là một màng mỏng được gọi là màng nhĩ (tympanic membrane) hay còn gọi là trống tai (ear drum). Các sóng âm thanh đập vào màng nhĩ và làm cho nó rung động. Hình 1.1: Sơ đồ chức năng của tai người Tai giữa là một tập hợp các xương nhỏ có nhiệm vụ truyền những rung động của màng nhĩ tới ốc tai (cochlea) hay còn gọi là tai trong (inner ear), mà ở đó những rung động được biến đổi thành các xung thần kinh (neural impulses). Tai trong là một ống nhỏ có chứa dung dịch chât lỏng, có đường kính khoảng 2 mm và dài khoảng 3 cm. Mặc dầu được minh họa ở dạng duỗi thẳng ở hình 1.1, trên thực tế, tai trong được cuộn lại và trông giống như một vỏ ốc sên nhỏ. Nói cách khác, từ ốc tai (cochlea) xuất phát từ tiếng Hy lạp có nghĩa là ốc sên (snail) – hình 1.2. Khi một sóng âm thử truyền qua môi trường không khí vào môi trường chât lỏng, chỉ có một phần nhỏ của âm thanh được phát đi qua lớp giao tiếp giữa hai môi trường, trong khi đó phần năng lượng còn lại bị phản xạ trở lại. Điều này là do không khí có trở kháng cơ
  • 3. học thấp (áp suât âm thanh thấp và vận tốc cao dẫn đến tỷ trọng thấp và hệ số nén cao), trong khi đó chất lỏng có trở kháng cơ học cao. Xét về khía cạnh mang ít tính kỹ thuật, người ta phải nỗ lực nhiều hơn khi vẫy tay trong nước so với khi vẫy tay trong không khí. Chính sự khác nhau vê trở kháng cơ học dẫn đến phần lớn các sóng âm bị phản xạ trr lại tại giao tiếp không khí/chất lỏng. Cùng với ốc tai là màng nền, cấu trúc hỗ trợ cho khoảng 12,000 tế bào cảm giác (giác quan) – sensory cells và hình thành nên dây thần kinh ốc tai (cochlear nerve). Màng nền cứng nhất ở gần cửa sổ oval, và trở nên linh hoạt dần hơn về phía đối diện, nó họat động như là một bộ phân tích phổ tần số (frequency spectrum analyzer).Khi gặp một tín hiệu tần số cao, màng nền cộng hưởng khi nó ở trạng thái cứng, dẫn đến sự kích thích của các tế bào thần kinh ở gần cửa sổ oval. Tương tự như vậy, các âm tần số thấp kích thích các tế bào thần kinh ở phía đầu xa của màng nền. Điều này làm cho các sợi riêng biệt trong thần kinh ốc tai đáp ứng lại với các tần số riêng biệt. Tổ chức tuân theo nguyên lý vị trí (place principle) và được dành riêng cho các đường dẫn âm tới bộ não.  Sự cảm thụ của tai người đối với âm thanh: 1. Ngưỡng nghe Tai người phát hiện những âm thanh biến đổi cục bộ trong áp suất không khí được đo bằng mức áp suất âm- SPL (Sound Pressure Level). Nếu như những biến đổi của mức áp suất âm (SPL) là dưới một ngưỡng nào đó về biên độ thì tai người không thể phát hiện được. Ngưỡng nghe này được minh họa trong hình 1.3 dưới đây. Ngưỡng này là một hàm của tần số âm thanh. Lưu ý là trong hình 1.3 này, có các thành phần tần số thấp ở dưới mức ngưỡng nên các âm thanh có tần số này sẽ không nghe được. Tai người nhạy nhất trong phạm vi tần số từ 2 – 4KHz. Hình 1.3: Ngưỡng nghe 2. Mặt nạ tần số (frequency masking) Cho dù một thành phần tín hiệu cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che khuất bởi các thành phần lớn hơn mà gần tín hiệu đó trong miền tần số. Hiện tượng này gọi là mặt nạ tần số. Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần bóng” qua các thành phần bên cạnh. Nấu như thành phần tần số bên cạnh bị che phủ bởi “phần bóng” này thì các thành phần tín hiệu tần số này sã không nghe được. Kêt quả là có một thành phần – thành phần che khuât làm dịch ngưỡng nghe. Hình 1.4 minh họa hiện tượng này. Hình 1.4: Mặt nạ tần số 3. Mặt nạ thời gian Chỉ khi các tiếng đưa ra vùng các “bóng” lên những thành phân bên cạnh trong miền tần số, thì âm lượng tăng đột biến có thể che khuất âm thanh nhỏ hơn, gần với âm thanh che khuất về mặt thời gian. Ở đây, những âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất. Hình 1.5 minh họa hiện tượng mặt nạ thời gian điển hình. Lưu ý là khoảng mặt nạ phía trước ngắn hơn rất nhiều so với khoảng mặt nạ sau. Hình 1.5: Mặt nạ thời gian diện tí di diện tích là 1cm2.
  • 4. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suât của âm thanh càng lớn. 5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ện tích là 1cm2. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suât của âm thanh càng lớn. 5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo ch là 1cm2. I = P/S = p.v Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau. Cả ba đều biểu thị độ lớn nhỏ của âm thanh. Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suât của âm thanh càng lớn. 5. Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định. Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì. Biên độ dao động càng lớn, âm thanh càng vang to và ngưọc lại. Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt là dB). Trong lờii nói của một người, độ mạnh của âm thanh là yếu tô cơ bản tạo 4. Các dải băng tần tới hạn Dải tần số nghe được của con người được phân chia tự nhiên thành các dải băng tần tới hạn, với đặc tính là hệ thống thính giác của con người không thể phân biệt được các âm trong cùng một băng và diễn ra đồng thời. Băng thông của mỗi băng tần tới hạn là khoảng 100Hz trong dải tần dưới 500Hz, và tăng tuyến tính trong dải 500 đên 5000Hz. Do dó, tai hoạt động giống như các bộ lọc thông dưới, mỗi bộ lọc cho phép một dải tần số nhất định đi qua và khóa tât cả các tần sô khác (hình 1.6). Trong thực tế, các đặc điểm ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian và các dải băng tần giới hạn đặc trưng cho mô hình tâm sinh lý nghe (Psychoacoustics). Người ta đã lợi dụng các đặc điểm trên để nén thông tin âm thanh (Audio) mà ứng dụng phổ biến nhất trong các chuẩn nén âm thanh MPEG. Câu II: Mô hình chung của hệ thống mã hóa thoại Hình 2.1 minh họa sơ đồ khối một hệ thống mã tiếng nói. Ở đây, tín hiệu thoại tương tự và liên tục theo thời gian từ một nguồn thoại đã cho (chưa nén) được số hóa
  • 5. thông qua bộ lọc (loại bỏ băng tần thừa ở tần số cao), bộ lấy mẫu (biên đổi thành tín hiệu rời rạc theo thời gian) và bộ biến đổi tương tự/số (lượng tử hóa) và sau đó được mã hoá (nén): đó là quá trình mã hoá nguồn. Tín hiệu đã mã hoá nguồn sau đó được tiếp tục mã hoá để thêm khả năng chống lỗi (mã hoá kênh) và độ ưu tiên để truyền dẫn qua một kênh. Tại đầu thu, một bộ giải mã kênh sẽ tách và sửa những lỗi trong quá trình truyền dẫn và một bộ giải mã nguồn sẽ giải nén tín hiệu. Tín hiệu đã được giải nén có thể giống hệt như tín hiệu ban đầu (nén không tổn thất) hoặc nó cũng có thể bị méo hoặc suy biến theo một vài cách nào dó (nén có tổn thất). Hình 2: Sơ đồ khối hệ thống mã hóa thoại Thông thường, đa số những hệ thống mã tiếng nói được thiết kế để hỗ trợ những ứng dụng viễn thông, với tần số giới hạn trong khoảng 300 - 3400Hz. Theo định lý Nyquist, tần số lấy mẫu phải lớn hơn ít nhất là hai lần băng thông của tín hiệu liên tục để tránh méo, nên 8 kHz thường được chọn là tần số mẫu tiêu chuẩn cho tiếng nói. Nêu sự dụng từ mã 8 bít/ mẫu thì tốc độ đầu ra của kênh thoại số sẽ là 64 Kbit/s. Như ta đã biết, tín hiệu số ưu diểm hơn hẳn so với tín hiệu tương tự trong việc truyền dẫn và xử lý tín hiệu nhất là khả năng chống lỗi đường truyền. PCM là kỹ thuật điều chế xung mã được sử dụng rất phổ biến trong mạng thoại truyền thông để biến đổi tín hiệu tương tự thành tín hiệu số. Bình thường, một kênh thoại tương tự được biến đổi thành một kênh PCM cơ sở có tốc độ 64 Kbit/s. Kỹ thuật PCM (chuẩn G.711) sử dụng trong mạng thoại truyền thông đảm bảo chất lượng âm khá trung thực nhưng băng tần sử dụng còn khá lớn. Cho nên, nén thoại là cần thiết cho các ứng dụng như điện thoại di động (tôc độ của một cuộc gọi càng thấp thì càng cung câp được thêm các dịch vụ khác - d ữ liệu; hình ảnh; video) và và các ứng dụng cho phép truyền dữ liệu tốc độ thấp (thường thấp hơn <16 Kbit/s). Ngoài ra, nén thoại cũng cần thiết cho các ứng dụng như truyền thoại qua IP (VoIP), thoại hội nghị… để giảm băng thông sử dụng trên mạng Internet. Câu III: Các phương pháp mã hóa thoại (mã hóa dạng sóng, mã hóa tham số, mã hóa lai). 1. Mã hóa dạng sóng: Mã hóa dạng sóng (waveform coding) là kỹ thuật duy trì hình dạng ban đầu của các sóng tín hiệu, và do vậy các bộ mã hóa dạng sóng có thể áp dụng cho bất kỳ loại nguồn tín hiệu nào. Nguyên lý của bộ mã hóa dạng sóng là mã hóa dạng sóng của tiếng nói. Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu tiếng nói tương tự liên tục và mã hoá thành tín hiệu số trước khi phát di. Tại phía thu, bộ giải mã sẽ làm nhiệm vụ ngược lại để khôi phục tín hiệu tiếng nói. Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục được sẽ rất giống với dạng sóng của tiếng nói gốc. Những bộ mã hóa dạng sóng khá phù hợp với kỹ thuật mã hóa tốc độ cao vì chất lượng của chúng giảm rất nhanh khi giảm tốc độ bit. Trong thực tế, các bộ mã hóa dạng sóng hoạt động có hiệu quả ở tốc độ 32kbps hay cao hơn. Tỉ số tín hiệu trên nhiễu – SNR (Signal-to-noise ratio) thường được sử dụng để đánh giá chất lượng của các bộ mã hóa dạng mã sóng. Một số ví dụ liên quan là những bộ mã hóa PCM và ADPCM. Mã hóa dạng sóng hoạt động trong miền thời gian hoặc miền tần số. Có rất nhiều kiểu mã hóa dạng sóng. Một số phương pháp thực hiện việc phân tích tín hiệu thoại đầu vào trong miền tần số trong khi các phương pháp khác thực hiện việc phân tích trong miền
  • 6. thời gian. Mã hóa dạng sóng là tương đối đơn giản, phương pháp này lợi dụng được rất ít độ dư thừa vốn có trong tiếng nói của con người do dó nó không có nhiều hiệu quả trong việc giảm tốc độ dữ liệu trên kênh truyền vô tuyến. Trên thực tế phương pháp này chỉ cho phép dữ liệu tốc độ cao nhưng nó lại cung cấp thoại với chất lượng tốt và có thể chịu được tạp âm nền. Thậm chí nhiều phương pháp mã hóa dạng sóng có thể mã hóa cả âm nhạc và những âm thanh khác không phải là tiếng nói của con người. Phương pháp này hoạt động độc lập với cách mà tín hiệu được tạo ra và cố gắng xây dựng lại tín hiệu gần giống với tín hiệu gốc ban đầu. Mã hóa dạng sóng không phức tạp lắm và nói chung là sử dụng tốc độ bit tương đối cao (trên 16 Kbps). PCM tuyến tính (64 Kbps) biểu thị loại mã hóa dạng sóng đơn giản nhất, phương pháp này chỉ đơn thuần bao gồm việc lấy mẫu và lượng tử hoá, mã hóa sóng đầu vào. ADPCM (tốc độ 32 Kbps, tiêu chuẩn CCITT/ITU G.721) được sử dụng trong một số hệ thống truy nhập vô tuyến (DECT và PHS) là một thuật toán mã hóa phức tạp hơn nhưng vẫn cung cấp tốc độ bit tương đối cao. Tốc độ của phương pháp ADPCM có thể tùy biến từ 16, 24, 32 cho đến 40 Kbps (CCITT/ITU G.726/727). a. Mã hóa 64 Kbít PCM (ITU G. 711) Các bộ mã hóa điều chế xung mã PCM là bộ mã hóa dạng sóng đơn giản nhất. Thoại băng hẹp được lấy mẫu với tần số 8000 Hz và mỗi một mẫu thoại phải được lượng tử hoá. Nếu lượng tử hoá tuyến tính được sử dụng thì cần thiết phải dùng 12 bit mã hóa cho một mẫu và dẫn đến tốc độ bit là 96 Kbit/s. Tuy nhiên, tốc độ này có thể được giảm xuống một cách dễ dàng bằng cách sử dụng lượng tử hoá phi tuyến tính. Trong việc mã thoại người ta thấy rằng với việc lượng tử hoá phi tuyến, 8 bit mã hóa cho một xung mẫu là đủ đảm bảo chất lượng thoại và gần như khó mà phân biệt được so với thoại gốc ban đầu. Điều này dẫn đến tốc độ bit chuẩn là 64 Kbit/s và hai loại bộ mã hóa phi tuyến PCM đã trở thành tiêu chuẩn vào những năm 60 của thê kỷ 20. Một kỹ thuật được sử dụng phổ biến trong việc mã thoại là cố gắng dự đoán giá trị của mẫu tiếp theo từ những mẫu trước đó. Nêu dự đoán có hiệu quả, thì tín hiệu sai lệch giữa những mẫu đã dự đoán và những mẫu thoại thực sẽ có một sự khác biệt thấp hơn so với giữa các mẫu thoại nguyên gốc. Bởi vậy, chúng ta có thể lượng tử hoá những tín hiệu sai lệch này với một số lượng bit ít hơn so với tín hiệu mẫu thoại gốc. Đây là cơ sở của những mô hình điều chế xung mã vi sai – DPCM (Differential Pulse Code Modulation)- chúng lượng tử hoá sự khác biet giữa những tín hiệu gốc và tín hiệu dự đoán. Kêt quả từ những bộ mã hoá như vậy có thể được cải thiện nếu bộ dự đoán và bộ lượng tử có sự tương thích sao cho chúng thay đổi phù hợp với các đặc tính của thoại được mã hoá. Điều này dẫn tới kỹ thuật điêu chế xung mã vi sai thích ứng – ADPCM (Adaptive Differential Pulse Code Modulation). Vào giữa những năm 1980, CCITT đã chuẩn hoá bộ mã hóa ADPCM hoạt động ở tốc độ 32Kbps với chất lượng thoại tương đương với phương pháp điêu chế mã xung 64Kbps. Sau đó, các bộ mã hóa ADPCM hoạt động ở các tôc độ 16, 24 và 40Kbps cũng đã được chuẩn hóa. Sơ đồ bộ mã hóa và giải mã ADPCM được minh họa ở hình 3.1 dưới đây. Hình 3.1: Bộ mã hóa và giải mã ADPCM
  • 7. b. Mã hóa ADPCM (ITUG.721, G.726, G.727) Bộ mã hóa điều chế xung mã vi sai thích nghi (ADPCM) là bộ mã hóa dạng sóng thay vì lượng tử hoá trực tiếp tín hiệu thoại, giống như phương pháp PCM, nó lượng tử hóa sự khác nhau giữa tín hiệu thoại và tín hiệu dự doán. Nêu sự dự đoán là chính xác thì sự khác nhau giữa các mẫu thật và mẫu dự đoán sẽ nhỏ hơn, ít khác biệt hơn so với giữa các mẫu thoại thực, và sự khác biệt này nếu được lượng tử hoá chính xác thì sẽ cần số bit ít hơn so với việc phải lượng tử hoá các mẫu thoại gốc. Tại bộ giải mã, tín hiệu khác biệt mà đã được lượng tử hóa được cộng với tín hiệu dự đoán để khôi phục lại tín hiệu thoại ban đầu. Hiệu năng của bộ mã hóa được cải thiện thông qua việc sử dụng bộ dự đoán và lượng tử thích nghi sao cho bộ dự đoán và bộ lượng tử phải thích ứng với những đặc tính thay đổi của thoại đang được mã hoá. 2. Mã hóa tham số Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps. Để tiếp tục giảm tốc độ bit, cân phải khai thác mô hình tạo tiếng nói. Từ đây, người ta có khái niệm mã hóa tham số hoặc còn gọi là mã hóa dựa trên mô hình. Ở đây, các bộ mã hóa tham số hoạt động sử dụng mô hình nguồn tín hiệu được tạo ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham sô của mô hình và truyền chúng tới bộ giải mã. Các bộ mã hóa tham số cho tín hieu thoại còn được gọi là Vocoder (Voice + Coder). Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ có thể xử lý được tiếng nói của con người. Mã hóa tham số hoạt động với tôc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại là hoàn toàn dễ hiểu nhưng chúng lại khác khá nhiêu so với giọng nói tự nhiên của con người. a. Mô hình LPC Mô hình toán học của mã hóa dự đoán tuyến tính được minh họa ở hình vẽ dưới đây: Hình 3.2: Mô hình toán học của LPC Ở đây tín hiệu thoại số là đầu ra của bộ lọc số - bộ lọc LPC có đầu vào là dãy các xung hoặc chuỗi nhiễu trắng. Nói cách khác, cuống họng được đặc trưng bởi bộ lọc biên đổi theo thời gian và bị kích thích với những nguồn nhiễu trắng khác cho phân đọan thoại vô thanh hoặc một dãy các xung phân tách theo chu kỳ âm thanh cho các âm hữu thanh. Do vậy thông tin phải được gửi đến bộ giải mã là các tham số đặc trưng cho bộ lọc; âm vô thanh/hữu thanh; những thay đổi cần thiết của tín hiệu kích thích, chu kỳ âm thanh. Quá trình này được cập nhật liên tục 10–20 ms theo bản chất không dừng (nonstationary) của tín hiệu thoại. Hàm truyên đạt của bộ lọc được xác định theo biểu thức
  • 8. Điều này tương đương với việc quan hệ vào ra của bộ lọc tuân theo phương trình vi phân tuyến tính: Mô hình LPC có thể được biểu diễn lại dưới dạng vector như sau: A thay đổi theo chu kỳ 20 ms, tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương đương với 160 mẫu. Do vậy tín hiệu thoại được phân chia thành các khung có kích cỡ 20 ms hay có 50 khung/sec. Mô hình A theo bieu thức trên tương đương với b. LPC Vocoder 2,4Kbps LPC Vocoder 2,4Kbps có sơ đồ khối chức năng được mô tả theo hình vẽ 3.3 dưới đây. Bộ mã hóa thoại này hoạt động với tốc độ khoảng 2,4 Kbps hoặc thấp hơn và tạo ra thoại có âm thanh dễ hiểu nhưng không trung thực so với bản chất tự nhiên của thoại con người. LPC Vocoder chủ yếu được áp dụng trong lĩnh vực quân sự, ở đó các âm thanh tự nhiên của thoại không quan trọng bằng tốc độ bit chậm cho phép bảo vệ và mã hóa điênn thoại an toàn. Hình 3.3: Sơ đồ khối chức năng LPC Vocoder 2,4Kbps 3. Mã hóa lai Mã hóa lai cố gắng lấp khoảng cách ranh giới giữa mã hóa dạng sóng và mã hóa nguồn. Mã hóa dạng sóng như được mô tả ở trên là có khả năng cung cấp được thoại với chất lượng khá tốt với tốc độ bít xuống đến 16Kbps nhưng bị giới hạn về sử dụng tới tốc độ thấp hơn. Bộ mã nguồn có thể hoạt động ở tốc độ khoảng 2,4 Kbps và thấp hơn, nhưng không thể tạo ra âm thanh trung thực ở bất kỳ tốc độ nào. Mặc dù có nhiều dạng mã hóa lai, nhưng thành công và thường được sử dụng nhiều nhất là các bộ mã hóa trong miền thời gian “thực hiện các phép phân tích thông qua việc tổng hợp” - AbS (Analysic - by - Synthesis). Những bộ mã hóa này sử dụng mô hình bộ lọc dự đoán tuyến tính cho cơ quan phát âm như trong các bộ mã thoại LPC. Tuy nhiên, để thay thế cho việc ứng dụng mô hình ở trạng thái đơn giản – hữu thanh/vô thanh, mô hình này cô gắng giảm tối đa sai lệch giữa dạng sóng tín hiệu đầu vào và dạng sóng tín hiệu được xây dựng lại bằng việc tìm kiếm tín hiệu kích thích lý tưởng. Các bộ mã hóa AbS lần đầu tiên được giới thiệu bởi Atal và Remde và mô hình đầy đủ của hệ thống mã hóa và giải mã AbS được miêu tả ở trong hình 3.4 dưới đây: Hình 3.4: Cấu trúc bộ mã hóa và giải mã lai AbS
  • 9. Trước tiên, bộ mã hóa AbS phân tích tín hiệu thoại đầu vào thành các khung ngắn có độ dài 20 ms. Các tham số của một khung sẽ xác định một bộ lọc tổng hợp tương ứng với khung đó và tín hiệu kích thích tương ứng cho mỗi bộ lọc này sẽ được xác định thông qua một vòng lặp. Tín hiệu kích thích phải đảm bảo rằng sai lệch giữa tín hiệu đầu vào và tín hiệu được tái tạo lại là nhỏ nhất. Cuối cùng bộ mã hóa sẽ truyền đi những thông tin liên quan đến các bộ lọc bao gồm các tham số và tín hiệu kích thích tương ứng với mỗi bộ lọc gửi cho bộ giải mã. Ở bộ giải mã, tín hiệu kích thích sẽ được đưa qua bộ lọc tổng hợp để xây dựng lại tín hiệu thoại ban đầu. Bộ lọc tổng hợp thường là một bộ lọc tuyến tính, ngắn hạn nhưng nó cũng có thể bao gồm một bộ lọc độ cao âm thanh (pitch filter) liên quan đến mô hình tuần hoàn dài hạn của tín hiệu thoại. Phương pháp này cung cấp tín hiệu thoại có chất lượng cao tại tốc độ bit thấp. Tuy nhiên độ phức tạp của phương pháp này là khá lớn bởi vì tất cả các tín hiệu kích thích có thể có đều phải được đưa qua bộ lọc tổng hợp để tìm ra tín hiệu kích thích thích hợp nhất. Câu IV : Mã hóa âm thanh (ngưỡng nghe, mặt nạ tần số, mặt nạ thời gian, các dải băng tần tới hạn, perceptual coding…) (đã làm ở câu I) Tín hiệu âm thanh có thể được số hóa bởi một thiết bị ADC (Bộ chuyển đổi tương tự/số). ADC nhận tín hiệu đầu vào là điện áp của tín hiệu và đầu ra là các số nhị phân. Xem một ví dụ về một tín hiệu âm thanh ở dạng sóng hình sin (Hình 4.1a). Để biểu diễn tín hiệu này ở dạng số, trước tiên chúng ta lấy mẫu tín hiệu này theo chu ky T (Hình. 4.1b). Nếu 1 tín hiệu âm thanh không phải là một sóng sin chuẩn mà là một sóng sin tổ hợp tuyến tính của nhiều sóng sin khác, và có tần số lớn nhất là f, thì theo định lý Nyquist, tần số lấy mẫu là 2f. Hình 4.1: (a) Một tín hiệu âm thanh hình sin; (b) Lấy mẫu; (c) Lượng tử hóa Nén âm thanh có thể được thực hiện theo một trong hai cách. Cách thứ nhất là mã hóa dạng sóng, các tín hiệu được biến đổi toán học bằng phép biến đổi Fourier thành các thành phần tần số. Các biến độ của mỗi thành phần sau đó được mã hóa. Mục tiêu là để tái tạo lại dạng sóng một cách chính xác với số lượng bit mã hóa thấp nhất có thể. Cách thứ hai là mã hóa dựa trên cảm nhận của các giác quan của con người. Ở đây, người ta khai thác một số điểm yếu trong hệ thông thính giác của con người để mã hoá một tín hiệu, đó là mã hóa dựa trên khoa học tâm sinh lý nghe (Psychoacoustics) – cách thức con người cảm nhận âm thanh. Chuẩn nén MP3 dựa trên mã hóa cảm nhận này (perceptual coding). Đặc tính chính của mã hóa cảm nhận là một số âm thanh có thể che các âm thanh khác. Hãy tưởng tượng bạn thổi sáo trong một ngày mùa hè ấm áp. Sau đó, đột ngột có một nhóm thợ gần đó bật búa khoan và bắt đầu phá mặt đường. Khi đó không ai có thể nghe được sáo nữa. Âm thanh của tiếng sáo đã bị che bởi âm thanh của tiếng búa. Do vậy để mã hoá chỉ cần tần số bằng tần sô của búa bởi vì không thể nghe được tiếng sáo. Đây gọi là che tần số (frequency masking) – khả năng một âm thanh lớn trong một băng tần số sẽ che những âm thanh có tần số thấp hơn và do vậy chỉ có thể nghe những âm thanh có tần số lớn. Trong thực tế, ngay cả sau khi âm thanh của tiếng búa ngừng, cũng không
  • 10. thể nghe thấy các âm thanh của tiếng sáo trong một khoảng thời gian ngắn. Hiện tượng này được gọi là che thời gian (temporal masking). So sánh giữa nén thoại và nén âm thanh được mô tả vắn tắt ở bảng dưới đây Câu V: Các khái niệm cơ bản về âm thanh, xử lý ảnh, video Đứng trên góc độ cảm nhận của thị giác, ảnh là một sự vật đại diện cho người, sinh vật hay một đồ vật nào đó… Đứng trên góc độ kỹ thuật thì ảnh được nhận biết thông qua hệ thống thị giác hai chiều. Ảnh động (video) như đã thấy trên truyền hình, phim ảnh là tập hợp của nhiều ảnh liên tiếp. Khi một ảnh được số hoá thì nó trở thành ảnh số và ảnh số này lại là tập hợp của các phân tử ảnh nhỏ được gọi là điểm ảnh “pixel”. Mỗi điểm ảnh lại được biểu diễn dưới dạng một số hữu hạn các bit. Ta có thể chia thành 3 loại ảnh khác nhau: • Ảnh đen trắng: mỗi điểm ảnh được biểu diễn bởi 1 bit, các ảnh này đôi khi còn được gọi là Bi-level hoac Bi-tonal images. • Ảnh Gray-scale: mỗi điểm ảnh được biểu diễn bằng các mức chói khác nhau, thường thì được biểu diễn bằng 256 mức chói hay 8 bit cho mỗi điểm ảnh. • Ảnh màu: mỗi điểm ảnh màu được chia ra gồm 1 tín hiệu chói và các tín hiệu màu. Lĩnh vực xử lý ảnh đề cập đến việc xử lý ảnh bằng máy tính số. Trong thực tế, người ta phân chia thành ba loại xử lý của máy tính trong quá trình liên tục từ: mức thấp, mức trung, đến mức cao. - Quá trình xử lý mức thấp liên quan đến những hoạt động như là tiền xử lý ảnh để giảm nhiễu, tăng độ sáng. Một quá trình xử lý thấp có đặc điểm là có đầu vào và đầu ra của nó đều là hình ảnh. - Xử lý ảnh mức trung liên quan đến công việc như phân đọan ảnh (segmentation), mô
  • 11. tả những đối tượng và đưa chúng vào một mẫu thích hợp cho các máy tính xử lý, và phân loại từng đối tượng. Mức trung có đặc điểm đâu vào của nó thường là hình ảnh, nhưng kêt quả đâu ra của nó là thuộc tính trích ra từ những hình ảnh (ví dụ như các cạnh, đường viền của ảnh, và nhận dạng của các đối tượng cá nhân). - Xử lý ảnh mức cao liên quan đến việc "tạo cảm nhận" của một tập các đối tượng nhận dạng, như trong phân tích ảnh, và xa hơn là quá trình thực hiện các chức năng nhận dạng thông thường gần với hệ thống thị giác của con người. Câu VI: Các bước xử lý ảnh số Các bước xử lý ảnh số được mô tả ở hình vẽ 6.1 dưới đây. Hình 6.1: Các bước xử lý ảnh số Các giai đọan chính trong xử lý ảnh: 1. Thu nhận hình ảnh: Đây là giai đọan đầu tiên và quan trọng nhất trong toàn bộ quá trình xử lý ảnh. Ảnh nhận được tại đây chính là ảnh gốc để đưa vào xử lý tại các giai đọan sau, trường hợp ảnh gốc có chất lượng kém hiệu quả của các bước xử lý tiếp theo sẽ bị giảm. Thiêt bị thu nhận có thể là các ống ghi hình chân không (vidicon, plumbicon...) hoac CCD (Charge-Coupled Device). 2. Tiền xử lý ảnh: Giai đọan xử lý tương đối đơn giản nhằm nâng cao chất lượng ảnh để trợ giúp cho các quá trình xử lý nâng cao tiếp theo, ví dụ: tăng độ tương phản, làm nổi đường biên, khử nhiễu … 3. Phân đọan: là quá trình tách hình ảnh thành các phần hoặc vật thể riêng biệt. Đây là một trong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh. Nêu thực hiện tách quá chi tiết thì bài toán nhận dạng các thành phần được tách ra trở nên phức tạp, còn ngược lại nếu quá trình phân đọan được thực hiện quá thô hoặc phân đọan sai thì kết quả nhận được cuôi cùng sẽ không chính xác. 4. Biểu diễn và mô tả: là quá trình xử lý tiếp sau khâu phân đọan hình ảnh. Các vật thể sau khi phân đọan có thể được mô tả dưới dạng chuỗi các điểm ảnh to nên ranh giới một vùng, hoặc tập hợp tất cả các điểm ảnh nằm trong vùng đó. Phương pháp mô tả thông qua ranh giới vùng thường được sử dụng khi cần tập trung sự chú ý vào hình dạng bên ngoài của chi tiêt ảnh như độ cong, các góc cạnh… Biểu diễn vùng thường được sử dụng khi chúng ta quan tâm tới đặc tính bên trong của vùng ảnh như đường vân (texture) hay hình dạng (skeletal). 5. Nén ảnh: bao gôm các biện pháp giảm thiểu dung lượng bộ nhớ cần thiêt để lưu trữ hình ảnh, hay giảm băng thông kênh truyền, cần thiết để truyền tín hiệu hình ảnh số. 6. Nhận dạng: là quá trình phân lọai vật thể dựa trên cơ sở các chi tiết mô tả vật thể đó (ví dụ các phương tiện giao thông có trong ảnh). Câu VII: Các thành phần của hệ thống xử lý ảnh số Thiết bị thu nhận hình ảnh: là thiêt bị biến đổii quang-điên, cho phép biến đổi hình ảnh quang học thành tín hiệu điện dưới dạng analog hay trực tiếp dưới dạng só. Có nhiều dạng cảm biến cho phép làm việc với ánh sáng nhìn thấy hoặc hồng ngoại. Hai lọai thiết bị biến đổi quang – điện chủ yếu thường được sử dụng là đèn ghi hình điện tử và CCD. Bo nhớ trong và ngoài: các hệ thống xử lý ảnh số thường có dung lượng rất lớn dùng để
  • 12. lưu trữ ảnh tĩnh và động dưới dạng số. Ví dụ, để lưu một ảnh số đen trắng kích thước 1024x1024 điểm, mỗi điểm được mã hóa bằng 8 bits cần bộ nhớ ~1MB. Để lưu mot ảnh màu không nén, dung lượng bố nhớ phải tăng lên gấp 3. Bộ nhớ số trong hệ thống xử lý ảnh có thể chia làm 3 loại: 1- bộ nhớ đệm trong máy tính để lưu ảnh trong quá trình xử lý. Bộ nhớ này phải có khả năng ghi/đọc rất nhanh (ví dụ 25 hình/s); 2- bộ nhớ ngoài có tốc Độ truy cập tương đối nhanh, dùng để lưu thông tin thường dùng. Các bộ nhớ ngoài có thể là ổ cứng, thẻ nhớ flash... 3- Bộ nhớ dùng để lưu trữ dữ liệu. Loại bộ nhớ này thường có dung lượng lớn, tốc độ truy cập không cao. Thông dụng nhất là đĩa quang ghi 1 lần (ROM) hoặc nhiều lần (ROM) như đĩa DVD có dung lượng 4.7GB (một mặt). Ngoài ra trong hệ thống xử lý ảnh còn sử dụng các thiết bị cho phép lưu ảnh trên vật liệu khác như giấy in, giấy in nhiệt, giấy trong, đó có thể là máy in phun, in laser, in trên giấy ảnh đặc biệt bằng công nghệ nung nóng … Câu trúc của một hệ thống xử lý ảnh số được mô tả ở hình vẽ 7.1 dưới đây. Hình 7.1: Các thành phần chính của hệ thống xử lý ảnh số Bộ xử lý ảnh chuyên dụng: Sử dụng chip xử lý ảnh chuyên dụng, có khả năng th ực hiện nhanh các lệnh chuyên dùng trong xử lý ảnh. Cho phép thực hiện các quá trình xử lý ảnh như lọc, làm nổi đường bao, nén và giải nén video số…Trong bộ xử lý ảnh thường tích hợp bộ nhớ đệm có tốc độ cao. Màn hình hiển thị: Hệ thống biên đổi điện - quang hay đèn hình (đen trắng cũng như màu) có nhiệm vụ biến đổi tín hiệu điện có chứa thông tin của ảnh (tín hiệu video) thành hình ảnh trên màn hình. Có hai dạng display được sử dụng rộng rãi là đèn hình CRT (Cathode-Ray Tube) và màn hình tinh thể lỏng LCD (Liquid Crystal Display). Đèn hình CRT thường có khả năng hiện thị màu sắc tốt hơn màn hình LCD nên được dùng phổ biến trong các hệ thống xử lý ảnh chuyên nghiệp. Máy tính: có thể là máy tính để bàn cũng như siêu máy tính có chức năng điều khiển tất cả các bộ phận chức năng trong hệ thống xử lý ảnh số. Câu VIII: Lấy mẫu và lượng tử hóa tín hiệu ảnh, video 1. Lấy mẫu và lượng tử hóa tín hiệu ảnh Lấy mẫu tín hiệu: Quá trình lấy mẫu tín hiệu được mô tả trên hình 8.1. Tín hiệu ảnh ứng với một dòng ảnh AB là tín hiệu một chiều liên tục theo thời gian và có biên độ biến đổi liên tục (hình 8.1b). Khi lấy mẫu, thời gian truyền dòng AB được chia ra thành nhiều đọan bằng nhau. Giá trị tín hiệu tới các điểm lấy mẵu được đánh dấu ô vuông trên đồ thị. Theo định lý lấy mẫu Nyquist, nếu tần số lấy mẫu lớn hơn (hoặc bằng) hai lần tần số lớn nhất trong phổ tín hiệu tương tự, thì tập hợp các mẫu rải rác nhận được hoàn toàn xác định tín hiệu đó. Để biến đổi tiếp tín hieu thành dạng số, chúng ta phải thực hiện giai đọan lượng tử hóa các mẫu vừa nhận được. Đây là quá trình rời rạc tín hiệu theo biên độ. Trên hình 8.1d thang xám được chia thành 8 mức rời rạc từ mức trắng tới mức đen. Lượng tử hóa được thực hiện đơn giản bằng cách tìm giá trị mức lượng tử gần giống nhất với giá trị th ực của mẫu và gán giá trị này cho mẫu ảnh.
  • 13. Kết quả nhận được sau khi lấy mẫu và lượng tử hóa là chuỗi số rời rạc mô tả biến đổi độ chói trong một dòng ảnh. Nêu thực hiện quá trình số hóa cho tât cả các dòng ảnh từ trên xuống dưới, chúng ta sẽ nhận được ảnh số trong không gian hai chiều. Hình 8.1: Quá trình số hóa tín hiệu ảnh 2. Lấy mẫu và lượng tử hóa tín hiệu Video Trong những năm gần đây công nghệ phần cứng và những hoạt động chuẩn hóa đã phát triển tới mức có tính khả thi trong việc truyền tải, lưu trữ, xử lý, và xem những tín hiệu video được lưu ở dạng số, và trong việc chia sẻ tín hiệu video giữa các ứng dụng khác nhau. Đó là sự phát triển tự nhiên vì thay đổi tạm thời thường có liên quan đến chuyển động của vài kiểu là thuộc tính quan trọng nhất của một tín hiệu trực quan. Theo lý thuyết, một tín hiệu video tương tự I(x, y, t) trong đó (x, y) là tọa độ không gian liên tục và t là thời gian liên tục thì liên tục trong cả hai chiều thời gian và không gian, vì thông lượng bức xạ vốn có ở độ cảm biến video là liên tục ở mức quan sát bình thường. Video số là hiển thị của một hiện tượng tự nhiên trự c quan (thế giới thực), được lấy mẫu theo không gian và thời gian. Một hiện tượng được lấy mẫu ở một điểm thời gian để tạo ra khung (là hiển thị của hiện tượng trực quan một cách đầy đủ tại thời điểm đó) hoặc một trường (bao gồm các dãy các mẫu về không gian được đánh số chẵn lẻ). Lấy mẫu được lặp lại theo chu kì (ví dụ, chu kì 1/25 hoặc 1/30 giây) để tạo ra tín hiệu video động. Có 3 bộ mẫu (các thành phần) được yêu câu chủ yếu để hiển thị một hiện tượng theo màu sắc. Như vậy mỗi một mẫu không gian – thời gian (yêu tô hình ảnh hay pixel) được hiển thị như là một số hay một bộ các số mô tả độ chói và màu sắc của mẫu. Hình 8.2: Lấy mẫu theo không gian và thời gian của một chuỗi video Lấy mẫu không gian Đâu ra của một mảng CCD là một tín hiệu tương tự, một tín hiệu điện biến đổi hiển thị hình ảnh video. Lấy mẫu tín hiệu tại một thời điểm tạo ra một hình ảnh hay khung hình được lấy mẫu xác định giá trị trong tập các điểm lấy mẫu. Định dạng phổ biến nhất cho một ảnh lấy mẫu là một hình chữ nhật với điểm lấy mẫu nằm trên một hình vuông hay lưới chữ nhật. Việc lấy mẫu xảy ra tại một trong các điểm giao nhau trên lưới và hình ảnh được lấy mẫu có thể được tái tạo lại bởi việc hiển thị từng mẫu như là một yếu tố hình ảnh vuông (pixel). Lấy mẫu thời gian Một hình ảnh video chuyển động được chụp bởi việc chụp theo điểm chữ nhật của tín hiệu theo các chu kì thời gian. Chiếu lại một loạt các khung tạo ra sự chuyển động. Tốc độ lấy mẫu cao hơn (tốc độ khung) cho ta sự chuyển động mượt mà hơn trong cảnh video nhưng yêu cầu nhiều mẫu được chụp và lưu nhiều hơn. Tốc độ khung dưới 10 khung trên giây thường được sử dụng cho thông tin video tốc độ bit thấp (vì số lượng thông tin tương đối nhỏ) nhưng sự chuyển động thì khá giật và không tự nhiên ở tốc độ này. Từ 10 đến 20 khung trên giây thì thông dụng hơn cho thông tin video tốc độ bit thấp; hình ảnh trơn tru hơn nhưng chuyển động bị giật có thể xảy ra trong các phần hình ảnh chuyển động nhanh. Lấy mẫu ở 25 đến 30 hình trên giây là chuẩn cho hình ảnh truyền
  • 14. hình (sự đan xen vào nhau để cải thiện hình ảnh chuyển động, xem bên dưới); 50 đến 60 khung trên giây sự chuyển động mượt mà (tuy nhiên chi phí cao cho tôc độ rất cao này) Câu IX: Tổng quan về nén ảnh Việc nén ảnh đưa đến vấn đề về giảm thiểu số lượng dữ liệu yêu câu để tái hiện lại một ảnh số. Cốt lõi của quá trình rút gọn là loại bỏ dữ liệu dư thừa. Dưới quan điểm toán học, số lượng để chuyển đổi chuỗi điểm ảnh 2-D thành một bộ dữ liệu không tương quan về mặt thống kê. Việc chuyển đổi được ứng dụng trước tiên cho việc lưu trữ hoặc truyền hình ảnh. Tại một thời điểm sau đó, hình ảnh đã nén được giải nén để tái tạ o lại hình ảnh gốc hoặc gần đúng của nó. Nén ảnh số là một đề tài nghiên cứu rất phổ biến trong lĩnh vực xử lý dữ liệu đa phương tiện. Mục đích là làm thế nào để lưu trữ bức ảnh dưới dạng có kích thước nhỏ hơn hay dưới dạng biểu diễn mà chỉ yêu cầu số bit mã hoá ít hơn so với bức ảnh gốc. Nén ảnh thực hiện được là do một thực tế: thông tin trong bức ảnh không phải ngẫu nhiên mà có trật tự, có tổ chức. Vì thế, nếu bóc tách được tính trật tự, cấu trúc đó thì sẽ biết được phần thông tin nào quan trọng nhất trong bức ảnh để biểu diễn và truyền đi với số lượng bit ít hơn ảnh gốc mà vẫn đảm bảo tính đầy đủ thông tin. Ở phía thu, quá trình giải mã sẽ tổ chức, sắp xếp lại được bức ảnh, xâp xỉ gần chính xác so với ảnh gốc nhưng vẫn thoả mãn chất lượng yêu cầu, đảm bảo được thông tin cần thiết. 1. Nguyên tắc cơ bản Phần tử nén ảnh dữ liệu ám chỉ đến quá trình giảm lượng số liệu dư thừa số liệu cần thiết để biểu diễn cùng một lượng thông tin cho trước. Độ dư thừa số liệu là vấn đề trung tâm trong nén ảnh số. Đánh giá cho quá trình thực hiện giải thuật nén là tỉ lệ nén (CN ) được xác định như sau: Nếu N1 và N2 là lượng số liệu trong hai tập hợp số liệu cùng được dùng để biểu diễn lượng thông tin cho trước thì độ dư thừa số liệu tương đối R D của tập số liệu thứ nhất so với tập số liệu thứ hai có thể được định nghĩa như sau: RD = 1 – 1/ CN trong đó: C N = N1 / N2 Trong trường hợp N1 = N2 thì CN = 1 và có nghĩa là so với tập số liệu thứ hai thì tập số liệu thứ nhất không chứa số liệu dư thừa. Khi N 2 << N1 thì CN tiến tới vô cùng và R D tiến tới một, có nghĩa là độ dư thừa số liệu tương đối của tập số liệu thứ nhất là khá lớn hay tập số liệu thứ hai đã được nén khá nhỏ. Ở đây có sự kết hợp giữa tỉ lệ nén và chất lượng hình ảnh. Tỉ lệ nén càng cao sẽ làm giảm chất lượng hình ảnh và ngược lại. Chất lượng và quá trình nén có thể thay đổi tùy theo đặc điểm của hình ảnh nguồn và nội dung ảnh. Đánh giá chất lượng ảnh được đề nghị tính số bit cho một điểm trong ảnh nén (N b). Nó được xác định là tổng sô bit ở ảnh nén chia cho tổng số điểm: Nb = Số bit nén/Số điểm Trong nén ảnh số, ba loại dư thừa số liệu có thể được nhận dạ ng và phân biệt. • Dư thừa mã (Coding Redundancy) Nêu các mức của tín hiệu video được mã hóa bằng các symbol nhiều hơn cần thiết
  • 15. (tuyệt đối) thì kết quả là có độ dư thừa mã. Để giảm độ dư thừa mã, trong nén ảnh thường Sử dụng các mã VLC như mã Huffman, mã RLC v.v... Lượng thông tin vê hình ảnh có xác suất thấp hơn. • Dư thừa trong pixel (Interpixel Redundancy) Vì giá trị của bất kỳ một pixel nào đó, cũng có thể được dự báo từ giá trị của các lân cận của nó, nên thông tin từ các pixels riêng là tương đối nhỏ. Sự tham gia của một pixel riêng vào một ảnh là dư thừa. Để giảm độ dư thừa trong pixel của một ảnh, dãy pixel hai chiều dùng cho việc nhìn và nội suy, phải được biến đổi thành một dạng có hiệu quả hơn. Trong các phương pháp nén ảnh được trình bày, ta dùng phép biến đổi cosin rời rạc (DCT) biến đổi pixel từ miền không gian sang miền tần số, bằng cách này se giảm được độ dư thừa số liệu trong pixel ở miền tần số cao. • Dư thừa tâm sinh lý Bằng trực quan ta thấy, sự thu nhận cường độ sáng thay đổi chỉ giới hạn trong một phạm vi nhất định. Hiện tượng này xuât phát từ sự thật là mắt không đáp ứng với cùng độ nhạy của tất cả các thông tin nhìn thấy. Thông tin đơn giản có tầm quan trọng ít hơn thông tin khác trong vùng nhìn thấy. Thông tin này được gọi là độ dư thừa tâm lý nhìn. Nó có thể được loại bỏ mà không ảnh hưởng đáng kể đến chất lượng thu nhận ảnh. Khác Với độ dư thừa mã và dư thừa trong pixel, độ dư thừa tâm sinh lý có liên quan đến thông tin theo định lượng, nó có quan hệ tới việc lượng tử hóa. Điều đó có nghĩa là ánh xạ một khoảng rộng các giá trị đầu vào lên một số hữu hạn các giá trị đầu ra. Đó là toán tử không đảo ngược (mất thông tin) cho kêt quả nén số liệu có tổn hao. 2. Mô hình nén Một hệ thống nén video tiêu biểu (hay bộ mã hoá nguồn) bao gồm: bộ chuyển đổi, Bộ lượng tử hoá, bộ mã hoá (hình 9.1). Hình 9.1: Sơ đồ khối hệ thống nén ảnh tiêu biểu - Bộ chuyển đổi: thường dùng phép biến đổi Cosin rời rạc để tập trung năng lượng tín hiệu vào một số lượng nhỏ các hệ số khai triển để thực hiện phép nén hiệu quả hơn là dùng tín hiệu nguyên thủy. - Bộ lượng tử hoá: tạo ra một lượng kí hiệu giới hạn cho ảnh nén với hai kỹ thuật: lượng tử vô hướng (thực hiện lượng tử hoá cho từng phần dữ liệu) và lượng tử vectơ (thực hiện lượng tử hoá một lần một khối dữ liệu). Quá trình này không thuận nghịch. - Bộ mã hoá: gán một từ mã, một dòng bit nhị phân cho mỗi kí hiệu. Các hệ thống nén được phân biệt dựa trên sự kết hợp khác nhau giữa 3 bộ xử lý trên và được phân loại như sau: - Hệ thống nén không mất thông tin (lossless data reduction): thực hiện tối thiểu tốc độ bit mà không làm méo ảnh, hệ thống còn gọi là nén toàn bit hay có tính chất thuận nghịch. - Hệ thống nén có mất thông tin (loss data reduction): đạt được do trung thực tốt nhất đối với tốc độ bit cho trước, hệ thống phù hợp áp dụng cho tín hiệu âm thanh và hình ảnh vì có hệ số nén cao. Trong sơ đồ hình 9.1, tầng chuyển đổi và tầng mã hoá là nơi tín hiệu xử lý không bị tổn thất, tầng lượng tử là có tổn thất. Ngoài ra, dựa trên quan điểm về tổn thất chúng ta có thể
  • 16. phân biệt hai loại mã hoá như sau: mã hoá Entropy (mã hoá không tổn thất) và mã hoá nguồn (mã hoá có tổn thất). Câu X: Phân loại các phương pháp nén ảnh Có nhiều cách phân loại các phương pháp nén khác nhau. Cách thứ nhất dựa vào nguyên lý nén. Cách này phân các phương pháp nén thành hai loại chính: • Nén không mất thông tin: bao gôm các phương pháp nén mà sau khi giải nén ta thu được chính xác dữ liệu gốc. • Nén có mất thông tin: bao gồm các phương pháp mà sau khi giải nén ta không thu được dữ liệu như bản gốc, trong nén ảnh, người ta gọi là các phương pháp “tâm lý thị giác”. Các phương pháp này lợi dụng tính chât của mắt người, chấp nhận một số sai số trong ảnh khi khôi phục lại. Tất nhiên, các phương pháp này chỉ có hiệu quả khi mà độ sai lệch là chấp nhận được bằng mắt thường hay với dung sai nào đó. Cách phân lo i thứ hai dựa vào cách thức thực hiện nén. Theo cách này, người ta cũng phân thành hai phương pháp: • P2 không gian: thực hiện nén bằng cách tác động trực tiếp lên việc lấy mẫu của ảnh gốc. • Phương pháp sử dụng biến đổi (Transform Coding): tác động lên sự biến đổi của ảnh gốc mà không tác động trực tiếp. Quá trình nén và giải nén có thể được mô tả tóm tắt theo hình vẽ dưới đây: Hình 10: Quá trình nén Câu XI: Các ppháp mã hóa dùng trong kỹ thuật nén ảnh không tổn thất Trong một vài ứng dụng nén không tổn thất nghĩa là chỉ có thể chấp nhận được sự giảm bớt dữ liệu. Trong một vài trườg hợp khác, nhu cầu việc nén không tổn thất được thúc đẩy bởi việc xem xét hoàn cảnh sử dụng hoặc tính tự nhiên của ảnh sau khi nén. Chúng ta sẽ tập trung vào những kế hoạch của việc nén không tổn thất hiện thời đang được sử dụng. Thông thường chúng cung cấp hệ số nén từ 2-10. Hơn nữa, chúng cũng thích hợp với cả ảnh nhị phân và mức độ xám. Kỹ thuật nén error-free thường bao gồm 2 thao tác tương đối độc lập: (1) việc sắp xếp một biểu diễn ảnh thay thế ảnh cũ trong đó sử dư thừa interpixel của nó được giảm bớt và (2) mã hoá lại biểu diễn ảnh đó để loại trừ tối đa sự dư thừa. Những bước này tương ứng với việc ánh xạ và mã hoá ký tự của kiểu mã hoá nguồn. 1. Mã hoá với độ dài từ mã thay đổi: Để đạt được tốc độ bít thấp hơn, các hệ số biến đổi và các tọa độ của các véc tơ chuyển động được mã với độ dài thay đổi (VLC). Trong VLC, các từ mã ngắn được gán tương ứng các giá trị xác suất cao và các từ mã dài ứng với các giá trị xác suất thấp. Độ dài của các mã nên biên đổi nghịch đảo với xác suất xuất hiện của các kí hiệu trong VLC. Tốc độ bít cần để mã hóa các kí hiệu này là nghịch đảo của logarit của xác suất, tức là log2p. Do dó, entropy của các kí hiệu là sô bít trung bình tối thiểu cần để biểu diễn các kí hiệu:
  • 17. Có hai loại VLC được ứng dụng trong mã hóa ảnh chuẩn, đó là mã hóa Huffman và mã hóa số học. Mã hóa Huffman được sử dụng trong tất cả các bộ mã hóa (CODEC) chuẩn để giải mã các hệ số biến đổi cosin rời rạc (DCT) đã được lượng tử hóa cũng như giải mã các vec tơ chuyển động. 2. Mã hoá dự đoán không tổn hao: Bây giờ chúng ta quay lại với một phương pháp nén mà nó không yêu cầu việc phân tích một ảnh thành một loạt các mặt phẳng bit. Với cách này quy chung lại là mã hoá dự đoán không tổn hao, được dựa trên cơ sở sự rút gọn đa điểm dư thừa của các điểm trong không gian gần nhau bằng cách rút ra và mã hoá chỉ với các thông tin mới trong mỗi điểm ảnh. Thông tin mới của một điểm ảnh mô tả sự khác nhau giữa các giá trị dự đoán và thực tế của điểm ảnh đó. Hình 1 chỉ ra các thành phàn cơ bản của một hệ thống mã hoá dự đoán không tổn hao. Hệ thống này bao gồm một bộ mã hoá và một bộ giải mã, mỗi khối chứa một bộ dự đoán đồng nhất. Với mỗi điểm ảnh lần lượt của ảnh đầu vào, biểu thị bằng f n , được đưa vào trước tiên trong bộ mã hoá, bộ dự đoán t ạo ra một giá trị dự đoán tước của điểm ảnh trên cơ sở số các đầu vào cũ. Đầu ra của bộ dự đoán sau đó được làm tròn thành giá trị nguyên gần nhất, biểu thị bởi fn, và được sử dụng để tạo ra sự khác biệt hoặc lỗi dự đoán. Hình 11: Mã hoá dự đoán không tổn hao: (a) Bộ mã hoá (b) Bộ giải mã Sự khác biệt được mã hoá sử dụng mã hoá loạt dài thay đổi (bằng bộ mã hoá biểu tượng) để tạo ra thành phần tiếp theo của dòng dữ liệu đã nén. Bộ giải mã trong hình 1 (b) tái tạo từ các từ mã loạt dài thay đổi nhận được và thực hiện quá trình đảo: Câu XI: Các phương pháp mã hoá dùng trong kỹ thuật nén có tổn thất Không như phương pháp nén không tổn thất được đưa ra ở phân trước, nén tổn thất được xây dựng trên cơ sở độ chính xác của việc khôi phục lạ i ảnh trong lúc trao đổi nhằm tăng hiệu quả nén. Nếu kết quả không chính xác (có thể được hiển thị rõ ràng hoặc không) có thể chấp nhận được, sự tăng dần trong việc nén là đáng kể. 1. Mã hoá dự, đoán có tổn thất Như hình 1 chỉ ra, bộ lượng tử, bộ thu toàn bộ chức năng của bộ mã hoá lỗi tự nhiên, được chèn vào giữa bộ mã hoá biểu tượng và điểm mà lỗi dự đoán được tạo ra. Nó ánh xạ lỗi dự đoán tại khoảng giới hạn đầu ra, biểu thị là e n, điều thiết lập sự liên đới giữa nén và kết hợp méo với mã hoá dự đoán tổn hao. Mã hóa DPCM (Differential Pulse Code Modulation) Đây là phương pháp mã hóa dự đoán có tổn thất dựa trên nguyên tắc phát hiện sự giống nhau và khác nhau giữa các điểm ảnh (pixels) gần nhau để tìm cách loại
  • 18. bỏ các thông tin thừa. Phương pháp DPCM còn sử dụng đặc điểm của mắt người (kém nhạy với mức lượng tử có chênh lệch về độ chói giữa điểm ảnh gần nhau, so với mức lượng tử hóa chênh lệch nhỏ) và cho phép dùng đặc trưng phi tuyến về lượng tử hóa. Hình vẽ 2 mô tả sơ đồ khối của bộ mã hóa và giải mã DPCM Hình 11.1: Mô hình mã hóa dự đoán có tổn thất (a): bộ mã hoá, (b): bộ giải mã 2. Mã hoá biến đổi (transform coding) Trong mã hoá biến đổi, một dòng đảoo ngược chuyển đổi (như biến đổi Fourier) được sử dụng để ánh xạ một ảnh vào một hệ số biến đổi, phân mà sau đó sẽ được lượng tử hoá và mã hoá. Cho hầu hết các ảnh tự nhiên, một số lớn đáng kể các hệ số cường độ nhỏ và được lượng tử thô (hoặc loại bỏ hoàn toàn) với ảnh méo nhỏ. Sự đa dạng trong biến đổi, bao gồm biến đổi rời rạc Fourier (DFT) có thể được sử dụng để biến đổi dữ liệu ảnh. Hình 3 chỉ ra hệ thống mã hoá chuyển đổi đặc trưng. Bộ giải mã thi hành bước đảo chuỗi (với sự loại bỏ thuật toán lượng tử) của bộ giải mã, bộ này thực hiện bốn hoạt động cân xứng đơn giản: Phân tích ảnh nhỏ, biến đổi, lượng tử hoá và mã hóa. Một ảnh đầu vào kích cỡ N×N đầu tiên được chia nhỏ ra thành các ảnh nhỏ cỡ n× n, sau đó được chuyển đổi để tạo ra mạng chuyển đổi ảnh nhỏ, mỗi phần có kích cỡ n× n. Mục đích của quá trình chuyển đổi là để sắp đặt mối tương quan của các điểm ảnh của mỗi ảnh nhỏ, hoặc để gói nhiều thông tin nhất có thể vào một số nhỏ nhất hệ số chuyển đổi. Cuối quá trình mã hoá là việc mã hoá (thường sử dụng mã hoá loạt dài) các hệ số lượng tử. Bất kỳ hay toàn bộ các bước mã hoá chuyển đổi có thể thích ứng với nội dung vùng ảnh gọi là mã hoá chuyển đổi thích ứng hoặc sửa đổi toàn bộ ảnh nhỏ gọi là mã hoá chuyển đổi không thích ứng. Hình 11.2: Hệ thống mã hóa biến đổi 3.Mã hoá Wavelet Mã hóa Wavelet dựa trên ý tưởng của mã hóa biến đổi, thay vì nén trực tiếp các điểm ảnh (pixel) thì nén các hệ số sau khi biến đổi. Điểm khác nhau cơ bản là Wavelet không chia ra các ảnh con trước khi biến đổi. Wavelet là phép biến đổi được sử dụng để phân tích các tín hiệu không ổn định (non-stationary) – là những tín hiệu có đáp ứng tần số thay đổi theo thời gian. Để khắc phục những hạn chế của biến đổi Fourier (FT), phép biến đổi Fourier thời gian ngắn (STFT) được đề xuất. Chỉ có một khác biệt nhỏ giữa STFT và FT là trong biến đổi STFT, tín hiệu được chia thành các khoảng nhỏ và trong khoảng đó tín hiệu được giả định là tín hiệu ổn định. Để thực hiện kỹ thuật này cần chọn một hàm cửa sổ w sao cho độ dài của cửa sổ đúng bằng các khoảng tín hiệu phân chia. Với phép biến đổi STFT, chúng ta có thể thu được đáp ứng tần số - thời gian của tín hiệu đồng thời mà với phép biến đổi FT ta không thực hiện được. Biến đổi STFT đối với tín hiệu liên tục thực được định nghĩa như sau: X ( f , t ) =∫ [x (t )w (t –τ)] . e-2jᴨf dt
  • 19. Trong dó độ dài thời gian của cửa sổ là (t-τ), chúng ta có thể dịch chuyển vị trí của cửa sổ bằng cách thay đổi giá trị t và để thu được các đáp ứng tần số khác nhau của đọan tín hiệu ta thay đổi giá trị τ. Trên cơ sở cách tiếp cận biến đổi STFT, biến đổi Wavelet được phát triển để giải quyết vấn đề về độ phân giải tín hiệu (miền thời gian hoặc tần số) mà STFT vãn còn hạn chế. Biến đổi Wavelet được thực hiện theo cách: tín hiệu được nhân với hàm Wavelet (tương tự như nhân với hàm của số trong biến đổi STFT), rồi thực hiện biến đổi riêng rẽ cho các khoảng tín hiệu khác nhau trong miền thời gian tại các tần số khác nhau. Cách tiếp cận như vậy còn được gọi là: phân tích đ phân giải MRA (Multi Resolution Analysis): phân tích tín hiệu ở các tần số khác nhau và cho các độ phân giải khác nhau. MRA khi phân tích tín hiệu cho phép: phân giải thời gian tốt và phân giải tần số kém ở các tần số cao; phân giải tần số tốt và phân giải thời gian kém ở các tần số thấp. Như vậy kỹ thuật này rất thích hợp với những tín hiệu: có các thành phần tần số cao xuất hiện trong khoảng thời gian ngắn, các thành phần tần số thấp xuất hiện trong khoảng thời gian dài chẳng hạn như ảnh và khung ảnh video. Hình 3 minh hoạ một hệ thống mã hoá Wavelet Câu 12: Nén trong ảnh 1. Nguyên lý Nén trong ảnh nhằm giảm bớt thông tin dư thừa trong miên không gian. Sử dụng cả hai quá trình nén có tổn hao và nén không tổn hao. Không sử dụng thông tin của các ảnh trước và sau ảnh đang xét. Hình 12.1: Nén trong ảnh (Intra Frame Compression) 2. Tiền xử lý Trước khi thực hiện biến đổi DCT, cả ảnh được chia thành các khôi lớn riêng biệt không chồng lên nhau (MB – Macro Block). Mỗi MB bao gôm 4 block các mẫu tín hiệu chói UY và 2; 4 hoặc 8 block các mẫu tín hiệu số màu (CR, CB). Số các block của tín hiệu màu phụ thuộc vào tiêu chuẩn của tín hiệu video. Các block có cùng kích thước, mỗi block là một ma trận điểm ảnh 8x8 được lấy mẫu từ màn hình từ trái sang phải, từ trên xuống dưới. Câu trúc MB phụ thuộc vào loại quét ảnh. Nếu quét liên tục thì các block bao gồm các mẫu từ các dòng liên tục (nén theo ảnh – frame). Ngược lại trong trường hợp quét xen kẽ, trong 1 block chỉ có các mẫu của một nửa ảnh trên (nén theo mành – field). 3.Quá trình biến đổi Cosin rời rạc Biến đổi Cosin rời rạc (DCT) xử lý các giá trị của khối các diểm ảnh dưới một khối các hệ số trong miền tần số. Quá trình mã hoá DCT một chiều gồm 8 điểm ảnh biểu diễn tín hiệu chói trong tiêu chuẩn lấy mẫu 4:2:2. Sự thay đổi đố dọc theo 8 bit trong phạm vi dải tần số từ 0 đến f/2=6.75 MHz. Mã hoá DCT chia phổ này thành 8 dải băng nhỏ hơn. Tương ứng với mọi giải băng tần có một số đặc trưng cho năng lựơng tín hiệu trong dải băng tần đó. Giá trị đầu tiên bên trái đặc trưng cho mức giá trị thành phần một chiều của tín hiệu gọi là hệ số DC. Từ trái sang phải, các hệ số lần lượt biểu diễn các thành phần tần số cao hơn trong tín hiệu ban đầu gọi là hệ số AC.
  • 20. Phép biến đổi DCT hai chiều cho mức giải tương quan bức ảnh cao hơn, cho phép biến đổi cho khối 8x8 giá trị các điểm chói. Quá trình mã hoá thuận cho khối 8x8 được xác định. Trong dó: f( i,j ) là các hàm mẫu ban đầu trong khối 8x8 điểm chói F( u,v ) là các hệ số biến đổi DCT khối 8x8. u là tần số chuẩn hoá theo chiều ngang ( 0<u<7 ) v là tần số chuẩn hoá theo chiều đứng ( 0<v<7 ) Quá trình biến đổi DCT không giảm tốc độ dòng số liệu và tính chất đảo ngược (Inverse DCT) tái tạo lại chính xác giá trị điểm ảnh ban đầu nếu các hệ số DCT giữ nguyên. 4. Lượng tử hoá khối DCT Quá trình lượng tử hoá khối DCT đóng vai trò quan trọng trong việc thiết kế hệ thống nén video vì việc nó ảnh hưởng trực tiếp đến việc tái tạo lại hình ảnh. Thành phần DC và tần số thấp là các thông số có ý nghĩa nhất của khối điểm ảnh ban đầu. Hệ số DC được lượng tử với độ chính xác 12 bit để tránh các nhiễu xuất hiện giữa các khối điểm ảnh. Trong khi hệ số tương ứng với thành phần tần số cao được lượng tử với độ chính xác 2 bit (do khả năng cảm nhận ở mắt người giảm). Ảnh càng chi tiết thì hệ số thành phần tần số càng lớn, có thể tràn bộ nhớ đệm nếu hệ số trong bảng lượng tử quá thấp. 5. Mã hoá Entropy Mã hoá entropy làm tăng độ phức tạp, yêu cầu bộ nhớ lớn hơn so với mã có độ dài cố định và tốc độ bít thay đổi theo thời gian. Khi phân bố xác suất càng lệch khỏi phân bố đều thì xuất hiện càng tăng nhờ mã hoá entropy. 6. Bộ nhớ đệm Các từ mã RLC tạo ra dòng số liệu với tốc độ biến đổi, phụ thuộc vào độ phức tạp của ảnh được mã hoá. Số liệu này được ghi vào bộ nhớ đệm, các bit số liệu sẽ được đọc ra từ bộ nhớ đệm này với một tốc độ cố định theo bộ mã hoá. Bộ nhớ đệm không được tràn, rỗng. Quá trình điều khiển được thực hiện bằng trọng số. Nếu bộ nhớ đệm đầy, quá trình lượng tử hoá được thực hiẹn với mức biểu diễn bit ít hơn nhằm tạo ra tốc độ dòng bit nhỏ lại bằng cách tăng hệ số cân bằng của bộ lượng tử. 7. Giải mã DCT Quá trình lượng tử hoá ngược được tiến hành theo biểu thức: Các hệ số sẽ được biến đổi ngược (IDCT) bằng quá trình f( j,k ) để tạo lại khối giá trị các điểm ban đầu theo biểu thức:
  • 21. Hình 12.2: Giải mã DCT Câu 13: Nén liên ảnh 1. Mô hình Ảnh động là một xâu gồm nhiều ảnh tĩnh, mỗi ảnh tĩnh tồn tại trong một khung ảnh (frame); bản chất của sự chuyển động của một đối tượng trong xâu: đó là sự thay đổi vị trí tương đối (toạ độ ngang và dọc) của nó trong từng frame. Hình 13.1: Mô hình nén liên ảnh Vì một chuỗi ảnh liên tục, lượng thông tin chứa trong mỗi ảnh rất ít từ ảnh này đến ảnh khác. Do đó việc tính toán dự định chuyển vị trí của nội dung ảnh là yếu tố quan trọng của kỹ thuật nén ảnh. Đặc điểm của nén liên ảnh là làm xâp xỉ, bù chuyển động và nén trong ảnh, ý tưởng đó được xây dựng như trong hình 1. 2. Kỹ thuật dự đoán bù chuyển động Ngoài sự thay đổi vị trí toạ độ, sự thay đổi về cường độ sáng của đối tượng ảnh từ frane này tới frame khác cũng tạo nên ảnh chuyển động. Trong kỹ thuật bù chuyển động, ảnh của frame hiện hành được dự báo từ ảnh của frame kề trước bằng cách làm xâp xỉ chuyển động giữa hai frame và bù chuyển động đó: sự khác nhau giữa frame hiện hành và frame dự báo được gọi là phân dư thừa bù chuyển động; và kỹ thuật nén liên ảnh chính là dựa vào việc mã hoá phân dư thừa bù chuyển động này. Cường độ chói màu của ảnh còn gọi là năng lượng hiển thị hình ảnh. Đối với ảnh động, đặc trưng về năng lượng ảnh của phần dư thừa bù chuyển động thấp hơn nhiều so với ảnh gốc. Do đó, việc mã hoá phần dư thừa thay vì mã hoá cả xâu ảnh video nên đã giúp tránh được phân dư thừa này bị mã hoá lặp nhiều lần. Sự đánh giá chuyển động của ảnh có thể thực hiện trên toàn khung: người ta chia mỗi khung thành các ô màu nhỏ (thường lấy 8x8 pixel/1ô), sau đó đánh giá chuyển động của từng ô. Phép xấp xỉ và bù chuyển động chính là giải quyết hai yêu câu: (1) là Phải xác định biên và khoảng dịch chuyển của vùng ảnh chuyển động giữa hai khung. (2) là Phải xác định cái gì được điền vào không gian trống do vùng ảnh đã chuyển động. trong hệ thống mã hoá nén và giải mã nén: đầu tiên bộ giải mã phải lưu ảnh trước trong khi tạo lại ảnh tiếp theo; khi bộ mã hoá thực hiện mã hoá khung 2 thì đồng thời phải tạo lại mỗi ảnh (sau khi mã hoá nó) để dự báo cho bộ giải mã tạo lại ảnh này vì bộ giải mã không có chức năng tạo lại các ô màu bù chuyển động. Phương pháp dự đoán để tìm ra các chi tiết ảnh thay thế giữa hai khung hình (frame) liền kề và tạo ra một vector chuyển động, vector chuyển động sẽ phối hợp với các ô ở trong biên biểu diễn vùng chuyển động được mã hoá trước đó để lập lại các ô này tại vị trí mới của ảnh. Các ô mẫu ở vị trí hiện tại sẽ phối hợp trong số các ô của khung ảnh trước đó, sử dụng chúng như là thành phần dự đoán trong bảng mã hoá đã được thiết lập trước đó: thành phần dự đoán này được lấy từ đầu vào của khung trước để tạo ra một
  • 22. khung dự đoán có sai số thông tin nhỏ. Sai lệch giữa ô hiện tạ i và ô dự đoán của nó trong khung ảnh trước sẽ tạo ra ô mẫu dự đoán bù chuyển động. 3. Ảnh dự đoán trước Phương pháp mã hoá nhờảnh dự đoán trước sử dụng xác suất các ảnh liên tục trong chuỗi ảnh. Nhờ xác suât này, phần lớn các ảnh trong chuỗi có thể nhận biết gần giống nhau trên cơ sở thông tin chứa trong ảnh. Phương pháp này rất hiệu quả khi chuỗi ảnh là ảnh tĩnh hoàn toàn, trong trường hợp này chỉ cần truyền ảnh đầu tiên là đủ. Khi xuất hiện vật thể chuyển động nào đó phải xác định vật thể này và biểu diễn đặc trưng về sự thay đổi vị trí của nó. Các chuyển động ngoài vùng tìm kiếm không thể thực hiện dự đoán bù chuyển động từ khung hình trước. Trường hợp này sẽ được mã hoá bằng phương pháp nén trong ảnh. Trong khối xác định vecto chuyển động. Vecto chuyển động tính toán sao cho ảnh hiện thi và ảnh dự báo cho ra ảnh khác biệt ở đầu ra. Sô liệu về vecto chuyển động và ảnh khác biệt sẽ được truyền đi. Hạn chế của mô hình này là không biểu diễn phần lớn các chuyển động có thể coi như các chuyển động quay, giảm hoặc tăng lên và các chuyển động phức tạp khác. Hình13.2: Nén liên ảnh (ảnh dự đoán trước) 4. Ảnh dự đoán hai chiều Dự đoán hai chiều theo thời gian, còn gọi là nội suy bù chuyển động sử dụng thông tin trong một khung hình cho trước và một khung hình hiển thị để dự đoán. Mô hình này cho khả năng nén số liệu cao hơn. Hiệu ứng nhiều trong khung hình hiện thị giảm bằng mức nhiễu trung bình của khung hình trước và khung hình sau, có khă năng dự đoán ngoài phạm vi của vùng tìm kiếm nhờ các khung hình tiếp theo. Ảnh dự đoán hai chiêu là kêt quả nội suy giữa hai ảnh để xác định chuản cảa nó, nên sẽ làm thay đổi thứ tự truyền ảnh. Bộ mã hoá ảnh đầu tiên phải truyền cả hai ảnh chuẩn, sau đó mới truyền đến ảnh dự đoán hai chiều. Mã hoá dự đoán giữa các khung hình áp dụng cho các chương trình có ít chuyển động hoặc chuyển động quá chậm. Hình 13.3: Nén liên ảnh (ảnh dự đoán 2 chiều) Câu 14: Các chuẩn mã hóa thoại. Tiêu chuẩn mã hóa thoại tồn tại bởi vì nó thực sự cần thiết cho việc thông tin liên lạc và cho phép những người quan tâm có thể sử dụng và phát triển sản phẩm và các dịch vụ dựa trên cùng một tham chiếu. Một số các tổ chức chuẩn hóa liên quan đến mã hóa tín hiệu thoại : • Liên minh viễn thông quốc tế (ITU): Phân ban chuẩn hóa viễn thông của ITU (ITU-T) chịu trách nhiệm xây dựng các chuẩn liên quan đên mã hóa thoại cho các ứng dụng trong mạng điện thoại bao gồm cả mạng không dây và cố định. • Hiệp hội công nghiệp viễn thông (TIA): Đảm nhiệm về các tiêu chuẩn mã hóa thoại cho các ứng dụng đặc biệt. TIA là thành phần của Viện tiêu chuẩn quốc gia Hoa Ky (ANSI). TIA thành công trong việc phát triển các tiêu chuẩn cho điện
  • 23. thoại di động số ở khu vực Bắc Mỹ bao gồm cả hệ thống đa truy nhập phân chia theo thời gian – TDMA và đa truy nhập phân chia theo mã - CDMA. • Viện tiêu chuẩn viễn thông Châu Âu (ETSI): ETSI có các thành viên từ các nước Châu Âu và các công ty và là một tổ chức chính của các nhà sản xuất thiết bị viễn thông. ETSI được tổ chức theo các ứng dụng và nhóm có ảnh hưởng lớn nhất trong mã hóa thoại là nhóm đặc nhiệm về di động GSM - có một số tiêu chuẩn hữu dụng và được ứng dụng triển khai ở nhiều nơi trên thế giới. • Bộ quốc phòng Hoa Kỳ (DOD): DOD tham gia thiết lập các tiêu chuẩn mã hóa thoại, và được biết đến như là những tiêu chuẩn của Liên hợp chủng quốc Hoa Kỳ, được ứng dụng chủ yếu trong quân sự. • Trung tâm nghiên cứu và phát triển cho hệ thống vô tuyến của Nhật Bản (RCR): Các tiêu chuẩn về di động số ở Nhật Bản được xây dựng bởi RCR. Câu 14: Các chuẩn mã hóa âm thanh 1. Các chuẩn mã hóa âm thanh ISO/MPEG Từ năm 1988, Tổ chức ISO/MPEG đảm trách việc tiêu chuẩn hóa các kỹ thuật nén âm thanh và hình ảnh. Nội dung nghiên cứu chính của việc chuẩn hóa là mã hóa âm thanh và hình ảnh cho các phương tiện lưu trữ số bao gồm CD-ROM, DAT, đĩa quang từ MO và ổ cứng máy tính. MPEG, viêt tắt của cụm từ “Moving Picture Experts Group”, là một nhóm chuyên n.cứu phát triển các tiêu chuẩn về hình ảnh số và nén âm thanh theo chuẩn ISO/IEC. Ngày nay, nhóm làm việc MPEG đã phát triển và phát hành các tiêu chuẩn MPEG-1, MPEG-2 và MPEG-4…MPEG chỉ là một tên riêng, tên chính thức của nó là: ISO/IEC JTC1 SC29 WG11. MPEG mô tả nén tín hiệu âm thanh sử dụng các mô hình nén theo nhận thức, đưa ra một hệ với ba mô hình nén âm thanh đơn giản là Layer I, Layer II và Layer III theo mức độ tăng lên của độ phức tạp và khả năng thực hiện (chất lượng âm thanh theo dòng bít) của bộ mã hóa. Ba bộ mã hóa này tương thích vứi nhau theo cách có thứ tự, có nghĩa là bộ giải mã Layer N có khả năng giải mã dòng dữ liệu được mã hóa trong Layer N và tất cả các Layer thấp hơn N. Đối với mỗi Layer, tiêu chuẩn nêu chuẩn dòng bít và bộ giải mã. Tât cả các Layer Sử dụng cùng cấu trúc. Mô hình mã hóa có thể được mô tả như định dạng nhiễu nhận thức hay chuyển đổi mã hóa băng phụ theo nhận thức. Bộ mã hóa phân tích thành phần Phổ của tín hiệu âm thanh bằng cách tính dải lọc và áp dụng mô hình âm thanh cảm nhận Để xác định mức nhiễu có thể nghe thấy. Trong giai đọan lượng tử hóa và mã hóa, bộ mã hóa sễ cố gắng để chỉ rõ sô bít dữ liệu cần để đáp ứng cả yêu câu dòng bít và hiện tượng che lấp. Bộ giải mã đơn giản hơn, nhiệm vụ chính là tổng hợp tín hiệu âm thanh từ các thành phần phổ được mã hóa. 4.2.2. Doby AC-3 Doby AC-3 (Doby Digital Audio Coding) là chuẩn nén âm thanh được sử dụng trong nhiều bộ phim ở rạp hát, ở nhà, và trong truyên hình chất lượng cao HDTV ở nước Mỹ. AC-3 mã hoá một tín hiệu âm thanh kênh 5.1 vào thành luồng bit 384 Kbps. Giai đọan đầu tiên của bộ giải mã hoá AC-3 là lây 512 mẫu đầu vào và áp dụng biến đổi MDCT. Để
  • 24. tiết kiệm dải động, thì sau đó nó chia các thành phần tần số đầu ra thành các hàm loga và hàm mũ. Các giá trị này sau đó được lượng tử hoá được kết hợp với các kênh khác và được đóng thành các khung để truyền đi. 4.2.3. AES-3 (Audio Engineering Society-3) Đây là tiêu chuẩn quốc tế giao diện âm thanh kỹ thuật số. Tiêu đề đầy đủ của nó là định dạng truyên nôi tiếp cho hai kênh âm thanh số tuyến tính tương ứng. Theo thuật ngữ đơn giản mà có nghĩa nó là âm thanh nổi và không nén. AES-3 là một sự phát triển chung của Hiệp hội kỹ sư âm thanh - AES (Audio Engineering Society) và Liên minh phát sóng quảng bá châu Âu - EBU (European Broadcasting Union). Tiêu chuẩn này dựa trên cân Bằng về cáp xoắn đôi, và được cho khoảng cách truyền dẫn lên đên 100 mét. Ba tốc độ lấy mẫu được hỗ trợ là 32, 44.1 và 48 KHz. Câu 15: Các chuẩn nén ảnh JPEG 1. Chuẩn JPEG JPEG (Joint Photographic Experts Group) là tên một tổ chức nghiên cứu về các chuẩn nén ảnh (trước đây là ISO) được thành lập vào năm 1982. Năm 1986, JPEG chính thức được thiết lập nhờ sự kết hợp giữa nhóm ISO/IEC và ITU. Đến năm 1994, JPEG được khẳng định với tiêu chuẩn ISO 10918-1. JPEG là định dạng nén ảnh có tổn thất. Hệ số nén càng cao thì hình ảnh sau khi giải nén sẽ càng bị sai lệch nhiều hơn, nó chỉ gần giống như ban đầu chứ không đạt hoàn toàn như hình ảnh gốc. Tiêu chuẩn JPEG được định ra cho nén ảnh tĩnh đơn sắc và màu. Tuy nhiên nó cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng khôi phục khá tốt và ít tính toán hơn so với nén MPEG. Nén theo chuẩn JPEG là một tiến trình nhiều bước. Trước hết là bước qui tắc hóa để làm cho ảnh có nhiều đọan giống nhau hơn thực tế. Bước tiêp theo là lấy mẫu cho các kênh màu (gọi là “downsampling” hoặc “chroma subsampling”). Đây là 1 trong 2 công đọan làm mất thông tin và chỉ thực hiện khi bạn chọn xác lập tỉ lệ nén cao/chất lượng thấp (high compression/low quality) của JPEG. Lấy mẫu (subsampling) nghĩa là loại bỏ có hệ thống các thông tin màu sắc đối với các hàng hoặc cột điểm ở tỉ lệ cho trước. Bước tiếp theo, ảnh gốc được chia thành các khối ảnh (block) nhỏ kích thước 8x8 không chồng chéo lên nhau. Tiếp theo, giá trị của mỗi điểm ảnh ở mỗi khối ảnh sẽ được trừ đi 128. Bước cuối cùng của quá trình nén là sử dụng mã hoá entropy chẳng hạn mã hoá Huffman cho các AC và DC (sau khi đã mã hoá DPCM) để tăng thêm hiệu quả nén cũng như giảm thiểu lỗi. Ở phía giải nén, luông bít mã hoá được giải mã entropy, sau đó mảng hai chiều các hệ số DCT đã được lượng tử hoá được giải sắp xếp Zigzag và giải lượng tử. Quá trình nén và giải nén được mô tả theo các hình vẽ dưới đây: Hình 15.1: Sđồ qt nén ảnh theo chuẩn JPEG Hình 15.2: Sđồ qt giải nén theo chuẩn JPEG 2. Chuẩn JPEG-2000
  • 25. Hệ thống nén JPEG-2000 có tỉ lệ xuyên âm thấp hơn hẳn các chuẩn công nghệ JPEG truyên thống, cho dù JPEG-2000 không phải là một chuẩn mới hoàn toàn mà được phát triển từ các tiêu chuẩn đã có. Điều quan trọng hơn, nó cho phép tách các phân giải khác nhau, các điểm ảnh, các miền quan tâm, các thành phần và hơn nữa, tât cả chúng được đưa vào một dòng bit nén đơn. Nó cho phép một ứng dụng xử lý hoặc truyền các thông tin cần thiết cho bất kỳ một thiết bị nào, từ một ảnh nguồn đã được mã hóa theo chuẩn JPEG-2000. Tính tương thích này là một trong những ưu điểm nổi trổi mà các kỹ thuật xử lý JPEG truyên thống gặp rất nhiều khó khăn. Không giống như tiêu chuẩn JPEG truyền thống, kỹ thuật mã hóa dựa trên biến đổi cosin rời rạc dùng mã Huffman, JPEG-2000 sử dụng kỹ thuật mã hóa dạng sóng rời rạc dùng mã số học. Sử dụng DWT cho phép nâng cao độ phân giải tần số mang tính không gian trong thể hiện biến đổi hình ảnh. Sơ đồ khối của quá trình nén và giải nén theo chuẩn JPEG-2000 mô tả ở hình 3 dưới đây: Hình 15.3: Sđồ qt nén và giải nén theo chuẩn JPEG-2000 Bước 1: Xử lý trước biến đổi Do sử dụng biến đổi Wavelet, JPEG2000 cần có dữ liệu ảnh đầu vào ở dạng đối xứng qua 0. Xử lý trước biến đổi chính là giai đọan đảm bảo dữ liệu đưa vào nén ảnh có dạng trên. Ở phía giải mã, giai đọan xử lý sau biến đổi sẽ trả lại giá trị gốc ban đầu cho dữ liệu ảnh. Bước 2: Biến đổi liên thành phân Giai đọan này sễ loại bỏ tính tương quan giữa các thành phần của ảnh. JPEG-2000 sử dụng hai loại biến đổi liên thành phần là biến đổi màu thuận nghịch (RCT) và biên đổi màu không thuận nghịch (ICT) trong đó biên đổi thuận nghịch làm việc với các giá trị nguyên, còn biến đổi không thuận nghịch làm việc với các giá trị thực. ICT và RCT chuyển dữ liệu ảnh từ không gian màu RGB sang YCrCb. RCT được áp dụng trong cả hai dạng thức nén có tổn thất và không tổn thất, còn ICT chỉ áp dụng cho nén có tổn thất. Việc áp dụng các biển đổi này trước khi nén ảnh không nằm ngoài mục đích làm tăng hiệu quả nén. Các thành phân Cr, Cb có ảnh hưởng rất ít tới sự cảm nhận hình ảnh của mắt trong khi thành phần độ chói Y có ảnh hưởng rất lớn tới ảnh. Bước 3: Biến đổi riêng thành phần Biên đổi riêng thành phân được áp dụng trong JPEG-2000 chính là biên đổi Wavelet. Bước 4: Lượng tử hoá – Giải lượng tử hoá Các hệ số của phép biến đổi sễ được tiến hành lượng tử hoá. Quá trình lượng tử hoá cho phép đạt tỉ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính xác tương ứng cần thiết với mức chi tiết của ảnh cần nén. Các hệ số biến đổi sẽ được lượng tử hoá theo phép lượng tử hoá vô hướng. Bước 5: Mã hoá Có thể sử dụng nhiều phương pháp mã hoá khác nhau cũng như nhiều cách biên đổi Wavelet khác nhau để có thể thuđược chất lượng ảnh tương ứng với ứng dụng cần xửlý.  JPEG-2000 là một chuẩn nén có thể tạo ra khả năng nén ảnh tốt hơn đáng kể so với JPEG. Với cùng chất lượng hình ảnh, thông thường JPEG-2000 có thể nén ảnh gấp ít nhất là 2 lần so với JPEG. Với tần số nén cao, chât lượng của hình ảnh giảm ít hơn. Tuy nhiên điều này cũng đồng nghĩa với việc tăng độ phức tạp và các yêu
  • 26. câu lưu trữ trong quá trình mã hóa và giải mã. Một tác động khác của điều này là những hình ảnh có the tốn mất nhiều thời gian hơn khi lưu trữ và hiển thị. Câu 16: Các chuẩn nén video MPEG 1. MPEG-1 Chuẩn đầu tiên được đưa ra bởi MPEG, có tên gọi phổ biến là MPEG-1, được thiết kế để cung cấp việc nén video và audio cho việc lưu trữ và phát lại trên các CD-ROM. Chuẩn MPEG-1 bao gồm 3 phần. Phần 1 đề cập tới các vấn đề hệ thống (bao gồm cả ghép kênh video và audio đã mã hóa), phần 2 đề cập tới video nén và phần 3 là về audio nén. Các đặc tính của MPEG-1 Tín hiệu video đầu vào tới một bộ mã hóa video MPEG-1 có khuôn dạng là 4:2:0 (Y:Cr:Cb) với độ phân giải không gian thông thường là 352×288 hoặc 352×240 pixels. Mỗi khung video được mã hóa để tạo ra một bước ảnh mã hóa. Có 3 loại chính: các ảnh I, các ảnh P và các ảnh B. (Chuẩn này còn xác định thêm một loại ảnh là ảnh D nhưng loại này hiếm khi sử dụng trong các ứng dụng thực tế). Ảnh loại I: không có dự đoán bù chuyển động. Ảnh loại I được sử dụng để làm tham khảo cho những ảnh dự đoán xa hơn. Ảnh loại P: sử dụng dự đoán bù chuyển động từ một ảnh tham khảo. Do đó một ảnh loại P được dự đoán sử dụng dự đoán chuyển tiếp và bản thân một ảnh P có thể được sử dụng làm tham khảo cho các ảnh dự đoán xa hơn. Ảnh loại B: sử dụng dự đoán bù chuyển động từ 2 ảnh tham khảo, ảnh P và/hoặc ảnh I trước và sau ảnh B hiện tại. Thông thường, một bộ mã hóa sẽ chọn một chế độ dự đoán (chuyển tiếp, hồi tiếp hay hai chiều) sao cho tạo ra được năng lượng thấp nhất trong macroblock sai phân. Bản thân các ảnh loại B không được sử dụng như các tham khảo dự đoán cho bất kỳ khung dự đoán xa hơn nào. Chuẩn MPEG-1 không thực sự định nghĩa thiết kế của một bộ mã hóa: thay vào đó, chuẩn này mô tả cú pháp mã hóa và một bộ giải mã ‘tham khảo’ giả thuyết. Trong thực tế, cú pháp và chức năng được mô tả bởi chuẩn có ý nghĩa rằng một bộ mã hóa phải chia những chức năng nhất định. 2. MPEG-2 Ứng dụng giải trí quan trọng tiếp theo của video mã hóa (sau lưu trữ CD-ROM) là truyền hình số. Để cung cấp một số lựa chọn cải tiến cho truyên hình tương tự, một vài đặc tính chủ yếu đã được yêu cầu đối với nguyên lý mã hóa video. Nó phải hỗ trợ hiệu quả các kích thước khung lớn hơn (thường là 720×576 hay 720×480 pixel cho độ phân giải của ITU-R 601) và mã hóa video kêt hợp. Với những độ phân giải chất lượng truyền hình, video kết hợp tạo ra hình ảnh video mịn hơn. MPEG-2 đã ra đời nhằm đáp ứng những yêu câu này. MPEG-2 bao gồm 3 phân chính: Video, Audio (dựa trên mã hóa audio của MPEG- 1) và Systems (định nghĩa, những phần chi tiết hơn MPEG-1, ghép kênh và truyền luồng audio/visual mã hóa). Những điểm nâng cao được thêm vào bởi MPEG-2 bao gồm:  Mã hóa hiệu quả video với chất lượng truyền hình  Hỗ trợ mã hóa video kết hợp
  • 27.  Khả năng phân cấp : Phân cấp theo không gian, phân cấp theo thời gian, phân cấp SNR, phân vùng dữ liệu. 3. MPEG-4 Chuẩn MPEG-4 được phát triển với mục đích mở rộng khả năng của những chuẩn trước đó theo một số hướng. Hỗ trợ các ứng dụng có tốc độ bit thấp: MPEG-1 và MPEG-2 có hiệu quả chấp nhận được trong mã hóa các tốc độ bit khoảng trên 1 Mbps. Tuy nhiên, nhiều ứng dụng nổi bật (đặc biệt là các ứng dụng dựa trên Internet) yêu cầu tốc độ bit truyền rất thấp hơn Nhiều và MPEG-1 và 2 không hỗ trợ việc nén hiệu quả ở các tốc độ bit thấp. Hỗ trợ mã hóa dựa trên đối tượng: một cảnh video có thể được xử lý như một tập các đối tượng nền và đối tượng cận cảnh hơn là chỉ như một chuỗi các khung hcn. Loại mã hóa này mở ra một dải rộng các khả năng, ví dụ như mã hóa độc lập các đối tượng khác nhau trong một cảnh, dùng lại các thành phần cảnh, ghép lại (các vật thể từ một số nguồn được kết hợp trong một cảnh) và độ tương tác cao. Mã hóa dựa trên bộ công cụ: MPEG-1 có độ linh động rât hạn chế, MPEG-2 đưa ra khái niệm về ‘bộ công cụ’ gồm các profile và level mà có thể kết hợp theo nhiều cách cho các ứng dụng khác nhau. MPEG-4 mở rộng đặc điểm này thành một tập hợp các công cụ mã hóa có độ linh hoạt cao để cho phép một dải các ứng dụng cũng như một khung chuẩn hóa cho phép các công cụ mới được thêm vào ‘bộ công cụ’. Chuẩn MPEG-4 được thiết lập nhờ đó các công cụ mã hóa và chức năng mới có thể được tăng thêm khi các phiên bản mới của chuẩn được phát triển, và do đó danh sách các công cụ cũng tiêp tục tăng lên. 4. MPEG-7 Mục tiêu chính của MPEG-7 là xác định một tập hợp chuẩn các bộ mô tả dùng để mô tả nhiều loại thông tin đa phương tiện với các codec chuẩn, cũng như những cơ sở dữ liệu khác và thậm chí cả thông tin nghe nhìn tương tự. Các bộ mô tả cùng với các cơ chế mô tả sẽ được kết hợp với bản thân nội dung để tạo ra một phương pháp tìm kiếm tài liệu nhanh và có hiệu quả của người dùng. Cùng với việc mô tả nội dung, có thể cần thêm một số loại thông tin khác về dữ liệu đa phương tiện, như: dạng, Những điều kiện để truy cập tài liệu, sự phân loại, Liên kết đến dữ liệu liên quan khác, bối cảnh. Các phân tử mà MPEG-7 chuẩn hóa sẽ hỗ trợ một dải rộng các ứng dụng. Hiện nay MPEG-7 cũng tạo ra mảng lưới có khả năng tìm kiếm nội dung đa phương tiện như khả năng tìm kiếm văn bản. Điều này có thể áp dụng cho việc thu được nội dung lớn cũng như cho những loại đa phương tiện cho phép con người nhận dạng nội dung nhằm mục đích mua sắm. Thông tin sử dụng cho việc khôi phục nội dung có thể được sử dụng bởi các thực thể, cho việc lựa chọn và lọc tư liệu được quảng bá hoặc cho quảng cáo cá nhân. 4.4.4.5. MPEG-21 Việc phát triển một khung đa phương tiện chung sẽ làm cho sự liên kết giữa những bộ phận như những người cung câp nội dung, tài chính, truyền thông, máy tính và các bộ phận điển tử của người sử dụng và các khách hàng trở nên thuận tiện và hỗ trợ sợ hoạt