03

5,1 GIỚI THIỆU

Tiêu chuẩn ISO / IEC 14496 Phần 2 [1] (MPEG-4 Visual) cải thiện về phổ
biến MPEG-2 tiêu chuẩn cả về hiệu suất nén (nén tốt hơn cho cùng một hình
ảnh chất lượng) và tính linh hoạt (cho phép một phạm vi rộng lớn hơn nhiều của
các ứng dụng). Nó đạt được điều này trong hai chính cách, bằng cách sử
dụng các thuật toán nén tiên tiến hơn và bằngcách cung cấp một
tập hợp rộng rãi của 'công cụ' để mã hóa và thao tác các phương tiện truyền
thông kỹ thuật số. MPEG-4 Visual bao gồm 'cốt lõi' mã hóa / giải mã video mô
hình cùng với một số công cụ bổ sungmã hóa. Các mô hình cốt lõi là
dựa trên các mô hình nổi tiếng lai mã hóa DPCM / DCT(xem Chương 3) chức
năng cơ bản của lõi được mở rộng bởi các công cụ hỗ trợ (trong số những
thứ khác) tăng cường nén hiệu quả, đáng tin cậy cho việc truyền dẫn, mã hóa
của hình dạng riêng biệt hoặc các 'đối tượng' trong một hình ảnh cảnh, nén dựa
trên lưới và hình ảnh động của các mô hình mặt hoặc cơ thể.

Nó không chắc rằng bất kỳ ứng dụng sẽ yêu cầu tất cả các công cụ có sẵn trong
MPEG-4 Visual khuôn khổ và tiêu chuẩn mô tả một loạt các hồ sơ, đề nghị
bộ hoặc các nhóm của các công cụ cho các loại hình cụ thể của ứng dụng.Ví dụ
về các cấu hình bao gồm Đơn giản (một thiết lập tối thiểu của các công
cụ cho các ứng dụng ít phức tạp), Core và Main (với các công cụ để mã
hóa các đối tượng nhiều video tùy tiện hình), thời gian thực đơn giản(với các
công cụ nâng cao cho Simple lỗi đàn hồi truyền với sự chậm trễ thấp) và nâng
cao (cung cấpđược cải thiện nén tại các chi phí phức tạp gia tăng).

MPEG-4 Visual được thể hiện trong tiêu chuẩn ISO / IEC 14496-2, một tài
liệu rất chi tiết chạy Ning để hơn 500 trang. Phiên bản 1 được phát hành
vào năm 1998 và tiếp tục các công cụ và hồ sơ được thêm vào hai sửa
ổi các tiêu chuẩn lên đến đỉnh điểm trong phiên bản 2vào cuối năm 2001. Công
cụ khác và hồ sơ được quy hoạch để sửa đổi hoặc phiên bản trong tương
lai nhưngbộ công cụ, cấu trúc của MPEG-4 có nghĩa rằng bất kỳ phiên bản sau
này của 14496-2 nên vẫntương thích ngược với Phiên bản 1.

Chương này là một hướng dẫn để các công cụ và tính năng của MPEG-4
Visual. Thực tế implemen-tations MPEG-4 Visual được dựa trên một hoặc
nhiều các cấu hình quyđịnh trong tiêu chuẩn và
do đó, chương này được tổ chức theo cấu hình. Sau khi một tổng quan vềtiêu
chuẩn và phương pháp tiếp cận và tính năng, cấu hình cho mã hóa khung
hình videohình chữ nhật được thảo luận (đơn giản nâng cao Đơn giản
và nâng caothời gian thực đơn giản hồ sơ). Đây là những phổ biến nhất
cấu hình sử dụng tại thời điểm hiện tại và do đó họ được bảo hiểm trongmột số
chi tiết. Công cụ và cấu hình cho mã hóa của các đối tượng hình tùy ý được thảo
luận tiếp theo (Core, chínhvà hồ sơ liên quan), tiếp theo là cấu hình cho khả
năng mở rộng mã hóa, mã hóa kết cấu vẫn còn và chất lượng cao (studio) mã
hóa
video.

Ngoài các công cụ mã hóa của vật liệu video "tự nhiên" (thực thế giới), MPEG-4
Visual định nghĩa một tập hợp các hồ sơ để mã hóa 'tổng hợp (máy tính tạo ra)
các đối tượng hình ảnh như vậy
như mắt lưới 2D và 3D và các mặt hoạt hình và các mô hình cơ thể. Trọng
tâm của cuốn sách này là rất nhiều về mã hóa video tự nhiên và do đó các cấu
hình này chỉ được giới thiệu một thời gian ngắn. mã hóa công cụ
trong Visual tiêu chuẩn MPEG-4 mà không có trong hồ sơ bất kỳ(chẳng hạn
như Over- ghép chồng Bồi
thường Khối Motion, OBMC) (có lẽ contentiously!) khôngđược trình bày trong
chương.

5.2 TỔNG QUAN VỀ MPEG-4 Video Coding VISUAL (tự nhiên)

5.2.1 Các tính năng

MPEG-4 Visual nỗ lực để đáp ứng các yêu cầu của một loạt các hình
ảnhcommuni
cation ứng dụng thông qua một phương pháp tiếp cận dựa trên bộ công cụ để
mã hóa thông tin thị giác. Một số các tính năng quan trọng mà
phân biệt MPEG-4 Visual từ trước tiêu chuẩn mã hóa hình ảnh
bao gồm:
1. Nén hiệu quả của tiến bộ và interlaced chuỗi video "tự nhiên" (nén
của chuỗi các khung hình video có hình chữ nhật). Cốt lõi của công cụ
nénđược dựa trên Tiêu chuẩn ITU-
T H.263 và có thể ngoài thực hiện MPEG-1 và nén videoMPEG-2.
Công cụ tùy chọn bổ sung nâng cao hơn nữa hiệu suất nén.
2. Mã hóa của đối tượng video (hình khu vực bất thường của một cảnh
quay video). Đây là một khái niệm mới
dựa trên tiêu chuẩn video mã hóa và cho phép (ví dụ) mã hóa độc lập củanền
trước
và nền tảng đối tượng trong một cảnh quay video.
3. Hỗ trợ truyền qua mạng thực tế có hiệu lực. Lỗi công cụ khả năng phục
hồi giúp một bộ giải mã để phục hồi từ các lỗi truyền dẫn và duy trì một kết
nối videothành công trong một lỗi dễ bị môi trường mạng và các công cụ mã
hóa khả năng mở rộngcó thể giúp hỗ trợ linh hoạt truyền tại một loạt
các bitrate mã hóa.
4. Mã hóa của kết cấu 'vẫn còn (dữ liệu hình ảnh). Điều này có nghĩa, ví dụ,vẫn
còn hình ảnh có thể là
mã hoá và truyền trong khuôn khổ tương tự như chuyển những dữ
liệuvideo. Texture các công cụ mã hóa cũng có thể hữu ích kết
hợp với vẽ dựatrên hình ảnh động.
5.Coding của các đối tượng động trực quan như mắt lưới đa giác 2D và3D, hoạt
hình khuôn mặt và hoạt hình cơ thể con người.
6. Mã hóa cho các ứng dụng chuyên gia chẳng hạn như 'phòng thu video chất

lượng. Trong loại ứng dụng này, Chất lượng hình ảnh có lẽ là quan trọng
hơn nén cao.

5.2.2 Công cụ, các đối tượng, Hồ sơ và trình độ
Bảng 5.1 MPEG-4 Visual cấu hình cho mã hóa video tự nhiên

MPEG-4 trực quan hồ sơ cá nhân Các tính năng chính
Đơn giản Mã hóa phức tạp thấp của khung hình chữ nhật
nâng cao Mã hóa khung hình chữ nhật có hiệu quả cải thiện và hỗ
trợ interlaced video
Nâng cao Real-Time đơn giản Mã hóa khung hình chữ nhật thời gian thực trực tuyến
Core Mã hóa cơ bản của các đối tượng video hìnhtùy ý
Main Mã hóa tính năng phong phú của các đối tượngvideo
Nâng cao mã hiệu quả Mã hóa hiệu quả cao của các đối tượng video
N-Bit Mã hóa của các đối tượng video với độ phângiải mẫu khác
hơn 8 bit
Đơn giản, khả năng mở rộng Khả năng mở rộng mã hóa các khung hình video hình chữ
nhật
Nâng cao khả năng mở rộng mã hóa của khung hình chữ
Mỹ Granular Khả năng mở rộng nhật
Khả năng mở rộng mã hóa các đối tượng video
Khả năng mở rộng mã hóa của kết cấu vẫn còn
Khả năng mở rộng Core
Kết cấu vẫn còn khả năng mở rộng với hiệu quả cải
khả năng mở rộng Texture
thiện và các tính năngdựa trên đối tượng
Khả năng mở rộng Texture nâng cao
Kết hợp các tính năng của Profiles Texture đơn giản,
Core và nâng cao khả năng mở rộng
nâng cao Core
Mã hóa dựa trên đối tượng của chuỗi video chất lượng cao
Đối tượng dựa trên mã hóa video chất lượng cao với cải
thiệnnén hiệu quả
Đơn giản Studio
Core studio

Bảng 5.2 MPEG-4 Visual cấu hình cho mã hóa video tổng hợp
hoặc hybrid
MPEG-4 trực quan hồ sơ cá nhân Các tính năng chính
Cơ bản hoạt hình Texture 2D lưới mã hóa vẫn còn kết cấu
Mặt chuyển động đơn giản Mô hình khuôn mặt của con người hoạt hình
Mặt đơn giản và Body Animation mặt hoạt hình và các mô hình cơ thể
lai Kết hợp các tính năng đơn giản, Core, cơ bản hoạt hình
Kết cấu và cấu hình khuôn mặt Animation đơn giản

MPEG-4 Visual cung cấp chức năng mã hóa thông qua một sự kết hợp các công
cụ, các đối tượng và hồ sơ.Một công cụ là một tập hợp các chức năng mã
hóa để hỗ trợ một tính năng cụ thể (ví dụ, mã hóa video cơ bản,interlaced video,
hình dạng mã hóa đối tượng, vv). Một đối tượng là một yếu tố video (ví dụ:
một chuỗi các khung hình chữ nhật, một chuỗi các khu vực hình chữ tùy ý,một
hình ảnh vẫn còn) được mã hoá bằng cách sử dụng một hoặc nhiều công cụ. Ví
dụ, một đối tượng video đơn giản được mã hoá bằng cách sử dụng một giới hạn
tập hợp con của các công cụ cho các chuỗi video khung hình chữ nhật, một đối
tượng cốt lõi video được mã hoá bằng cách sử dụng các công cụ
cho các đối tượng tùy tiện hình và vv. Một hồ sơ là một tập hợp của các
loạiđối tượng mà CODEC dự kiến sẽ có khả năng xử lý.

MPEG-4 hồ sơ hình ảnh để mã hóa những cảnh phim "tự nhiên" được liệt
kê trong Bảng 5.1 và những phạm vi từ đơn giản (mã hóa của các khung hình
video hình chữ nhật) thông qua hồ sơ cho đối tượng tùy ý hình và khả năng mở
rộng mã hóa để cấu hình cho mãhóa video chất lượng studio.
Bảng 5.2 liệt kê các cấu hình mã hóa tổng hợp, video (hoạt hình mắt lưới,khuôn
mặt / mô hình cơ thể) và hồ sơ cá nhân hybrid (kết hợp các tính năng mã
hóa video tổng hợp và tự nhiên). những
hồ sơ này được không (hiện tại) được sử dụng để nén video tự
nhiên và dođó, không đề cập chi tiết trong cuốn sách này.

Hình 5,1 MPEG-4 Visual hồ sơ và đối tượng( tự xem nhé hình ko dịch đc)
Hình 5.1 liệt kê mỗi MPEG-4 hồ sơ trực quan (cột bên trái) và đối tượng thị giác
loại (hàng trên). Các mục bảng cho thấy các loại đối tượng được chứatrong mỗi
hồ sơ. Ví dụ, một bộ giải mã tương thích với hồ sơ đơn giản phải có khả
năng mã hóa và giải mã đơn giản đối tượng và hồ sơ Core CODEC phải có khả
năngmã hóa và
Đơn giản và Core giải mã đối tượng

Profiles là một cơ chế quan trọng để khuyến khích khả năng tương
tácgiữa các codec từ các nhà sản xuất khác nhau. MPEG-4 isual tiêu chuẩn mô
tả một phạm vi đa dạng của mã hóa công cụ và nó không chắc rằng bất
cứ CODEC thương mại sẽ yêu cầuthực hiện của tất cả các công cụ. Thay vào
đó, một nhà thiết kế bộ giải mã lựa chọn một hồ sơchứa đầy đủ các công
cụ cho mục tiêu ứng dụng. Ví dụ, một bộ giải mã cơ bản thực hiện trên một bộ
xử lý năng lượng thấp có thể sử dụng Hồ sơ đơn giản, một bộ giải ã cho các
ứng dụng video có thể chọn nâng cao thời gian thực Đơn giản và như vậy. Đến
nay, một số hồ sơ đã có tác động trên thị trường hơn những người khác. Các
đơn giản và nâng cao cấu hình đơn giản là đặcbiệt phổ biến
với các nhà sản xuất và người sử dụng trong khi cấu hình cho mã
hóa của các đối tượng tùy ý hình đã rất hạn chế thương mại tác động (xem
Chương 8 để thảo luận thêm về tác động thương mại của MPEG-4 Cấu hình).

Hồ sơ xác định một tập hợp con của mã hóa các công cụ và trình
độ xácđịnh các hạn chế trên các thông số của bitstream sự. Bảng 5.3 liệt kê
các trình độ cho các hồ sơ đơn giảndựa trên phổ biến (đơn giản, đơn giản
và nâng cao nâng cao thời gian thực đơn giản) . Mỗi cấp nơi khó khăn về hiệu
suất tối đa cần thiết để giải mã một chuỗi mã hóa MPEG-4. Ví dụ, một mul-
timedia thiết bị đầu cuối với khả năng xử lý hạn chế và một số tiền nhỏ của bộ
nhớ chỉ có thể
hỗ trợ Simple Profile - Cấp 0 bitstream giải mã. Cấp nơi định nghĩa hạn chế vào
lượng bộ nhớ đệm, kích thước khung hình được giải mã và tỷ lệ chế
biến (macroblocks mỗi giây) và số lượng của các đối tượng video (trong trường
hợp này, một khung hình chữ nhật duy nhất).Một thiết bị đầu cuối có
thể đối phó với các thông số được đảm bảo là có khả năng thành công giải
mã bất kỳ phù hợp Simple Profile Cấp 0 bitstream. Mức độ cao hơncủa hồ

sơ đơn giản yêu cầu một bộ giải mã để xử lý bốn đối tượng video Simple
Profile (ví dụ,lên đến bốn đối tượng hình chữ nhật bao gồm độ phân giải màn
hình QCIF hoặc CIF)
5.2.3 Video của đối tượng
Một trong những đóng góp quan trọng của MPEG-4 Visual là một động
tháitừ quan điểm "truyền thống" của một video theo chuỗi như
là chỉ đơn thuần là một bộ sưu tập của khung hình chữ nhật của
video. Thay vào đó, MPEG-4 Visual xử lý một chuỗi video như là một bộ sưu
tập của một hoặc nhiều đối tượng video.MPEG-4 Visual xác định một đối
tượng video như là một thực thể linh hoạt mà người dùngđược phép truy
cập (tìm kiếm, trình duyệt) và thao tác (cắt và dán) [1]. Một đối tượng video
(Võ) là một khu vực của cảnhvideo.
chiếm một khu vực hình tùy tiện và có thể tồn tại cho một chiều dài tùy ý thời
gian. một ví dụ của một VO tại một điểm cụ thể trong thời gian là một chiếc máy
bay đốitượng video (VOP).

Định nghĩa này bao gồm các phương pháp tiếp cận truyền thống mã hóakhung
hình hoàn chỉnh, trong đó VOP từng là một khung duy nhất của video và một
chuỗi các khung hình thành một Võ (ví dụ,
Hình 5.2 cho thấy một VO bao gồm ba VOPs hình chữ nhật). Tuy nhiên, việc
giới thiệu khái niệm VO cho phép tùy chọn linh hoạt hơn để mã hóa video. Hình
5.3cho thấy một VO rằng bao gồm bất thường-
các hình VOPs, mỗi một trong những tồn tại trong một khung và mỗi mã một
cách riêng biệt (mã hóa dựa trên đối tượng).

Một cảnh trong video (ví dụ như Hình 5.4) có thể được thực hiện của một đối
tượng nền (VO3 trong ví dụ này) và một số đối tượng tiền
cảnh riêngbiệt (VO1, VO2). Cách tiếp cận này có tiềm năng
linh hoạt hơn nhiều so với cấu trúc, cố định khung hình chữ nhật tiêu
chuẩntrước đó. Các đối tượng riêng biệt có thể được mã hóa với chất
lượng hình ảnh và độ phân giải thời gian để phản ánh
'tầm quan trọng đến cảnh cuối cùng, các đối tượng từ nhiều
nguồn (baogồm cả đối tượng tổng hợp và "tự nhiên") có thể được kết
hợp trong một cảnh duy nhất và các thành phần và hành vi của
cảnh có thể đượcanipulated bởi một người dùng cuối trong các ứng dụng tương
tác cao.Hình 5.5 cho thấy
một cảnh quay video mới được hình thành bằng cách thêm VO1 từ
5,4 hìnhmột VO2 mới và một Võ nền mới. Mỗi đối tượng được mã
hoá một cáchriêng biệt bằng cách sử dụng MPEG-4 Visual (hợp của các đối
tượng hình ảnh và âm thanh được giả định để được xử lý riêng, ví dụ bởi hệ
thốngMPEG-4 [2]).
5,3 Coding hình chữ nhật khung hình
Mặc dù có các linh hoạt tiềm năng được cung cấp bởi các mã hóa dựa trên
đối tượng, các ứng dụng phổ biến nhất của MPEG-4 Visual là để mã hóa khung
hình đầy đủ của video.Các công cụ cần thiết để xử lý VOPs hình chữ nhật
(thường là các khung hình video hoàn chỉnh) được nhóm lại với nhau trong các

cấu hình đơn giản, chương trình được gọi.Các công cụ và các đối tượng để mã
hóa khung hình chữ nhật được hiển thị trong hình 5.6.Các công cụ cơ bản là
tương tự như những người thông qua chuẩn video mã hóa trước đó, DCT-dựa
trên mã hóa của macroblocks với dự đoán chuyển động bồi thường.Hồ sơ cá
nhân đơn giản dựa trên mô hình lai wellknownDPCM / DCT (xem Chương 3,
Mục 3,6 ) với các công cụ bổ sung để nâng cao hiệu quả mã hóa và hiệu quả
truyền dẫn.Do sự phổ biến rộng rãi của hồ sơ đơn giản, cấu hình cao cấp cho
các VOPs hình chữ nhật đã được phát triển. Hồ sơ cá nhân đơn giản nâng
cao cải thiện hiệu quả tiếp tục mã hóa và cho biết thêm hỗ trợ cho interlaced
video và thời gian thực nâng cao hồ sơ cá nhân đơn giản bổ sung công cụ rất
hữu ích cho thời gian thực các ứng dụng video.

5.3.1 Đầu vào và đầu ra định dạng video
Các đầu vào Visual một bộ mã hóa MPEG-4 và đầu ra của một bộ giải mãlà
một chuỗi video 04:02:00, 04:02:02 hoặc 4:04:04 tiến bộ hoặc xen kẽ định
dạng (xem Chương 2). MPEG-4 Visual sử dụng bố trí lấy mẫu được hiển thị
trong Hình 2.11 cho khung tiến bộ lấy mẫu và phương pháp hiển thịtrong hình
2.12 cho phân bổ luma và mẫu sắc độ cho từng cặp của các lĩnh vực trong
một chuỗi xen kẽ.
5.3.2 Các đơn giản hồ sơ
CODEC đó là tương thích với hồ sơ đơn giản nên có khả năng mã hóa vàgiải
mã đối tượng video đơn giản bằng cách sử dụng các công cụ sau:
1.I-VOP (Intra VOP được mã hóa hình chữ nhật, tiến bộ định dạng video);
2. P-VOP (Inter-VOP hình chữ nhật được mã hóa, tiến bộ định dạng video);
3.tiêu đề ngắn (chế độ cho khả năng tương thích với các codec H.263);
4. hiệu quả các công cụ nén (vector chuyển động cho mỗi macroblock
,vectơ chuyển động không hạn chế, dự đoán nội);
5. hiệu quả các công cụ truyền dẫn (gói dữ liệu video, dữ liệu phân
vùng,Mã Length biến đổi thuận nghịch).
5.3.2.1 Các Bit Rate video Core Rất thấp
Đơn giản của MPEG-4 Visual sử dụng một mô hình bộ giải mã được gọi
làCore Bit Rate Rất thấp (VLBV) Video (DPCM / DCT lai mô hình được mô tả
trong Chương 3).Trong phổ biến với các tiêu chuẩn khác, kiến trúc củacác bộ
mã hóa và giải mã được không quy định ở định dạng MPEG-4
Visual nhưng thực hiện thực tế sẽ yêu cầu để thực hiện các chức năngđược
hiển thị trong
Hình 5.7 (mã hóa của VOPs nội) và hình 5.8 (mã hóa
của VOPs liên). Cáccông cụ cơ bản cần thiết để mã hóa và giải mã hình chữ
nhật I-VOPs vàP-VOPs được mô tả trong phần tiếp theo (Mục 3.6 của Chương
3 cung cấpmột đi bộ qua 'chi tiết hơn về quá trình mã hóa và giải mã). Các công
cụtrong Core VLBV được dựa trên chuẩn H.263 và chế độ ngắn tiêu
đề chophép khả năng tương thích trực tiếp (ở cấp độ khung hình) giữa các bộ
giải mã hồ sơ MPEG-4 Simple và bộ giải mã cơ bản H.263.
5.3.2.2 cơ bản mã hóa các công cụ
I-VOP

Một hình chữ nhật I-VOP là một khung hình của video được mã hóa trong
chế độ nội (không có dự báo từ bất kỳ VOP được mã hóa khác).Các giai
đoạn mã hóa và giải mã được hiển thị trong hình 5.7
DCT và IDCT: khối luma và mẫu sắc được chuyển đổi bằng cách sử dụngmột
8 × 8 Chuyển tiếp DCT trong quá trình mã hóa và một 8 × 8 InverseDCT trong
quá trình giải mã (xem Phần 3.4).
Lượng tử: Các MPEG-4 Visual tiêu chuẩn quy định cụ thể các phương
pháp thay đổi tỷ lệ ('ngược quantising') lượng tử biến đổi các hệ số trong bộ giải
mã.Rescaling được điều khiển bởi một tham số quy mô quantiser,QP, có thể có
giá trị 1-31 (lớn hơn giá trị của QP sản xuất một
quantiser bước kích thước và do đó cao hơn nén và istortion). Hai phương
pháp của rescaling được mô tả trong các tiêu chuẩn: Phương pháp 2(phương
pháp cơ bản) và phương pháp 1 (linh hoạt hơn nhưng cũng phức tạp
hơn). Phương pháp 2 nghịch đảo lượng tử hoạt động như sau. Hệ
sốDC một macroblock Intra mã được thay đổi tỷ lệ:
DC = DCQ.dc scaler(5.1)
DCQis các hệ số lượng tử, DC là hệ số thay đổi tỷ lệ và dc scaler là một tham
số được xác định trong tiêu chuẩn.Trong chế độ tiêu đề ngắn (xemdưới đây),
dc scaler là 8 (tức là tất cả các hệ số DC nội được thay đổi tỷ lệbởi một yếu
tố của 8), nếu không dc scaler được tính theo giá trị của QP(Bảng
5.4).Tất cả các hệ số biến đổi khác (bao gồm cả AC và Inter DC)được thay đổi tỷ
lệ như sau:
| F | = QP • (2 • | FQ | +1) (nếu QP là lẻ và FQ = 0)

| F | = QP • (2 • | FQ | + 1) - 1 (nếu QP và FQ = 0)
F = 0 (nếu FQ = 0) (5.2)
FQ là hệ số lượng tử và F là hệ số thay đổi tỷ
lệ.Các dấu hiệu của F được thực hiện tương tự như dấu hiệu
của FQ. Chuyển tiếp lượng tử không được xác định bởi các tiêu
chuẩn

Zig-zag quét: hệ số DCT lượng tử được sắp xếp lại trong một zig-zag quéttrước
khi để mã hóa (xem Phần 3.4).
Mã hóa cuối-Run-Level: mảng của các hệ số sắp xếp lại tương ứng với mỗi
khối được mã hoá để đại diện cho không hệ số hiệu quả.Mỗi hệ số khác
không được mã hóa như là một bộ ba của (cuối cùng, chạy, mức độ), nơi'cuối
cùng' cho biết đây là hệ số khác không cuối cùng trong khối, 'chạy' tín
hiệu số trước các hệ số không và mức độ "cho thấy các hệ sốký tên và độ lớn
Entropy mã hóa: Tiêu đề thông tin và (cuối cùng, chạy, mức độ) ba (xemPhần
3.5) được đại diện bởi chiều dài thay đổi mã (VLCs).Các mã nàytương tự
như mã Huffman và được định nghĩa trong tiêu chuẩn, dựa trênxác suất hệ
số tính trước
Một mã I-VOP bao gồm một tiêu đề VOP, tiêu đề gói tùy
chọn video vàmacroblocks mã.Mỗi macroblock được mã hoá với một tiêu
đề (xác địnhloại macroblock, xác định các khối trong macroblock chứa hệ

số mã, tín hiệu thay đổi trong tham số lượng tử, vv) tiếp theo là hệ số được mã
hóacho mỗi 8 × 8 block
Trong bộ giải mã, trình tự của VLCs được giải mã để trích xuất chuyển đổihệ
số lượng tử được thu nhỏ và biến đổi bởi một 8 × 8 IDCT để tái tạo lạiđược giải
mã I-VOP (hình 5.7).
P-VOP
P-VOP được mã hoá với dự đoán của Inter từ trước đó mã hóa I-P-
VOP(VOP tham chiếu). Các giai đoạn mã hóa và giải mã được hiển thị tronghình
5.8.
Chuyển động dự toán và bồi thường: Đề án bồi thường chuyển động cơ
bản là khối dựa trên bồi thường 16 × 16 macroblocks pixel (xem Chương 3).Bù
đắp giữa các macroblock hiện tại và khu vực bồi thường trong cáchình ảnh tham
chiếu (vector chuyển động) có thể có nửa điểm ảnh độ phân giải.Mẫu dự
đoán tại các vị trí điểm ảnh phụ được tính bằng cách sử dụngnội suy song tuyến
tính giữa các mẫu ở vị trí số nguyên-pixel.Các phương pháp dự
toán chuyển động (lựa chọn các vector chuyển động "tốt nhất")được để lại theo
ý của người thiết kế.Các khu vực phù hợp (hoặc dự đoán)được trừ
đi từ các macroblock hiện tại để sản xuất một macroblock còn lại(Motion-bù Dự
đoán, MCP trong hình 5.8).
Sau khi bồi thường chuyển động, các dữ liệu còn lại được chuyển đổi với DCT
, lượng tử, sắp xếp lại, chạy cấp mã hóa và các dữ liệu ngẫu nhiênđược mã
hóa.Các dư lượng tử được thay đổi tỷ lệ và ngược chuyển đổitrong bộ mã
hóa để tái tạo lại một bản sao địa phương của MB giải mã(đối với dự đoán tiếp
tục bồi thường chuyển động).Một mã P-VOP bao gồm VOP tiêu đề, tiêu đề
video gói tùy chọn và macroblocks mã mỗi cóchứa một tiêu đề (thời gian
này bao gồm các vector chuyển động khác biệtđược mã hóa) và hệ số còn
lại được mã hóa cho mỗi 8 × 8 block.
Bộ giải mã hình thức dự đoán chuyển động bồi thường dựa trên các vector
chuyển động nhận được và bản sao của chính địa phương của VOP tham
chiếu.Các dữ liệu còn lại được giải mã sẽ được thêm vào dự đoán để tái tạo
lại một macroblock giải mã (Motion-bù tái thiết, MCR trong hình 5.8).
Macroblocks trong một P-VOP có thể được mã hóa trong chế độ Inter (vớidự
đoán chuyển động bồi thường từ VOP tham chiếu) hoặc chế độ nội(không có dự
đoán chuyển động bồi thường).Liên chế độ bình thường sẽcho hiệu quả tốt
nhất mã hóa nhưng Intra chế độ có thể hữu ích trong các khu vực nơi có không
phải là một trận đấu tốt trong một VOP trước đó,chẳng hạn như là một khu
vực mới chưa được khám phá.
Short Tiêu đề
'Ngắn tiêu đề' công cụ cung cấp khả năng tương thích giữa MPEG-4
Visualvà ITU-T tiêu chuẩn video H.263 mã hóa. Một mã hóa I-P-VOP trong chế
độngắn tiêu đề có cú pháp giống hệt với hình ảnh I hoặc P-hình ảnh được mã
hóa trong chế độ cơ bản của H.263. Điều này có nghĩa là MPEG-4 I-VOPhoặc P-
VOP decodeable bởi một bộ giải mã H.263 và ngược lại.
Trong chế độ tiêu đề ngắn, macroblocks trong VOP được tổ chức trong
Nhóm Blocks (gobs), bao gồm một hoặc nhiều hàng đầy đủ của macroblocks
.Mỗi thủy thủ (tùy chọn) có thể bắt đầu với một điểm đánh dấu resynchronisation

(mã nhị phân có độ dài cố định cho phép một bộ giải mãđể resynchronise khi
lỗi gặp phải, xem Phần 5.3.2.4
5.3.2.3 Mã hóa hiệu quả Công cụ
Các công cụ sau đây, một phần của hồ sơ đơn giản, có thể cải thiện hiệu suất
nén.Họ chỉ được sử dụng khi chế độ tiêu đề ngắn không được kích hoạt.
Bốn vector chuyển động cho mỗi macroblock chuyển động bồi
thường có xuhướng có hiệu quả hơn với các kích thước khối nhỏ hơn.Kích
thước khốimặc định bồi thường chuyển động là 16 × 16 mẫu (luma), 8 × 8 mẫu
(sắc độ), kết quả trong một vector chuyển động cho mỗi macroblock.Công cụ
này cung cấp cho các bộ mã hóa tùy chọn để lựa chọn một kích thước khối
chuyển động nhỏ hơn đền bù, 8 × 8 mẫu (luma) và 4 × 4 mẫu (sắc độ) , cho
bốn vectơ chuyển động mỗi macroblock.Chế độ này có thể có hiệu quả hơngiảm
thiểu năng lượng còn lại chuyển động bồi thường, đặc biệt là ở các khu vực
chuyển động phức tạp hoặc ở gần ranh giới của các đối tượng di chuyển.Có một
chi phí gia tăng trong việc gửi bốn vectơ chuyển động thay vìmột, và do đó, các
bộ mã hóa có thể chọn để gửi một hoặc bốn vectơchuyển động trên một cơ sở
macroblock-by-macroblock (Hình 5,9).
Vectors chuyển động không hạn chế
Trong một số trường hợp, phù hợp nhất cho macroblock có thể là một khu
vực 16 × 16 mở rộng bên ngoài ranhgiới của VOP tham chiếu.Hình 5,10 cho
thấy góc dưới bên trái của mộtVOP hiện nay (hình ảnh bên phải) và, trước
đây tham khảo VOP (bên tráiảnh).Bàn tay giữ cây cung di chuyển vào hình
ảnh trong các VOP hiện tại vàdo đó không phải là một trận đấu tốt cho
macroblock đánh dấu bên trongVOP tham chiếu.Trong hình 5,11, mẫu trong
VOP tham chiếu đã đượcngoại suy (đệm) vượt ra ngoài ranh giới của VOP
.Một trận đấu tốt hơn chocác macroblock thu được bằng cách cho phép các
vector chuyển động chỉvào khu vực này suy luận (macroblock đánh dấu trong
hình 5,11 là phù hợp nhất trong trường hợp này).Vectors chuyển động không bị
giới hạn (UMV) công cụ cho phép vector chuyển động chỉ ở bên ngoài ranh
giới của VOPtham chiếu.Nếu một mẫu được chỉ định bởi vector chuyển động
bên ngoàiVOP tham khảo, các mẫu góc gần nhất được sử dụng để thay thế.
UMV chế độ có thể nâng cao hiệu quả bồi thường chuyển động , đặc biệt
là khi cóđược các đối tượng di chuyển trong và ngoài của hình ảnh.
Intra Dự đoán
Tần số thấp biến đổi hệ số của nước láng giềng trong mã 8 × 8 khối thường
tương quan. Trong chế độ này, hệ số DC và (tùy chọn) hàng đầu tiên và cột
của hệ số AC 8 mã hóa nội × 8 khối được dự đoán từ các khối mã lân cận
. Hình 5,12 cho thấy một macroblock mã trong chế độ nội khối vàcác hệ
số DCT cho mỗi bốn 8 × 8 khối luma được thể hiện trong hình 5,13.Các hệ
số DC (trên cùng bên trái) rõ ràng tương tự, nhưng nó ít rõ ràng cho dù có sự
tương quan giữa hàng đầu tiênvà cột của các hệ số AC trong các khối.

Hệ số DC của khối hiện tại (X trong hình 5,14) được dự đoán từ hệ số DC
trên (C) hoặc bên trái (A) trước đây, mã hoá 8 × 8 block.DC hệ số giá trịthay đổi
tỷ lệ các khối A, B và C xác định các phương pháp dự đoán DC .Nếu A, B, hoặc
C đang ở bên ngoài ranh giới VOP hoặc ranh giới củacác gói dữ liệu video hiện

tại (xem phần sau), hoặc nếu họ khôngintracoded, DC giá trị hệ số của họ được
giả định là bằng 1024 (hệ sốgiữa DCmàu xám khối mẫu).Hướng dự đoán được
xác định bởi:
nếu | DCA-DCB | | DCB DCC |
dự đoán từ khối C khác dự đoán từ khối A
Hướng của gradient DC nhỏ nhất được lựa chọn như hướng dự đoán cho
khối X. dự đoán, PDC, được hình thành bằng cách chia các hệ số DC của
khối lân cận được lựa chọn bởi một yếu tố rộng và PDCis trừ hệ số thực tế
DC lượng tử (QDCX) và (PQDCX) còn lại được mã hoá và truyền
AC dự đoán hệ số được thực hiện theo cách tương tự, với các hàng hoặc
cột đầu tiên của AC hệ số dự đoán theo hướng xác định hệ số
DC (Hình5,15).Ví dụ, nếu hướng dự đoán là từ khối A, cột đầu tiên của AC hệ
số trong khối X được dự đoán từ cột đầu tiên của khối A. Nếu hướng dự
đoánlà từ khối C, hàng đầu tiên của AC hệ số X được dự đoán từ hàng đầu tiên
của C. dự đoán được thu nhỏ tùy thuộc vào kích thước bước quantiser
của X và khối A hoặc C.
5.3.2.4 Công cụ hiệu quả truyền
Một lỗi truyền dẫn như một lỗi bit hoặc mất gói tin có thể gây ra
một bộ giảimã video để mất đồng bộ hóa với các chuỗi của VLCs giải
mã. Điều nàycó thể gây ra các bộ giải mã để giải mã không chính xác, một số
hoặc tấtcả các thông tin sau khi xảy ra lỗi và điều này có nghĩa rằng một phần
hoặctất cả các VOP được giải mã sẽ bị bóp méo hoặc bị mất hoàn toàn (tức
làảnh hưởng của lỗi lây lan không gian thông qua VOP, ropagation lỗi không
gian '). Nếu VOPs tiếp theo được dự đoán từ VOP bị hư hỏng , vùng bị bóp
méo có thể được sử dụng như là một tài liệu tham khảo dự đoán, dẫn đếntuyên
truyền lỗi thời những trong VOPs sau (Hình 5,16).

Khi một lỗi xảy ra, một bộ giải mã có thể tiếp tục giải mã chính xác khi đạt
đến một điểm resynchronisation, thường là một mã nhị phân duy nhất
decodeable chèn vào trong bitstream.Khi bộ giải mã phát hiện một lỗi (ví dụ
vì một VLC không hợp lệ được giải mã), một cơ chế phục hồi thích hợp để
'quét' bitstream cho đến khi một dấu hiệu resynchronisation được phát hiện
.Trong chế độ tiêu đề ngắn, các dấu resynchronisation xảy ra vào lúc bắt
đầu của mỗi VOP và (tùy chọn) tại bắt đầu của mỗi thủy thủ.
Các công cụ sau đây được thiết kế để cải thiện hiệu suất trong quá trình
truyền dữ liệu video được mã hóa và đặc biệt hữu ích, nơi có một xác suất cao
của lỗi mạng [3]. Các công cụ có thể không được sử dụng trong chế
độtiêu đề ngắn.

Video Packet
Một VOP truyền bao gồm một hoặc nhiều gói dữ liệu video. Một gói dữ liệu
video là tương tự như một phần trong MPEG-1, MPEG-2 hoặc H.264 (xem
Phần 6) và bao gồm một điểm đánh dấu resynchronisation, lĩnh vực tiêu đề
và một loạt các macroblocks mã để raster scan (Hình 5,17). (Gây nhầm lẫn,
MPEG-4 Visual tiêu chuẩn đôi khi đề cập đến các gói dữ liệu video như là'lát
cắt'). Đánh dấu resynchronisation được theo sau bởi một số của số acroblock

tiếp theo, cho phép một bộ giải mã đến vị trí macroblock đầu tiêncủa gói
tin một cách chính xác. Sau này có các tham số lượng tử và một lá cờ, HEC
(Tiêu đề mở rộng Code). Nếu HEC được thiết lập để 1, tiếp theo là một bản
sao của tiêu đề VOP hiện hành, tăng số lượng thông tin được truyền đi nhưng
cho phép một bộ giải mã để khôi phục lại các tiêu đề VOPnếu các tiêu
đề VOP đầu tiên bị hỏng bởi một lỗi.
Các công cụ gói dữ liệu video có thể hỗ trợ khôi phục lỗi ở bộ giải mã theo nhiều
cách, ví dụ:
1. Khi một lỗi được phát hiện, các bộ giải
mã có thể resynchronise tại bắtđầu của các gói dữ liệu video tiếp theo và do đó,
các lỗi không tuyên truyềnvượt ra ngoài ranh giới của các gói dữ liệu video
2. Nếu sử dụng, trường HEC cho phép một bộ giải mã để phục hồi
một tiêuđề VOP bị mất từ các nơi khác trong VOP.
3. Mã hóa tiên đoán (như khác biệt giữa các mã hóa của các tham sốlượng
tử, dự đoán của các vectơ chuyển động và DC / AC dự đoán nội)không vượt
qua ranh giới giữa các gói tin video. Điều này ngăn cản (ví dụ)một lỗi trong dữ
liệu vector chuyển động từ tuyên truyền đến một gói dữ liệuvideo.

Dữ liệu phân vùng
Các công cụ phân vùng dữ liệu cho phép một bộ mã hóa để tổ chức lại dữ
liệu được mã hóa trong một gói tin video để giảm tác động của lỗi truyền
dẫn. Gói tin được phân chia thành hai phân vùng, (ngay sau khi tiêu đề gói
tin video) đầu tiên có chứa mã hóa chế độ thông tin cho mỗi
macroblock cùng với DC hệ số của mỗi
khối (macroblocks nội) hoặc vectơchuyển động (macroblocks liên). Các dữ liệu
còn lại (AC hệ số và hệ số DCcủa macroblocks liên) được đặt trong phân vùng
thứ hai một dấuresynchronisation.
Các thông tin được gửi trong các phân vùng đầu tiên được coi là quan trọng
nhất cho giải mã đầy đủ của các gói dữ liệu video. Nếu phân vùng đầu tiên bị thu
hồi, nó thường là có thể cho các bộ giải mã để làm cho một nỗ lực xây dựng
lại các gói tin hợp lý, thậm chí nếu phân vùng thứ 2 bị hư hỏnghoặc bị
mất do lỗi truyền dẫn (s).

Reversible VLCs
Một tập hợp các tùy chọn của Mã Length thuận nghịch biến (RVLCs) có thểđược
sử dụng để mã hóa dữ liệu hệ số DCT. Như tên cho thấy, những mã này có thể
được một cách chính xác được giải mã ở cả hai hướng về phía trước và hướng
ngược lại, làm cho nó có thể cho các bộ giải mã để giảm thiểu các khu vực hình
ảnh bị ảnh hưởng bởi lỗi.
Một bộ giải mã 1 giải mã mỗi gói tin video trong hướng về phía trước, vànếu một
lỗi được phát hiện (ví dụ như bởi vì cú pháp bitstream bị vi phạm),gói tin
được giải mã theo hướng ngược lại từ đánh dấu resynchronisation tiếp theo
.Sử dụng phương pháp này, thiệt hại gây ra bởi một lỗi có thể bị giới hạn chỉ
một macroblock, làm cho nó dễ dàng để che giấu errored khu vực . Hình 5,18
minh họa việc sử dụng giải mã đàn hồi lỗi. Con số nàycho thấy một gói tin video
sử dụng HEC, dữ liệu phân vùng và RVLCs. Máy báo lỗi xảy ra trong dữ liệu kết

cấu và bộ giải mã quét về phía trước và lạc hậu để phục hồi dữ liệu kết cấu ở
hai bên của lỗi.

5.3.3 Advanced Simple Profile
Hồ sơ đơn giản, được giới thiệu trong phiên bản đầu
tiên của tiêu chuẩnMPEG-4 trực quan, nhanh chóng trở nên phổ biến với các
nhà phát triển cải thiện hiệu quả của nó so với tiêu chuẩn trước đó (chẳng
hạn như MPEG-1 và MPEG-2) và dễ dàng tích hợp nó vào hiện tại các ứng dụng
video sửdụng các khung hình video hình chữ nhật. Hồ sơ chi tiết đơn giản được
tích hợp vào một phiên bản sau của tiêu chuẩn với các công
cụ bổ sung để hỗtrợ cải thiện hiệu suất nén và mã hóa video
interlaced. Advanced Simple Profile CODEC phải có khả năng giải mã đối
tượng đơn giản cũng nhưcác đối tượng đơn giản nâng cao có thể sử dụng các
công cụ sau đâyngoài các công cụ đơn giản:
1.B-VOP (bidirectionally dự đoán mã liên VOP);
2. quý-pixel chuyển động bồi thường;
3. bồi thường chuyển động toàn cầu;
4. thay thế quantiser;
5. interlace (các công cụ cho quá trình tiến hóa interlaced video).

B-VOP
B-VOP sử dụng dự báo hai chiều để nâng cao hiệu quả bồi thườngchuyển
động. Mỗi khối hoặc macroblock có thể được dự đoán sử dụng (a) chuyển
tiếp dự đoán từ trước đó hoặc P-VOP, (b) ackwards dự đoán từtiếp theo hoặc P-
VOP hoặc (c) trung bình của các dự đoán về phía trước và lạc hậu. Chế độ
này thường cho hiệu quả tốt hơn mã hóa hơn so với dự đoán về phía trước cơ
bản, tuy nhiên, các bộ mã hóa phải lưu trữ nhiều khung hình trước khi mã
hóa mỗi B-VOP làm tăng các yêu cầu bộ nhớ và sự chậm trễ mã
hóa. Mỗi macroblock trong một B-VOP
bồi thường chuyển động từ trước và / hoặc bên cạnh I-P-VOP trong một
trong các cách sau đây (Hình 5,19).
1. Chuyển tiếp dự đoán: Một MV duy nhất được truyền, MVF, đề cập đếntrước
đó, tôi hay P-VOP.
2. Ngược dự đoán: Một MV duy nhất được truyền, MVB, đề cập
đếntương lai hoặc P-VOP.
3. Hai chiều nội suy dự đoán: Hai MV được truyền, MVFand MVB, đề cập
đến trước đó và tương lai I-P-VOPs. Dự đoán chuyển động bồi
thườngcho các macroblock hiện tại được sản
xuất bởi interpolating giữa luma vàmẫu sắc độ
hai tài liệu tham khảo khu vực.
4. Hai chiều trực tiếp dự đoán: vector chuyển động chỉ trước đây và trong tương
lai I-P-VOPs có nguồn gốc tự
động từ các MV của các macroblockcùng trong tương lai I-P-VOP. Một đồng
bằng MV sửa chữa các MV nàytự động tính được truyền.

Ví dụ về chế độ trực tiếp (Hình 5,20)
Trang trước tài liệu tham khảo VOP: I4, hiển thị thời gian = 2

B-VOP: B6, hiển thị thời gian hiện tại = 6

VOP tài liệu tham khảo trong tương lai: P7, màn hình hiển thị thời gian = 7
MV cho cùng một vị trí macroblock P7, MV7 = (+5, -10)
TRB = hiển thị thời gian (B6) - hiển thị thời gian (I4) = 4
TRD = hiển thị thời gian (P7) - hiển thị thời gian (I4) = 5
MVD = 0 (không có vector đồng bằng)
MVF = (TRB / TRD) MV = (+4, -8)
MVB = (TRB-TRD/TRD), MV = (-1, +2)

Quarter-Pixel chuyển động Vectors
Các đơn giản hỗ trợ các vectơ chuyển động với độ chính xác một nửa-
pixelvà công cụ này hỗ trợ các vectơ với độ chính xác tứ-pixel. Các tài liệu tham
khảo mẫu VOP được nội suy để nửa điểm ảnh vị trí và sau đó một lần nữa
để quý-vị trí điểm ảnh trước khi chuyển động dự toán và bồi thường. Điều này
làm tăng sự phức tạp của dự toán chuyển động, bồi thường và tái
thiết,nhưng có thể cung cấp một tăng hiệu suất mã hóa so với nửa-
pixel bồithường (xem Chương 3).
thay thế quantiser
An rescaling thay thế ('nghịch đảo lượng tử') phương pháp được hỗ trợđơn
giản nâng cao. Nội DC rescaling vẫn giữ nguyên (xem Phần 5.3.2)nhưng hệ
số lượng tử khác có thể được thay đổi tỷ lệ sử dụng mộtmethod1 thay
thế. Lượng tử hệ số FQ (u, v) được thay đổi tỷ lệ sản xuất hệ số F (u, v)
(u, vare tọa độ của hệ số) như sau:
F = 0 nếu FQ = 0
F = [(2.FQ (u, v) + k) • Ww (u, v) • QP] / 16 nếu FQ = 0.

(0 nội khối)

K= 1 FQ (u, v)> 0, nonintra

-1 Q (u, v) <0, nonintra

trong nơi W là một ma trận các yếu
tố trọng, W0 macroblocks nội và W1macroblocks nonintra.Phương pháp
2 rescaling (xem Phần 5.3.2.1), tất cả các hệ số (ngoài DC nội) được lượng tử
hóa và thay đổi tỷ lệ với kích thước bước cùng quantiser.Rescaling Phương
pháp 1 cho phép một bộ mã hóa để thay đổi kích thước bước tùy thuộc vào vị trí
của các hệ số, sử dụng nước thải ma trận trọng.Ví dụ, hiệu suất chủ
quan tốt hơn có thể đạt được bằng cách tăng kích thước bước tần số hệ
số cao và giảm thấp tần số hệ số.Bảng 5.5 cho thấy một ví dụ đơn giản của
một trọng lượng nước thải của ma trận.
Chuyển động bồi thường toàn cầu
Macroblocks trong các đối tượng cùng một đoạn video có thể trải nghiệmchuyển
động tương tự. Ví dụ, máy ảnh pan sẽ sản xuất rõ ràng chuyển độngtuyến tính

của toàn bộ khung cảnh, máy ảnh phóng to hoặc xoay sẽ tạo ra một chuyển
động rõ ràng phức tạp hơn và macroblocks trong một đối tượng lớn có thể di
chuyển trong cùng một hướng. Bồi thường chuyển độngtoàn cầu (GMC) cho
phép một bộ mã hóa để truyền tải một số ít chuyển động (cong vênh) các thông
số mô tả 'toàn cầu' mặc định chuyển động chotoàn bộ các VOP. GMC có thể
cung cấp hiệu suất nén được cải thiện khi một số lượng đáng kể acroblocks
trong chia sẻ VOP các đặc tính chuyểnđộng tương tự. Các thông số chuyển
động toàn cầu được mã hóa trong tiêu đề VOP và bộ mã hóa lựa chọn hoặc
GMC các thông số mặc địnhhoặc chuyển động một vector cá nhân cho các
macroblock mỗi
Khi công cụ GMC được sử dụng, bộ mã hóa gửi vectơ chuyển động toàn
cầu (GMVs) cho mỗi VOP cùng với vị trí của mỗi GMV trong VOP.Đối với
mỗi vị trí pixel trong VOP, một vector chuyển động cá nhân được
tính bằngcách nội suy giữa các GMVs và vị trí các điểm ảnh được chuyển
động bồi thường theo này suy vector (Hình 5,21).
Cơ chế này cho phép bồi thường cho một loạt các loại chuyển
động quay(Hình 5,22), máy ảnh zoom (Hình 5,23) và cong vênh cũng
như chuyển độngtịnh tiến hoặc tuyến tính.

Việc sử dụng của GMC được kích hoạt bằng cách thiết lập tham số sprite cho
phép GMC 'trong tiêu đề lớp Object Video (VOL).VOPs trong các VOLsau đó có
thể được mã hóa như là S (GMC) VOPs ('ma' VOPs với GMC),như là một thay
thế cho các phương pháp mã hóa 'bình thường' (I-VOP,P-VOP hoặc B-VOP) .
Thuật ngữ 'ma' được sử dụng ở đây vì một loại đền bù chuyển động toàn cầu
được áp dụng trong chế độ cũ 'của sprite mã hóa (một phần của hồ sơ chính ,
xem Phần 5.4.2.2).

Interlaced
Interlaced video bao gồm hai lĩnh vực trên mỗi khung hình (xem Chương 2)lấy
mẫu tại các thời điểm khác nhau (thường là 50 Hz hoặc 60 Hz Tốc độ lấy mẫu
thời gian).An VOP được interlaced chứa đường thay thế các mẫutừ hai lĩnh vực.
Bởi vì các trường được lấy mẫu tại các thời điểm khác nhau,chuyển động
ngang có thể làm giảm sự tương quan giữa các dòng củamẫu (ví dụ, trong
khuôn mặt di chuyển trong hình 5,24).Các bộ mã hóa cóthể chọn để mã hóa
các macroblock Khung hình DCT chế độ, trong đó mỗi khối được chuyển
đổi như bình thường, hoặc trong chế độ trường DCT,trong đó các mẫu độ sáng
từ Trường 1 được đặt trong tám dòng đầu của macroblock và các mẫu từ
Field 2 trong tám dòng thấp hơn các macroblock trước khi tính toán DCT
(Hình 5.25). Lĩnh vực DCT chế độ cho hiệu suất tốt hơn khi hai lĩnh vựcđược
decorrelated
Trường Bồi thường trong chế độ chuyển động (tương tự như đến 16 ×
8Chế độ chuyển động bồi thường trong các tiêu
chuẩn MPEG-2), các mẫuthuộc hai lĩnh vực trong macroblock là chuyển
động bồi thường một cách riêng biệt để hai vectơ chuyển động được tạo ra
cho các macroblock, một trong những người đầu tiênlĩnh vực và một cho phần
thứ hai. Các chế độtrực tiếp sử dụng B-VOPs (xem ở trên) sửa đổi để đối phó
với macroblocks có trường khối chuyển động tham chiếu bù. Hai phía trước và

hai vectơ chuyển động ngược được tạo ra,trong từng lĩnh vực trong hướng về
phía trước và lạc hậu. Nếu công cụinterlaced video được sử dụng kết
hợp với mã hóa dựa trên đối tượng(xem Phần 5.4), quá trình padding có
thể được áp dụng riêng hai lĩnh vựccủa một macroblock ranh giới.
5.3.4 Các chi tiết hồ sơ Thời gian đơn giản
Các ứng dụng streaming video cho các mạng như Internet yêu cầu nén tốtvà
lỗi mạnh mẽ các công cụ mã hóa video có thể thích ứng với thay đổi điều kiện
mạng. các mã hóa và các công cụ khả năng phục hồi lỗi trong hồ sơ đơn
giản là hữu ích chocác ứng dụng trực tuyến thời gian thực và nâng cao thời gian
thực đơn giản (ARTS) loại đối tượng bổ sung công cụ hơn nữa để cải thiện lỗi
khả năng phục hồi và tính linh hoạt mã hóa, (tài liệu tham khảo dự đoán
nhiều) NEWPRED và năng động Nghị quyết chuyển đổi (còn được gọi là Nghị
quyết Giảm Update). Một hồ sơ ARTS CODEC nên hỗ trợ các loại đối
tượng đơn giản và ARTS.
NEWPRED
(Mới dự đoán ') NEWPRED công cụ cho phép một bộ mã hóa để lựa chọn
một tài liệu tham khảo dự đoán VOP từ bất kỳ một tập hợp các VOPs mã hóa
cho mỗi gói tin video. Mộttruyền lỗi không hoàn hảo được giấu sẽ có xu
hướng tuyên truyền thời gian quatiếp theo VOPs dự đoán và NEWPRED có
thể được sử dụng để hạn chế tuyêntruyền thời gian như sau (Hình 5,26). Khi
phát hiện một lỗi trong một VOP được giải mã (VOP1 trong hình5,26), bộ giải
mã sẽ gửi một thông tin phản hồi tin nhắn đến các bộ mã hóa nhận dạng các gói
dữ liệuvideo errored. Bộ mã hóa chọn VOP tham khảo trước khi các gói
tin errored (VOP 0 trong ví dụ này) để mã hóa. sau VOP (khung hình 4). Điều
này có tác 'làm sạch' lỗi và ngăn chặn thời gian tuyên truyền. Sử dụng
NEWPRED theo cách này đòi hỏi cả hai bộ mã hóavà giải mã để lưu trữ nhiều
VOPs tái tạo để sử dụng như tài liệu tham khảo dự báo có thể xảy ra. Dự
đoán từ một tài liệu tham khảo cũ VOP (4 VOPs trong quá khứ trong ví dụ
này) có xu hướng làm giảm hiệu suất nén bởi vì sự tương quan
giữa VOPs giảm với thời gian ngày càng tăng.
Nghị quyết chuyển đổi động
Nghị quyết chuyển đổi năng động (DRC), nếu không được gọi là Nghị
quyết Giảm (RR) chế độ, cho phép một bộ mã hóa để mã hóa một VOPvới độ
phân giải không gian giảm. Điều này có thể là một công cụ hữu íchđể ngăn
chặn sự gia tăng đột ngột do bitrate mã (ví dụ) làm tăng chi tiết,nhanh chóng
chuyển động trong khung cảnh. Thông thường, một sự thay đổi trong nội
dung cảnh sẽ gây ra các bộ mã hóa để tạo ra một số lượng lớn các bit mã
hóa, gây ra vấn đề cho một ứng dụng video truyền trên một kênh bitratehạn. Sử
dụng công cụ DRC, VOP được mã hóa với một nửa bình thường
độ phân giải ngang và dọc. Tại bộ giải mã, một macroblock còn lại trong
một VOP Nghị quyết Giảm được giải mã và upsampled (nội suy) để mỗi 8
× 8 luma khối bao gồm một diện tích 16 × 16 mẫu. Các macroblockupsampled
(tại bao phủ một diện tích 32 × 32 luma mẫu) là chuyển động bồi thường từ 32
× khu vực tham khảo 32 mẫu(vector chuyển động các macroblock giải mã
được mở rộng bởi một hệ số 2) (Hình 5,27). Kết quả là VOP Nghị quyết Giảm
được giải mã ở mộtnửa độ phân giải bình thường (vì vậy mà các chi tiết VOP

được giảm) với lợi ích mà VOP được mã hóa đòi hỏi các bit ít hơn để truyền
tải hơn mộtVOP độ phân giải đầy đủ.
5,4 MÃ VÙNG hình tùy ý
Mã hóa các đối tượng hình dạng bất kỳ (xem Phần 5.2.3) đòi hỏi một số phần
mở rộng dựa trên khối VLBV lõi CODEC [4].Mỗi VOP được mã hoá bằng
cách sử dụng dự đoán chuyển động bồi thường và DCT-dựa trên mãhóa còn
lại, với phần mở rộng để đối phó với các trường hợp đặc biệtđược giới thiệu
theo địa giới đối tượng. Đặc biệt, nó là cần thiết để đối phó với mã hóa hình
dạng, chuyển động bồi thường và kết cấu mã hóa video của các đối
tượng hìnhtùy ý.
Hình dạng mã hóa: hình dạng của một đối tượng video được xác định
bởikhối Alpha, bao gồm một 16 × 16 pixel của cảnh video
. Mỗi khối Alpha có thể được hoàn toàn bênngoài. video đối tượng (trong trường
hợp này không có gì cần phải được mã hoá), hoàn toàn nội bộ để các Võ (trong
trường hợp macroblock được mã hóa như trong hồ sơ đơn giản) hoặc nó có
thể vượt qua một ranh giới Võ. Trong trường hợp này, nó là cần thiết
để xác định hình dạng của cạnhVõ trong Alpha Khối. Thông tin hình dạng được
định nghĩa bằng cách sử dụng các khái niệm về 'minh bạch', nơi mà một
điểm ảnh 'minh bạch' không phải là một phần của VOP hiện tại, một điểm
ảnh đục là một phần của VOP và thay thế bất cứ điều gì 'bên dưới' và điểm
ảnh bán minh bạch "là một phần của VOP và là một phần minh bạch
. Các thông tin hình dạng có thể được định nghĩa là nhị phân (tất cả các pixel
hoặc đục, 1, minh bạch, 0) hoặc màu xám quy mô (minh bạch của mộtđiểm
ảnh được xác định bởi một số từ 0, minh bạch, và 255, đục). Thông tin hình
dạng nhị phân ranh giới macroblock được mã hóa như là một khối alpha nhị
phân (BAB) sử dụngmã hóa số học và quy mô màu xám hình dạng
thông tin được mã hoá bằng cách sử dụng chuyển động bồi thường và DCT-
dựa trên mã hóa. Chuyển động bồi thường: Mỗi VOP có thể được mã hóa như
là một I-VOP(không có bồi thường chuyển động), P-VOP (chuyển động bồi
thường dự đoán từ một VOP qua) hoặc B-VOP(bidirection motion bồi
thường dự đoán). Pixel không trong suốt một macroblock ranh giới là chuyển
độngbồi thường từ VOP tham chiếu thích hợp (s) và điểm ảnh ranh giới củamột
tài liệu tham khảo

VOP là "đệm" để các cạnh của khu vực tìm kiếm ước lượng chuyển độngvào
các vị trí điểm ảnh trong suốt với các dữ liệu. Kết cấu mã hóa:Motion-bồi
thường còn lại mẫu (kết cấu) trong khối nội bộ được mã hóa bằng cách sử
dụng 8 × 8 DCT, lượng tử và chiều dài biến mã hóa đượcmô tả trong
mục 5.3.2.1. Không minh bạch điểm ảnh trong một khối ranh giới được đệm
thêm để cạnh của 8 × 8 block trước khi áp dụng các đốitượng DCT.Video mã
hóa được hỗ trợ bởi Core và cấu hình chính, với cáccông cụ bổ sung tính hiệu
quả mã nâng cao và cấu hình N-Bit (Hình 5,28).
5.4.1 Các hồ sơ lõi Một Core
CODEC hồ sơ phải có khả năng mã hóa và giải mã đối tượngvideo đơn giản
Đối tượng và Core. Một Võ lõi có thể sử dụng bất kỳ các công cụ đơn giản cộng
với những điều sau đây:

1. B-VOP (được mô tả trong mục 5.3.3);
2.alternate quantiser (được mô tả tại mục 5.3.3);
3.object dựa trên mã hóa (Hình dạng nhị phân);
4.P-VOP.Khả năng mở rộng thời gian

Mã hóa khả năng mở rộng, mô tả chi tiết tại mục 5.5, cho phép một chuỗi
video được mã hóa và truyền như là hai hoặc nhiều hơn riêng biệt lớp 'có
thể được giải mã và kết hợp lại. các
Core hồ sơ hỗ trợ khả năng mở rộng thời gian sử dụng P-VOPs và bộ mã
hóa bằng cách sử dụng công cụ này có thể truyền hai lớp mã hóa, một
lớp cơ sở (decodeable như là một phiên bảnthấp tỷ lệ khung hình của video
cảnh) và tăng cường một lớp thời gian có chứa chỉ P-VOPs. Một bộ giải mã có
thể tăng tỷ lệ khung hình của lớp cơ sở bằng cách thêm các khung hình được
giải mã từ các lớp tăng cường. Có lẽ các chức năng quan trọng nhất trong Hồ
sơ lõi là hỗ trợ mã hóa của đối tượng hình tùy ý, yêu cầu một số công
cụ mới. Mỗi macroblock vị trítrong hình ảnh được phân loại như là (1) đục (đầy
đủ 'bên trong' các VOP), (2) trong suốt (không phải là một phần của VOP) hoặc
(3) trên ranh giới của VOP (Hình 5,29).
Để cho biết hình dạng của các VOP bộ giải mã, thông tin mặt nạ alphađược gửi
cho mỗi macroblock. Trong Core Profile, thông tin nhị phân alpha được phép và
mỗi vị trí pixel trong VOP được định nghĩa là hoàn toàn mờ đục hoặc hoàn toàn
minh bạch. các
Core hồ sơ hỗ trợ mã hóa của alpha nhị phân thông tin và cung cấp công cụ
để đối phó với các trường hợp đặc biệt của chuyển động và kết cấu mã
hóa trongmacroblocks ranh giới.

5.4.1.1 Hình dạng mã nhị phân
Đối với mỗi macroblock trong hình ảnh, một loại mã Bab được truyền đi.Mã này
cho biết MB là minh bạch (không phải là một phần các VOP hiện
tại, do đó không có thêm dữ liệu được mã hóa), mờ đục (nội bộ để VOPhiện
tại, do đó chuyển động và kết cấu được mã hóa như bình thường)hoặc MB ranh
giới (một phần của MB là đục và một phần là minh bạch).Hình 5,30 cho thấy một
máy bay đối tượng video và hình 5,31 là mặt nạ nhị phân tương ứng chỉ ra mà
điểm ảnh là một phần của VOP (trắng) và điểm ảnh bên ngoài VOP (màu
đen). Đối với một MB ranh giới (ví dụ như hình 5,32), nó là cần thiết để mã
hóa một mặt nạ alpha nhị phânđể chỉ ra các điểm ảnh minh bạch và mờ
đục (hình 5,33
Alpha mặt nạ nhị phân (BAB) cho mỗi macroblock ranh giới được mã
hoábằng cách sử dụng mã hóa số học nhị phân dựa theo ngữ cảnh (CAE).Một
điểm ảnh BAB X giá trị được mã hóa, trong đó X là 0 hoặc 1. Đầu tiên, bối
cảnh được tính cho các điểm ảnh hiện tại.Một mẫu ngữ cảnh xác định một khu
vực của các điểm ảnh lân cận n trước đó đã được mã hoá (hàng xómkhông
gian cho mã BABs nội, hàng xóm không gian và thời gian cho mãBABs liên).Các
giá trị n của mỗi điểm ảnh BAB trong các hình thức bối cảnh một từ n-bit, bối
cảnh cho điểm ảnh X. Có bối cảnh 2npossible và P(0), xác suất mà X là 0 cho

một bối cảnh cụ thể, được lưu trữ trong bộ mã hóa vàbộ giải mã cho từng bối
cảnh n-bit có thể. Mỗi X mask điểm ảnhđược mã hoá như sau:

1.Tính bối cảnh cho X.
2. Tìm kiếm các mục có liên quan trong bảng xác suất P (0).
3. Mã hóa X với một bộ mã hóa số học (xem Chương 3 cho một tổng quan
về mã hóa số học). Phạm vi phân là 0. . . P (0) nếu X là 0 (màu
đen), P (0). .. 1,0 nếu X là 1 (màu trắng).

Intra BAB Encoding
Trong một BAB mã hóa trong nội
bộ, mẫu ngữ cảnh cho pixel mặt nạ hiệnnay được hình thành từ 10 pixels không
gian lân cận đã được mã hóa trước đó, c0to c9in Hình 5,34. Bối cảnh được hình
thành từc9c8c7c6c5c4c3c2c1c0 từ 10-bit. Mỗi bối cảnh năm 1024 có thể
xác suất được liệt kê trong một bảng trong Visual tiêu chuẩn MPEG-4 là một số
nguyên trong khoảng từ 0 đến 65535 và xác suất thực tế của P bằng
không (0) được bắt nguồn bằng cách chia số nguyên này bằng 65535.

Các mẫu ngữ cảnh (hình 5,34) kéo dài 2 điểm ảnh theo chiều ngang vàtheo
chiều dọc từ vị trí của X. Nếu bất kỳ của các điểm ảnh là không xác định (ví dụ
như c2, c3and c7may là một phần của một BAB rằng đã khôngđược mã
hoá, hoặc một số các điểm ảnh có thểthuộc về BABs trong suốt), không xác định
Các điểm ảnh được thiết lập để giá trị của hàng xóm gần nhất trong vòng
BAB hiện tại. Tùy thuộc vào hình dạng của mặt nạ nhị phân, mã hóa hiệu quả
hơn có thể thu được bằng cách quét qua BAB trong thứ tự theo chiều dọc (chứ
không phải raster thứ tự) để mẫu bối cảnh được đặt trên của nó 'Bên'. Việc lựa
chọn để quét cho mỗi BAB là báo hiệu trong bitstream.

Liên BAB Encoding
Mẫu ngữ cảnh (hình 5,35) bao gồm chín vị trí pixel, trong VOP hiện (c0toc3)
và năm trong một VOP tham chiếu (c4to C8). Vị trí của các điểm ảnh bối
cảnh trung tâm trong VOP tham chiếu (c6) có thể được bù đắp từ X vị trí bởi
một số nguyên mẫu vector, cho phép một BAB liên được mã hóa bằng cách sử
dụng chuyển động bồi thường.Này hình dạng vector (MV) có thể được
lựa chọn độc lập của bất kỳ kết cấu, chuyển động vector. Có chín pixels bối
cảnh và như vậy tổng cộng 29= 512 xác suất P (0) được lưu trữ bởi các bộ mã
hóa và giải mã.
Những ví dụ này chỉ ra rằng tính minh bạch của các điểm ảnh X vị trí hiện tạibị
ảnh hưởng nặng nề bởi c6 (cùng một vị trí trong chuyển động bồi thườngtrước
đó BAB) hơn c0 (vị trí điểm ảnh trước đó để raster scan).Cũng nhưtrong mã
hóa, chức năng quét của hiện tại (và trước đó) BAB có thể nằm ngang hoặc
thẳng đứng.
Một MVsis vector mã hóa cho mỗi ranh giới giữa các mã BAB. Đối vớiP-
VOPs, VOP tham chiếu là trước đây tôi hay P-VOP và B-VOP, VOP tài liệu tham
khảo là các gần nhất 'tạm thời' I-P-VOP.
5.4.1.2 Chuyển động bồi thường mã các hình VOPs tùy tiện-
Một P-VOP hoặc B-VOP được dự đoán từ một tài liệu tham khảoI-P-

VOP bằng cách sử dụng chuyển động bồi thường. Nó có thể cho một
vector chuyển động để trỏ đến một khu vực tham khảo mở rộng bên ngoàicủa
khu vực mờ đục của VOP tham chiếu, tức là một số các điểm ảnhtrong khu
vực tham khảo có thể "Trong suốt". Hình 5,36 minh họa ba ví dụ. Sơ đồ bên
trái cho thấy một tài liệu tham khảo VOP (với các điểm ảnh mờ màu xám) và sơ
đồ bên phảicho thấy một VOP hiện tại bao gồm 9 macroblocks. MB1 là hoàn
toàn mờ đục nhưng điểm MV của nó đến một khu vực trong tài liệu tham
khảo VOP có chứa các điểm ảnh trong suốt. MB2 là một ranh giới MB và một
phần mờ đục của khu vực chuyển động bồi thường tham chiếu của nó là nhỏ
hơn so với phần mờ đục của MB2. MB3 cũng là mộtranh giới MB và một phần
của khu vực tham chiếu của nó được đặt trong một MB hoàn toàn minh
bạch trong VOP tham chiếu. Trong mỗi trườnghợp này, một số của các điểm
ảnh đục trong MB hiện nay là chuyển độngbồi thường từ các điểm ảnh trong
suốt trong VOP tham chiếu. Các giá trị của điểm ảnh trong suốt không được định
nghĩa và vì vậy nó là cần thiết để đối phó với những trường hợp đặc
biệt. Điều này được thực hiện bởipadding vị trí điểm ảnh trong suốt trong ranh
giới và macroblocks minh bạch trongcác VOP tham chiếu.

Padding của MBS ranh giới
Điểm ảnh trong suốt trong mỗi MB ranh giới trong một VOP tham chiếuđược suy
luận theo chiều ngang và theo chiều dọc từ điểm ảnh mờ như trong hình 5,37.
1. Pixels đục ở rìa của BAB (tối màu xám trong hình 5,37) được suy luậntheo
chiều ngang để điền vào vị trí điểm ảnh trong suốt trong cùng một
hàng. Nếu hàng được bao bọc bởi các điểm ảnh đục ở bên cạnh chỉ có một, giá
trị của điểm ảnh mờ gần nhất được sao chép tất cả các vị trí điểm ảnh trong
suốt. Nếu liên tiếp giáp hai bên của điểm ảnh mờ (ví dụ hàngđầu trong
Hình 5,37 (a)), vị trí điểm ảnh trong suốt được làm đầy với giá trị trung
bìnhcủa hai điểm ảnh lân cận đục. Kết quả của padding ngang được thể hiện
trong hình 5,37 (b).
2. Pixels đục (bao gồm cả những 'đầy' giai đoạn đầu tiên
của paddingngang) được ngoại suy theo chiều dọc để điền vào các vị trí điểm
ảnhtrong suốt còn lại. Cột của các điểm ảnh trong suốt với một người hàng
xóm đục được làm đầy với giá trị của điểm ảnh đó và cột với hai nước láng
giềng đục (như trong hình 5,37 (c)) được làm đầy với giá trị trung bìnhcủa các
điểm ảnh đục ở trên cùng và dưới cùng của cột.

Ví dụ
Hình 5,38 cho thấy một macroblock ranh giới từ một VOP với các điểm ảnh trong
suốt âm mưu đen. Các điểm ảnh mờ đục được suy luận theo chiều ngang (bước
1) để sản xuất Hình 5,39 (lưu ý rằng năm vị trí điểm ảnh trong suốt có hai nước
láng giềng đục ngang). Kết quả của bước 1 sau đó là ngoại suy theo chiều
dọc (bước 2) để sản xuất hình 5,40 cạnh điểm ảnh. MBS minh bạch luôn
được đệm thêm sau khi tất cả các MBS ranh giới đãđược độn đầy đủ.

Nếu MB trong suốt có nhiều hơn một MB biên giới láng giềng, các nước láng
giềng được chọn cho phép ngoại suy theo các nguyên tắc sau.Nếu MB bên trái

là một MB ranh giới, nó được chọn khác nếu MB trên cùng là một MB ranh
giới, nó được chọn khác nếu MB bên phải là một MB ranh giới, nóđược chọn
, khác MB thấp hơn là lựa chọn
Các MBS minh bạch không có hàng xóm không trong suốt được làm đầy
với các giá trị pixel 2N-1, trong đó N là số bit cho mỗi điểm ảnh.Nếu N là 8
(trường hợp thông thường), các MBS được làm đầy với giá trị 128 pixel.

5.4.1.3 Texture mã Macroblocks ranh giới
Các kết cấu trong một MB đục (các giá trị điểm ảnh trong một MB trong mã
hóa hoặc chuyển động bồi thường còn lại trong một liên mã MB) được mã hóa
bởi quá trình thông thường của 8 × 8 DCT, lượng tử, chạy mức độ mã hóa và
mã hóa dữ liệu ngẫu nhiên (xem phần 5.3.2). MB ranh giới bao gồmmột phần
của kết cấu điểm ảnh (bên trong ranh giới) và một phần không xác định, điểm
ảnh trong suốt (bên ngoài ranh giới). Trong một hồ sơ cá nhân cốt lõi đối tượng
, mỗi 8 × 8 khối kết cấu trong một MB ranh giới được mã hoá bằng cách
sử dụng một 8 × 8 DCT tiếp theo là mã hóa lượng tử,chạy cấp và mã hóa dữ
liệu ngẫu nhiên như bình thường (xem mục 7.2 cho một ví dụ). (DCT Shape-
thích ứng, một phần của hồ sơ hiệu quả nâng caomã và mô tả tại mục 5.4.3 ,
cung cấp một phương pháp hiệu quả hơn mã hóa kết cấu ranh giới.)
5.4.2 Các hồ sơ chính
CODEC hồ sơ chính hỗ trợ các đối tượng đơn giản và Core cộng với các
đối tượng Texture Khả năng mở rộng (xem Phần 5.6.1) và các đối tượng
chính. Các đối tượng chính cho biết thêm các công cụ sau đây:
1.xen kẽ (được mô tả trong mục 5.3.3);
2. đối tượng dựa trên mã hóa với hình dạng màu xám (alpha máy bay ');
3. Sprite mã hóa
Trong Core Profile, hình dạng đối tượng được quy định bởi một mặt nạalpha nhị
phân như vậy mà mỗi vị trí pixel được đánh dấu là 'mờ' hoặc 'trong suốt'.Các hồ
sơ chính cho biết thêm hỗ trợ cho các mặt nạ màu xám hình dạng, trong
đó mỗi vị trí điểm ảnh có thể thay đổi mức độ minh bạchđầy đủ trong suốt đến
mờ toàn bộ.Điều này là tương tự
như khái niệm củaPlanes Alpha được sử dụng trong đồ họa máy tính và cho
phép các lớp phủ của nhiều đối tượng bán minh bạch trong một cảnh tái tạo (kết
xuất)
Sprite mã hóa được thiết kế để hỗ trợ mã hóa hiệu quả của các đối tượng
nền.Trong những cảnh quay video nhiều, nền không thay đổi đáng kể và những
thay đổi nào xảy ra thường do chuyển động của camera. A 'ma' là một đối
tượng video (chẳng hạn như là nền tảng cảnh) được đầy đủ hoặc một phần
truyền vào lúc bắt đầu của một cảnh và sau đócó thể thay đổi theo những
cách nhất định hạn chế trong cảnh.
5.4.2.1 xám Shape Coding
Hình dạng mã hóa nhị phân (được mô tả trong mục 5.4.1.1) có hạn chế nhất
định trong việc thể hiện những cảnh video của nhiều đối tượng. Đối tượng
hoặc khu vực trong một cảnh phim "tự nhiên" có thể là mờ (một phần trong
suốt), nhưng mã hóa nhị phân hình chỉ hỗ trợ hoàn toàn vùng trong suốt ("vô
hình") hoặc hoàn toàn mờ đục. Nó thường rất khó hoặckhông hể đối tượng đoạn

video gọn gàng (kể từ ranh giới đối tượng có thểkhông chính xác tương ứng
với vị trí điểm ảnh), đặc biệt là khi phân đoạnđược thực hiện tự động hoặc bán
tự động.
Ví dụ, các cạnh của các VOP được hiển thị trong hình 5,30 là không hoàn toàn
"sạch" và điều này có thể dẫn đến các đồ tạo tác không mong muốnxung quanh
các cạnh VOP khi nó được trả lại với khác VOS.
Xám hình dạng mã hóa cho phép kiểm soát linh hoạt hơn về tính minh bạchđối
tượng.Một chiếc máy bay màu xám-alpha được mã hoá cho mỗimacroblock
, trong đó mỗi vị trí điểm ảnh có một giá trị mặt nạ từ 0 đến 255,trong đó 0 chỉ
ra rằng vị trí điểm ảnh là hoàn toàn minh bạch, 255 chỉ ra rằng
nó là hoàn toàn mờ đục và các giá trị chỉ định một trung gianmức độ minh
bạch.Một ví dụ về một mặt nạ màu xám quy mô lớn cho một MB ranh
giớiđược thể hiện trong hình 5,42.Minh bạch khoảng từ đầy đủ trong
suốt(pixels mặt nạ màu đen) để mặt nạ màu trắng đục (pixel).MB kết
xuất đượcthể hiện trong hình 5,43 và các cạnh của đối tượng mất dần '(so
sánh con số này với hình 5,32).Hình 5,44 là một cảnh xây dựng của
một Võ nền (hình chữ nhật) và hai nền trước VOS.Foreground VOS là
giống hệt nhau ngoại trừ cho tính minh bạch của họ, Võ tay trái sử dụng
một mặt nạ alpha nhị phân và Võ bên phải có một mặt nạ alpha màu
xám giúp Võ bên phải để pha trộn nhiều thuận lợi với các nền.Các ứng dụng
khác của mã hóa màu xám hình dạng bao gồm đại diện các đối tượng
mờ, hoặc cố tình thay đổiđối tượng để làm cho họ bán trong suốt (ví dụ
như cảnh tổng hợp trong hình5,45).
Màu xám quy mô mặt nạ alpha được mã hóa bằng cách sử dụng hai thành
phần, một mặt nạ hỗ trợ nhị phân chỉ ra những điểm ảnh là hoàn toàn minh
bạch (bên ngoài để các Võ) và điểm ảnh bán hoặc hoàn toàn đục (nội bộ
để các Võ), và một máy bay alpha màu xám quy mô.Hình 5,33 là mặt
nạ hỗtrợ nhị phân cho mặt nạ alpha màu xám quy mô hình 5,42. Các mặt nạ hỗ
trợ nhị phân được mã hoá trong cùng một cách như là một BAB (xem
Phần 5.4.1.1). Alpha màu xám quy mô máy bay (cho biết mức độ minh
bạch của các điểm ảnh bên) được mã hoá một cách riêng biệt trong cùng một
cách như là kết cấu đối tượng(tức là mỗi 8 × 8 block trong mặt phẳng alpha
được chuyển đổi bằng cáchsử dụng các DCT, lượng tử sắp xếp lại,chạy
cấp vàentropy mã hoá).Bộ giải mã tái cấu trúc máy bay quy mô alphamàu xám
(mà có thể không được trùng với mặt phẳng alpha ban đầu dosự biến dạng
lượng tử) và hỗ trợ mặt nạ nhị phân. Nếu mặt nạ hỗ trợ nhị phân chỉ ra rằng một
điểm ảnh bên ngoài Võ, alpha màu xám quy mô tương ứng giá trị máy bay
được thiết lập để không. Bằng cách này, ranh giới đối tượng chính
xác được bảo quản (kể từ mặt nạ hỗ trợ nhị phân được mã hóa Ít hao tổn) trong
khi giải mã máy bay màu xám quy mô alpha (và do đó các thông tin minh
bạch) có thể không giống hệt nhau.ban đầu.
Tăng tính linh hoạt được cung cấp bởi mã hóa thang màu xám hình
dạngalpha đạt được với chi phí hiệu quả nén giảm.Hình dạng mã hóa nhị
phânđòi hỏi việc truyền tải BABs cho mỗi MB ranh giới và ngoài ra, màu xámquy
mô hình mã hóa đòi hỏi việc truyền tải dữ liệu của màu xám quy mô máy
bay alpha cho mỗi MB là bán trong suốt

5.4.2.2 tĩnh Sprite Coding
Ba khung hình từ một chuỗi video được hiển thị trong hình 5,46. Rõ ràng, nền
tảng không thay đổi trong trình tự (vị trí camera cố định). Các nền (Hình 5,47) có
được mã hóa như là một ma tĩnh. Một sprite tĩnh được xử lý như là một
hình ảnh kết cấu có thể di chuyển hoặc làm cong ở một số phương hạn chế,
để bù đắp cho những thay đổi của máy ảnhnhư pan, luân chuyển, độ nghiêng
và phóng to. Trong một kịch bản điển hình, một ma có thể là lớn hơn
nhiềuso với khu vực có thể nhìn thấy của cảnh. Khi thay đổi quan điểm "của máy
ảnh, mã hóa truyền các tham số chỉ ra làm thế nào ma nên được di chuyển
và biến dạng để tạo lại các khu vực thích hợp cóthể nhìn thấy trong các giải mã
cảnh. Hình 5,48 cho thấy một ma nền (khu vực rộng lớn) và khu vực xem máy
ảnh ở ba điểm khác nhau trong thời gian trong một chuỗi video. Khitrình
tự tiến triển, sprite được di chuyển, luân chuyển và biến dạng để thay đổi vùng
hiển thịmột cách thích hợp. Một sprite có thể có hình dạng bất ỳ (hình 5,48) hoặc
có thể là hình chữ nhật.
Việc sử dụng mã hóa ma tĩnh được chỉ định bằng cách thiết lập ma cho
phép để 'tĩnh' trong một VOL tiêu đề, sau đó mã hóa tĩnh sprite được sử
dụng trong suốt VOP. VOPđầu tiên trong một tĩnh sprite VOL là một I-
VOP và điều này được theo sau bởi một loạt cácS-VOPs (tĩnh Sprite VOPs). Ghi
Sprite tĩnh S-VOP được mã hoá khác nhau từ một khoản chuyển độngtoàn
cầu S (GMC) VOP (được mô tả trong mục 5.3.3) Có hai phương pháp truyền
tải và thao tác sprites, một 'cơ bản' ma (gửi toàn bộ của nó vào đầu của một
chuỗi) vàmột độ trễ thấp 'ma (cập nhật từng phần trong chuỗi).
VOP đầu tiên (I-VOP) chứa toàn bộ sprite, mã hóa trong cùng một
cáchnhư là một 'bình thường' VOP-I. Sprite có thể được lớn hơn kích thước hiển
thị nhìn thấy được (để thích ứng với chuyển động của camera trong quá trình
tự). Tại bộ giải mã, sprite được đặt trong một bộ đệm Sprite và không được
ngay lập tức hiển thị. Tất cả VOPs hơn nữa trong các VOL làS-VOPs. An S-
VOP chứa lên đến bốn thông số cong vênh được sử dụngđể di chuyển và (tùy
chọn) dọc các nội dung của bộ đệm Sprite để sản xuấtmàn hình nền
mong muốn. Số lượng các thông số cong vênh mỗi S-VOP(lên đến
bốn) được lựa chọn trong tiêu đề VOL và xác định tính linh hoạt củaviệc chuyển
đổi bộ đệm Sprite. Một thông số duy nhất cho mỗi S-VOP chophép dịch tuyến
tính (tức là một vector chuyển động duy nhất cho toàn bộma), hai hoặc ba thông
số cho phép chuyển đổi affine của sprite (ví dụ nhưluân chuyển, biến dạng)
và bốn thông số cho phép một quan điểm chuyển đổi

Thấp độ trễ sprite
Truyền tải một sprite toàn bộ trong chế độ Sprite cơ bản khi bắt đầu của
một VOL có thể giới thiệu độ trễ đáng kể bởi vì các sprite có thể lớn hơn
nhiều so với chế độ hiển thị cá nhân VOP.The Sprite Low-Latency cho phépmột
bộ mã hóa để gửi ban đầu có kích thước tối thiểu và / hoặc thấp -chất
lượng phiên bản của sprite và sau đó cập nhật nó trong quá trình truyền
cácVOL. Việc đầu tiên I-VOP chứa một phần hoặc tất cả các sprite (tùy
chọn mã hóa làm giảm chất lượng để tiết kiệm băng thông) cùng
với chiều cao và chiều rộng của toànbộ sprite.

Mỗi tiếp theo S-VOP có thể chứa các thông số cong vênh (như trong Spritecơ
bản chế độ) và một hoặc nhiều ma 'miếng'.A ma 'mảnh' bao gồm một khu
vực hình chữ nhật của sprite và chứa dữ liệu macroblock (a) xây dựng
một phần của ma đã không trước đây đã được giải mã (phần "tĩnh-ma-đối
tượng") hoặc (b) cải thiện chất lượng của phầncủa ma trước đó đã đượcgiải
mã (tĩnh-ma-update piece).Macroblocks trong phần "tĩnh-ma-đối tượngđược mã
hóa như macroblocks nội (bao gồm cả thông tin hình dạng nếuma không phải là
hình chữ nhật). Macroblocks trong một mảnh tĩnh-ma-cập nhật "được mã
hóa như macroblocks liên bằng cách sử dụng dự đoán chuyển tiếp từ nội
dung trước đây của bộ đệm ma (nhưng không có vectơ chuyển động hoặc các
thông tin hình dạng).
Các hồ sơ ACE là một siêu hồ sơ cá nhân Core hỗ trợ mã hóa video của các đối
tượng màu xám-alpha có hiệu quả nén cao.Ngoài ra cho các đối
tượng đơn giản và Core, nó bao gồm các đối tượng ACE có thêm các công
cụ sau đây:
1. quarterpel chuyển động bồi thường (mục 5.3.3);
2. GMC (mục 5.3.3);
3. xen kẽ (mục 5.3.3);
4. màu xám hình dạng mã hóa (mục 5.4.2);
5. hình dạng, thích nghi DCT.
Các hình thích ứng với DCT (SA-DCT) được dựa trên bộ được xác định
trước các chức năng cơ sở DCT một chiều và cho phép một khu vực tùy ýcủa
một khối được hiệu quả chuyển đổi và nén. SA-DCT là chỉ áp dụng đối với 8 × 8
khối trong vòng một BAB ranh giới có chứa một hoặc nhiều điểm ảnh trong
suốt. Chuyển tiếp SA-DCT bao gồm các bước sau đây
(Hình 5,55):
1.dịch chuyển đục X giá trị còn lại trên 8 × 8 block.
2. Áp dụng một DCT 1D mỗi cột (số điểm trong các biến đổi phù hợp
vớisố lượng các giá trị mờ đục trong mỗi cột).
3. Thay đổi hệ số Y kết quả trung gian bên trái của khối.
4. Áp dụng một DCT 1D mỗi hàng (phù hợp với số lượng giá trị trong mỗi hàng).

Các hệ số cuối cùng (Z) lượng tử, ngoằn ngoèo quét và mã hóa. Bộ giải mã đảo
ngược quá trình (sử dụng các thông tin hình dạng giải mã từ BAB)để tái tạo
lại 8 × 8 khối mẫu. SA-DCT là phức tạp hơn bình thường 8 × 8DCT, nhưng có
thể cải thiện mã hóa hiệu quả cho MBS ranh giới.
5.4.4 Các hồ sơ cá nhân N-bit
Hồ sơ cá nhân N-bit chứa các đối tượng đơn giản và Core cộng với công cụ N-
bit. Điều này hỗ trợ mã hóa độ sáng và sắc độ dữ liệu có chứa từ bốn đến
mười hai bit cho mỗi mẫu (thay vì hạn chế thông thường đến tám bitcho mỗi
mẫu). Ứng dụng có thể có của hồ sơ cá nhân N-bit bao gồm mã hóa video cho
màn hình với độ sâu màu thấp (khả năng hiển thị giới hạn có nghĩa là ít hơn
tám bit được yêu cầu để đại diện cho mỗi mẫu) hoặc các ứng dụng màn hình
hiển thị chất lượng cao (màn hình hiển thị có màu chiềusâu hơn tám bit cho mỗi
mẫu và độ trung thực cao mã hoá được mong muốn).

5,5 Scalable Video Coding

Khả năng mở rộng mã hóa dữ liệu video cho phép một bộ giải mã để giải
mã một phần lựa chọn duy nhất của bitstream được mã hóa. Các dòng mã
hóa được sắp xếp trong một số lớp, bao gồm một lớp cơ sở và một hoặc
nhiều lớp 'tăng cường' (hình 5,57). Trong hình này, bộ giải mã A chỉ nhận
được các lớp cơ sở và có thể giải mã một phiên bản chất lượng cơ bảncủa
cảnh video, trong khi bộ giải mã B nhận được tất cả các lớp và giải mãmột phiên
bản chất lượng cao của khung cảnh. Này có một số ứng dụng, ví dụ, một bộ giải
mã phức tạp thấp chỉ có thể có khả năng giải mã các lớp cơ sở, một bitstream tỷ
lệ thấp có thể được trích xuất để truyền trên một đoạn mạng với công suất hạn
chế, và lớp cơ sở một lỗi nhạy cảm có thể được truyềnvới ưu tiên cao hơn so
với các lớp tăng cường.
MPEG-4 Visual hỗ trợ một số chế độ khả năng mở rộng mã hóa.Khả năng mở
rộng không gian cho phép một VOP (hình chữ nhật) được mã hóa vàomột hệ
thống các độ phân giải không gian.Giải mã các lớp cơ sở sản xuấtmột phiên
bản có độ phân giải thấp của các lớp VOP và giải mã tăng cường tiếp sản
xuất dần dần cao hơn độ phân giải hình ảnh.Khả năng mở rộng thời gian
cung cấp một lớp cơ sở thấp tỉ lệ khung hình và lớp tăng cường (s) xây
dựng lên đến một tỷ lệ khung hình cao hơn.Tiêu chuẩn nàycũng hỗ trợ khả năng
mở rộng chất lượng, trong đó các lớp tăng cường cải thiện chất lượng hình
ảnh của VOP khả năng mở rộng và phức tạp, trong đócác lớp kế tiếp là dần dần
phức tạp hơn để giải mã. Khả năng mở rộng mưa tốt (FGS) cho phép chất
lượng của chuỗi được tăng lên theo từng bước nhỏ. Một ứng dụng choFGS là
streaming video trên một kết nối mạng, trong đó nó có thể hữu íchđể mở
rộng các dòng video được mã hóa để phù hợp với tốc độ bit có sẵnnhư là chặt
chẽ nhất có thể.
5.5.1 không gian Khả năng mở rộng
Các lớp cơ sở có chứa một phiên bản giảm độ phân giải của mỗi khung
hình được mã hóa. Giải mã các lớp cơ sở mình sản xuất một chuỗi đầu rađộ
phân giải thấp và giải mã các lớp cơ bản với lớp tăng cường (s) tạo ra
một đầu ra độ phân giải cao hơn. Các bước sau đây được yêu cầu
để mã hóa một chuỗi video thành hai lớp không gian:
1.Subsample mỗi khung hình video đầu vào (hình 5,58) (hoặc video đối
tượng) theo chiều ngang và theo chiều dọc (Hình 5,59).
2. Mã hóa các khung hình có độ phân giải giảm để tạo thành các lớp cơ sở.
3. Giải mã các lớp cơ sở và lên mẫu với độ phân giải gốc để tạo thành
mộtkhung dự đoán (Hình 5,60).
4. Trừ các khung hình đầy đủ độ phân giải từ khung hình
này dự đoán (Hình5,61).
5. Mã hóa sự khác biệt (còn lại) để tạo thành các lớp nâng cao.
Một bộ giải mã giải mã duy nhất lớp chỉ có các lớp cơ sở để sản xuất
mộtchuỗi sản lượng giảm độ phân giải. Một bộ giải mã hai lớp có thể tái tạo
lạimột chuỗi có độ phân giải đầy đủ như sau:
1. Giải mã các lớp cơ sở và lên mẫu với độ phân giải gốc.
2. Giải mã các lớp nâng cao.

3. Thêm còn lại được giải mã từ các lớp tăng cường lớp cơ sở giải mã để tạo
thành khung hình đầu ra.
Một I-VOP trong một lớp nâng cao được mã hóa mà không có bất
kỳ dựđoán không gian, tức là như một khung hoàn chỉnh hoặc đối tượng ở độ
phân giải nâng cao.Trong một lớp tăng cường P-VOP, giải mã, lên lấy mẫucơ
sở lớp VOP (tại vị trí tương tự trong thời gian) được sử dụng như là một dự
đoán mà không có bất kỳ bồi thường chuyển động.Sự khác biệt giữadự báo
và khung đầu vào được mã hóa bằng cách sử dụng các công cụkết cấu mã
hóa, tức là không có vector chuyển động được truyền cho một nâng cao P-
VOP. Một lớp tăng cường B-VOP được dự đoán từ hai hướng.Diction lạc
hậu trước khi được hình thành, giải mã VOP lên lấy mẫulớp cơ sở (tại vị trí
tương tự trong thời gian), mà không cần bất cứ khoản bồi thường chuyển
động (và do đó mà không có bất kỳ MV).Các dự đoánvề phía trước được hình
thành bởi các VOP trước trong lớp nâng cao(thậm chí nếu điều này bản thân nó
là một B-VOP), với dự đoán chuyển động bồi thường (và do đó MV).
Nếu VOP có hình dạng tùy ý (nhị phân), một lớp cơ sở và tăng cường lớp BAB
được yêu cầu cho mỗi MB.Các cơ sở lớp BAB được mã hóa như bình
thường, dựa vào hình dạng và kích thước của đối tượng lớp cơ sở.Một BAB
trong một lớp nâng cao P-VOP được mã hoá bằng cách sử dụng dự
đoán từ một phiên bản lên lấy mẫu của lớp cơ sở BAB.Một BAB trong một
lớp tăng cường B-VOP có thể được mã hoá trong cùng một cách, hoặc sử
dụng dự đoán về phía trước từ VOP nâng cao trước đó (như mô tả
trongmục 5.4.1.1).
5.5.2 Temporal Khả năng mở rộng
Các lớp cơ sở của một chuỗi khả năng mở rộng thời gian được mã hóa ởtốc độ
khung hình thấp video và một lớp tăng cường thời gian bao gồm I-Pvà / hoặc B-
VOPs có thể được giải mã cùng với các lớp cơ sở để cung cấp một tỷ lệ khung
hình tăng . Tăng cường VOPs lớp được dự đoán bằngcách sử dụng chuyển
động bồi thường dự đoán theo các quy tắc sau. Một nâng cao I-VOP được mã
hóa mà không có bất kỳ dự đoán. một tăng cường P-VOP được dự đoán
từ (i) VOP nâng cao trước đó, (ii) VOPtrước lớp cơ sở hoặc (iii) cơ sở VOP
lớp tiếp theo (Hình 5,62). một tăng cường B-VOP được dự đoán từ (i) trước tăng
cường và VOPs cơ sở lớp trước đó, (ii) tăng cường trước và VOPscơ sở lớp
tiếp theo hoặc (iii) các cơ sở VOPs lớp trước và sau (hình 5,63).
5.5.3 Khả năng mở rộng Granular Mỹ
Khả năng mở rộng Granular Mỹ (FGS) [5] là một phương pháp mã hóa một
chuỗi như là một lớp cơ sở và lớp nâng cao. Các lớp tăng cường có thểđược rút
ngắn trong hoặc sau khi mã hóa (giảm bitrate và chất lượng giải mã)
để cung cấp cho điều khiển linh hoạt cao hơn bitrate truyền. FGS có thể hữu
ích cho các ứng dụng video trực tuyến, trong đó băng thông truyềndẫn sẵn có
thể không được biết trước. Trong một kịch bản điển hình, trìnhtự được mã
hoá như là một lớp cơ sở và một lớp tăng cường chất lượngcao. Khi nhận được
yêu cầu để gửi chuỗi một bitrate cụ thể, các máy chủ streaming truyền
các lớp cơ sở và một phiên bản rút ngắn của các lớp tăng cường. Số lượng cắt
ngắn được lựa chọn để phù hợp với bitrate truyền dẫn có sẵn, do

đó tối đa hóa chất lượngcủa chuỗi được giải mã mà không cần phải mã
hóa lại các video clip.
Mã hóa
Hình 5,64 cho thấy một sơ đồ khối đơn giản của một bộ mã hóa FGS (bồi
thường chuyển động không được hiển thị). Trong tầng cơ sở, kết cấu (sau
khi chuyển động bồi thường) được chuyển đổi với DCT về phía trước,lượng
tử và mã hóa. Các hệ số lượng tử thu nhỏ lại ('nghịch đảo lượng tử) và các hệ
số quy mô lại được trừ vào các hệ số DCTunquantised để cung cấp cho một tập
hợp các hệ số khác biệt. Các hệ sốkhác nhau cho mỗi khối được mã hóa như là
một loạt các bitplanes. Đầu tiên, các hệ số còn lại được sắp xếp lại bằng cách
sử dụng 1 ngoằn ngoèo quét. Các bit thứ tự cao nhất mỗi hệ số (số không hoặc
những người)được mã hóa đầu tiên (bitplane MS) theo sau bởi các bit cao
nhất để tiếp theo và như vậy cho đến khi các bit LS đã được mã hóa.
Ví dụ
Một khối hệ số còn lại được hiển thị trong hình 5,65 (hệ số không được hiển
thị bằng không). Các hệ số được sắp xếp lại trong một máy quétngoằn ngoèo để
sản xuất các danh sách sau đây:

+13, -11, 0, 0, 17, 0, 0, 0, -3, 0, 0. . . .

Các các bitplanes tương ứng với tầm quan trọng của mỗi hệ số còn lạiđược thể
hiện trong Bảng 5.6. Trong trường hợp này, chiếc máy bay cao
nhất có chứa các bit khác không là máy bay 4 (bởi vì mức độ cao nhất là 17).

Bitplane Mỗi chứa một loạt các số không và những người thân. Những
người được mã hóa (chạy, EOP) EOP 'chỉ' cuối của bitplane 'và mỗi
cặp(chạy, EOP) được truyền như là một mã chiều dài thay đổi. Bất cứ
khi nàocác bit MS hệ số được mã hóa, nó là ngay lập tức theo sau trong
bitstream bởi một bit dấu. Bảng 5.7 liệt kê các giá trị mã hóa cho mỗi
bitplane. Bitplane 4 chứa bốn số không, tiếp theo là một 1. Đây là các bitkhác
không cuối cùng và được mã hóa như là (4, EOP). Điều này cũng bitMS
+17' của các hệ số và các dấu hiệu của hệ số này được mã hóa

Ví dụ này minh họa việc xử lý của một khối.Thủ tục mã hóa cho một
khunghoàn chỉnh như sau:

1. Tìm vị trí bit của bất kỳ hệ số chênh lệch cao nhất trong khung (MSB).
2. Mã hóa mỗi bitplane như mô tả ở trên, bắt đầu với máy bay có chứa cácMSB.

Mỗi bitplane mã hóa hoàn toàn trước một mã số bắt đầu, làm cho nó đơn giản
để cắt bitstream bằng cách gửi một số giới hạn của bitplanes mã hóa.

Giải mã
Các bộ giải mã giải mã các lớp cơ sở và tăng cường lớp (có thể đượccắt
ngắn). Các hệ số khác nhau được dựng lại từ các bitplanes giải mã, thêm
vào các hệ số lớp cơ sở và ngược chuyển đổi để sản xuất các trình tự nâng
cao được giải mã (hình 5,66).

Nếu các lớp nâng cao đã được cắt ngắn, sau đó tính chính xác của các hệ
số khác nhau được giảm. Ví dụ, giả định rằng các lớp nâng cao được môtả trong
ví dụ trên được cắt ngắn sau khi bitplane 3. Các bit MS (dấu hiệu)của ba khác
không hệ số được giải mã (Bảng 5.8), nếu (undecoded) bitplanes còn
lại đượclấp đầy với các số không sau đó danh sách các giá trị đầu ra trở thành:
+8, -8, 0, 0, 16, 0. . . .
Tùy chọn nâng cao để FGS mã hóa bao gồm tăng cường chọn lọc (trongđó máy
bay bit của MBS chọn là bit-chuyển trước khi mã hóa, để cung cấp cho
họ một ưu tiên cao hơn và xác suất cao hơn được bao gồm trong
mộtbitstream cắt ngắn) và trọng lượng tần số (trong tần số thấp có ý nghĩa trực
quan-hệ số DCT được chuyển lên trước khi mã hóa, một lần nữa để cung cấp
cho họ ưu tiên cao hơn trong bitstream cắt ngắn).

5.5.4 Khả năng mở rộng hồ sơ đơn giản
Khả năng mở rộng đơn giản hồ sơ cá nhân hỗ trợ đối tượng Khả năng mở
rộng đơn giản và đơn giản. Khả năng mở rộng đơn giản
đối tượng chứa các công cụ sau đây:
1. I-VOP, P-VOP, 4MV, MV không hạn chế và Dự đoán nội;
2. Video của gói tin, dữ liệu phân vùng và VLCs thuận nghịch;
3. B-VOP;
4.Rectangular Temporal Khả năng mở rộng (nâng cao lớp 1) (mục 5.5.2);
Khả năng mở rộng không gian 5.Rectangular (1 lớp nâng cao) (mục 5.5.1).
Hai công cụ hỗ trợ mã hóa khả năng mở rộng của hình chữ nhật VOS.
5.5.5 Các lõi Khả năng mở rộng

Hồ sơ cá nhân Khả năng mở rộng lõi bao gồm các đối tượng đơn giản,đơn
giản và Core Khả năng mở rộng, cộng với các đối tượng cốt lõi Khả năng mở
rộng các tính năng mà các công cụ sau đây, trong từng trường
hợp với hai lớp tăng cường cho mỗi đối tượng:

1. Khả năng mở rộng tạm thời hình chữ nhật (mục 5.5.2);
Khả năng mở rộng không gian 2.Rectangular (mục 5.5.1);
3. Khả năng mở rộng không gian dựa trên đối tượng (mục 5.5.1).
.5.6 Khả năng mở rộng Fine Granular Hồ Sơ

FGS hồ sơ cá nhân bao gồm các đối tượng đơn giản đơn giản
và nângcao cộng với các đối tượng FGS mà vincludes những công cụ này:
1. B-VOP, Interlace và các công cụ Quantiser thay thế;
2. FGS không gian Khả năng mở rộng;
3. FGS Temporal Khả năng mở rộng.
Khả năng mở rộng không gian, FGS sử dụng các kỹ thuật mã hóa và giải
mã được mô tả trong mục 5.5.3 để mã hóa mỗi khung hình là một lớp cơsở và
một lớp tăng cường FGS. Khả năng mở rộng tạm thời 'FGS kết hợp
FGS (mục 5.5.3) với khả năng mở rộng thời gian (mục 5.5.2). một khungtăng
cường lớp được mã hóa bằng cách sử dụng chuyển tiếp hoặc dự

03

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Andere mochten auch

Andere mochten auch (10)

Ähnlich wie 03

Ähnlich wie 03 (15)

Kürzlich hochgeladen

Kürzlich hochgeladen (20)

03