Điểm yếu của cryptography là một khi dữ liệu đã được mở khóa rồi thì nó không còn được bảo vệ nữa. Về nguyên tắc, cryptography dùng cho liên lạc mà cả hai phía truyền nhận "tin tưởng" lẫn nhau. Để khắc phục khiếm khuyết này, người ta nghĩ ra watermarking.
Mình không làm về watermarking nhưng mìng không đồng ý lắm với quan điểm này của bạn. Cryptographie và watermarking tiếp cận đến 2 vấn đề cơ bản là khác nhau nêu mình không nghĩ watermarking sinh ra là để khác phục khiếm khuyết nào đó của cryptographie. Một trong những khác nhau lớn nhất là về yêu cầu của sự an toàn thông tin :
- Cryptographie (trong phạm vi hẹp này ta hiểu là encryption) nhắm đến bài toán một người muốn truyền một thông điệp "tuyệt mật" tới 1 hoặc 1 số người khác. Ví dụ là vị đại tướng muốn truyền lệnh từ xa cho chỉ huy một quân đoàn "Đánh vào lúc nửa đêm". Thông tin thường yêu cầu tuyệt mật và do vậy Cryptographie hướng tới bài toán không để lộ một chút thông tin nào. Kẻ địch chỉ cần giải mã được 1 phần nhỏ thông tin, cụ thể nếu nó giải mà được chữ "Đánh" trong thông điệp trên thì kế hoạch có lẽ sụp đổ vì mất tính bất ngờ!
- watermarking tiếp cận bài toán 1 nhà cung cấp muốn quảng bá một nội dung mà đảm bảo được vấn đề bản quyền. Như ở trên đã nói là một đĩa CD hay là chương trình ti vi, ... . Tất nhiên tuỳ từng trường hợp, nhưng yêu cầu chung là ngăn chặn những kẻ gian tái sản xuất được "hầu như toàn bộ" thông tin. Chẳng hạn truyền hình một trận đá bóng, nếu bộ giải mã giả chỉ giải mã được một nửa thì xem cứ phập phập phù phù ai mà chịu được

Hay đĩa nhạc cổ điển mà cứ thỉnh thoảng lại xoẹt xoẹt thì chắc không ai mua lại,...
Trong quá trình nghiên cứu watermarking, mình cảm nhận được hai mâu thuẫn sau của lý thuyết watermarking:
1- Việc đánh dấu watermark lên dữ liệu và việc attack để phá watermark đều không được làm mất đi giá trị sử dụng của dữ liệu (VD như không được làm suy giảm nhiều chất lượng của một bộ phim chẳng hạn). Tuy nhiên giá trị sử dụng của dữ liệu lại là một khái niệm hết sức mơ hồ, được đo đạc và so sánh hơi tuỳ tiện.
Với giới hạn của sự giới thiệu chung nên RC rất muốn tránh các khái niệm hình thức dẫn đến sự khó theo dõi. Tuy nhiên việc định nghĩa "giá trị" như bạn nói không phải là khó. Với mỗi mục đích ta đều có thể có những định nghĩa phù hợp :
Chẳng hạn vài cách định nghĩa đơn giản :
- đối với Cryptographie, độ dài văn bản là n, ta yêu cầu kẻ địch không thể tìm được một lượng thông tin c để c/n > epsilon. Hoặc theo cách hiện nay, người ta yêu cầu mức độ bảo mật là kẻ địch không thể tìm được 1 bít thông tin của bản gốc (c<1).
- tương tự, đối với vấn đề bản quyền, ta yêu cầu kẻ địch không thể sản xuất một bản giả với lượng thông tin c biểu thị gần như toàn bộ bản chính, tức là 1-c/n < delta cố định nào đó.
2- Mình đang làm watermarking on compressed data nên thấy thêm một câu chuyện "quả trứng và con gà" như thế này: trong khi watermarking cố gắng sử dụng các thông tin dư thừa của dữ liệu (VD như khoảng cách giữa các ký tự như có bạn đã trình bày ở trên) để gắn watermark vào nhằm không thay đổi giá trị sử dụng của dữ liệu thì việc nén dữ liệu lại cố gắng làm mất đi các thông tin dư thừa. Như vậy, nếu có một giải thuật nén tối ưu thì watermarking coi như đi đứt.
Đối với ý kiến về "quả trứng và con gà" của bạn, mình cũng không thông. Mình xem đó không phải là mâu thuẫn mà chỉ như một bài toán tối ưu 2 chiều bình thường : một chiều về phương diện nén và một chiều về phương diện "watermaking". Trội về phương diện này thì lại yếu về phương diện kia và vấn đề có thể đưa về việc tìm một biện pháp khả thi cho cả hai (tradeoff). Tuỳ từng yêu cầu riêng, ta có thể định nghĩa hàm "khả thi" mọt cách tường minh.
Rất mong bạn tiếp tục giới thiệu kỹ hơn về watermarking ...