Tranh cãi quyền của người sáng tạo khi tác phẩm thành dữ liệu cho AI

Trước áp lực phải giải tỏa điểm nghẽn đầu vào dữ liệu huấn luyện AI, Luật Sở hữu trí tuệ sửa đổi mới đây xác lập một quan điểm pháp lý táo bạo nhưng cũng gây ra những lo ngại về thiệt thòi quyền lợi cho những người sáng tạo.

Hành lang pháp lý đã mở

Thời gian vừa qua, sự phát triển vượt bậc của trí tuệ nhân tạo, với khả năng tạo ra các nội dung mới từ dữ liệu đã học, đặt ra một tiền đề quan trọng rằng mọi năng lực của các mô hình này đều bắt nguồn từ dữ liệu.

Các mô hình ngôn ngữ lớn (LLMs) như GPT-4 hay Gemini không thể tự nhiên hình thành tri thức; chúng ngốn nguồn "nguyên liệu" là khối lượng dữ liệu văn bản khổng lồ được trích xuất thông qua hoạt động khai thác dữ liệu và văn bản (Text Data Mining - TDM).

Tại Việt Nam, trong bối cảnh thực hiện "Chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng Trí tuệ nhân tạo đến năm 2030", các nhà lập pháp đang đứng trước áp lực phải giải tỏa điểm nghẽn về dữ liệu để hiện thực hóa mục tiêu đưa Việt Nam vào nhóm bốn nước dẫn đầu khu vực ASEAN.

Tuy nhiên, giữa định hướng chính sách và khuôn khổ pháp lý từng tồn tại một khoảng lệch rõ rệt: trong khi tham vọng phát triển công nghệ rất lớn thì Luật Sở hữu trí tuệ lại hoàn toàn chưa có quy định nào điều chỉnh các hoạt động sao chép và khai thác dữ liệu quy mô lớn do máy móc thực hiện.

Sự "im lặng" pháp lý này vô hình trung tạo ra một rào cản gần như tuyệt đối cho hoạt động nghiên cứu, phát triển và đổi mới sáng tạo trong lĩnh vực AI, đặc biệt là các hoạt động huấn luyện mô hình phụ thuộc vào dữ liệu lớn.

Để tháo gỡ, Luật sửa đổi, bổ sung một số điều của Luật Sở hữu trí tuệ được thông qua vào ngày 10/12/2025 đã xác lập một quan điểm pháp lý mới đầy táo bạo: cho phép sử dụng thông tin đã được công bố hợp pháp, công khai và công chúng được phép tiếp cận làm đầu vào cho huấn luyện AI. Quyền khai thác này đi kèm với một điều kiện tiên quyết: kết quả đầu ra của AI không được xâm phạm quyền tác giả.

Điểm nghẽn đầu vào dữ liệu huấn luyện AI mới đây đã Luật Sở hữu trí tuệ sửa đổi tháo gỡ. Ảnh: CC

Với điều kiện ràng buộc như trên, các công ty phát triển AI buộc phải lưu trữ hồ sơ và nhật ký dữ liệu huấn luyện để có thể đưa ra khi cần chứng minh nguồn gốc dữ liệu đầu vào hoặc phục vụ kiểm toán, thanh tra và giải quyết tranh chấp. Bên cạnh đó, lưu trữ hồ sơ và nhật ký dữ liệu huấn luyện còn giúp các công ty phát triển AI thực hiện trách nhiệm giải trình khi đầu ra không được công khai (người dùng chỉ nhận được từng kết quả cụ thể theo yêu cầu, còn toàn bộ cách AI tạo ra kết quả do công ty phát triển kiểm soát và không được mở công khai).

Tuy nhiên quy định mới cũng gây ra một số lo ngại cho cộng đồng sáng tạo. Họ cho rằng đó vẫn chưa phải là giải pháp toàn diện khi hy sinh lợi ích của bên sáng tạo cho các tập đoàn công nghệ, chuyển toàn bộ rủi ro từ người phát triển công nghệ sang người sáng tạo nội dung. Điều này đặt ra câu hỏi lớn về tính công bằng và khả năng sinh tồn của quyền tác giả trong hệ sinh thái số.

Rủi ro mất quyền kiểm soát tài sản trí tuệ từ cơ chế "đầu vào mở"

Theo định hướng mới được quy định tại khoản 5 Điều 7 Luật Sở hữu trí tuệ sửa đổi 2025, điều kiện để dữ liệu được sử dụng làm đầu vào huấn luyện là phải thỏa mãn ba yếu tố: (i) đã được công bố hợp pháp, (ii) công chúng được phép tiếp cận, và (iii) việc sử dụng không được gây ảnh hưởng bất hợp lý đến quyền và lợi ích hợp pháp của tác giả, chủ sở hữu quyền sở hữu trí tuệ.

Quy định này thoạt nhìn có vẻ hợp lý nếu hiểu rằng việc cho phép công chúng tiếp cận và đọc một tác phẩm cũng đồng nghĩa với việc chấp nhận cho tác phẩm đó được khai thác làm đầu vào cho các hoạt động xử lý của máy móc (hay "quyền đọc là quyền khai thác").

Tuy nhiên, trên thực tế, cách hiểu này ẩn chứa nhiều lỗ hổng lớn đối với chủ sở hữu quyền, đặc biệt là sự nhầm lẫn tai hại giữa khái niệm "công khai" và "sự từ bỏ quyền kiểm soát tài sản trí tuệ".

Trong pháp luật sở hữu trí tuệ (Điều 5 Công ước Berne 1886 và Điều 6.1 Luật Sở hữu trí tuệ sửa đổi 2025), việc một tác phẩm - ví dụ một bài báo trên website hay một cuốn sách điện tử - được công bố công khai trên môi trường mạng không đồng nghĩa với việc tác giả từ bỏ quyền độc quyền trong sử dụng, phân phối, sao chép... tài sản trí tuệ (tức độc quyền sao chép) hoặc tác phẩm thuộc trường hợp "khu vực công cộng" (public domain), được sử dụng miễn phí và không cần xin phép.

Cho phép AI sử dụng mọi nguồn công khai làm đầu vào thực chất là tước bỏ quyền độc quyền sao chép của tác giả đối với hoạt động khai thác dữ liệu.

Hệ quả nhãn tiền là tác giả sẽ mất đi thị trường cấp phép dữ liệu, được xem là một thị trường tiềm năng trong nền kinh tế số. Các công ty AI có thể khai thác tự do, thậm chí là miễn phí, toàn bộ kho tàng tri thức mà tác giả đã đầu tư công sức, tài chính để tạo ra, trong khi tác giả không nhận được khoản thù lao tương xứng từ việc "chuyển giao tri thức" này, dẫn đến nguy cơ làm xói mòn động lực sáng tạo.

Bên cạnh đó, vấn đề định danh thế nào là "hợp pháp" và "được phép tiếp cận" cũng nan giải. Khái niệm "công chúng được phép tiếp cận" rất dễ bị lạm dụng trong môi trường số hỗn loạn hiện nay. Chưa kể việc tiếp cận dữ liệu từ các trang web vi phạm bản quyền (trang web lậu) có được coi là hợp pháp hay không khi công chúng vẫn có thể truy cập chúng một cách dễ dàng? Nếu không định nghĩa chặt chẽ "truy cập hợp pháp", quy định mới vô tình hợp pháp hóa việc "rửa dữ liệu", cho phép các mô hình AI xây dựng năng lực dựa trên các nguồn vi phạm.

Hơn nữa, vấn đề chi phí cũng cần được xem xét cẩn trọng. Với các báo điện tử thu phí, công chúng phải trả tiền mới tiếp cận được nội dung chi tiết. Nếu hệ thống AI sử dụng các biện pháp kỹ thuật để vượt tường phí nhằm thu thập dữ liệu, đó rõ ràng là hành vi xâm phạm, nhưng ranh giới này có thể bị làm mờ nếu quy định pháp luật chỉ dừng lại ở tiêu chí "công chúng tiếp cận được" một cách chung chung.

Một điểm yếu cốt tử khác của cơ chế "đầu vào mở" theo định hướng hiện tại là sự thiếu vắng quyền bảo lưu (Opt-out) hay quyền từ chối, vốn được thiết kế để củng cố vị thế đàm phán cho tác giả.

Từ năm 2019, Liên minh Châu Âu (EU) cho phép khai thác dữ liệu và văn bản thương mại nhưng trao cho tác giả quyền bảo lưu để ngăn chặn việc tác phẩm của họ bị khai thác ngoài ý muốn.

Nếu không có cơ chế Opt-out như châu Âu, tác giả có thể bị đặt vào tình thế "sự đã rồi", nghĩa là một khi tác phẩm xuất hiện công khai, nó mặc nhiên trở thành dữ liệu đầu vào của AI, bất kể tác giả có đồng ý hay không. Điều này tước đi quyền tự quyết của chủ sở hữu đối với tài sản trí tuệ của mình và đi ngược lại với nguyên tắc cân bằng lợi ích mà các hiệp định quốc tế như Hiệp định TRIPS hay Công ước Berne hướng tới.

Luật Sở hữu trí tuệ sửa đổi 2025 của Việt Nam dường như đang tiến gần đến mô hình "sử dụng phi thưởng thức" (Non-enjoyment Use) được Nhật Bản luật hóa trong lần sửa đổi Luật Bản quyền vào năm 2018 nhằm biến quốc gia này thành thiên đường cho dữ liệu máy học. Theo đó, luật cho phép khai thác tác phẩm mà không cần xin phép chủ sở hữu, miễn là quy trình đó không nhằm mục đích thỏa mãn nhu cầu thẩm mỹ hay cảm xúc của con người.

Chốt chặn có thật sự an toàn?

Để đối trọng lại sự cởi mở ở đầu vào, Luật Sở hữu trí tuệ sửa đổi 2025 đặt ra một chốt chặn an toàn: kết quả đầu ra của AI không xâm phạm quyền tác giả. Đây là nỗ lực chuyển trọng tâm xử lý vi phạm từ hành vi "sao chép đầu vào" sang "kết quả đầu ra", dựa trên lập luận rằng nếu sản phẩm cuối cùng không vi phạm thì quá trình tạo ra nó có thể được chấp nhận.

Tuy nhiên, việc thực thi điều kiện này đối mặt với những thách thức cực lớn về mặt kỹ thuật và chứng cứ, khiến nó có nguy cơ trở thành một "lời hứa suông" thay vì một chiếc phanh an toàn thực sự.

Vấn đề đầu tiên nằm ở bản chất "hộp đen" (black box) của thuật toán huấn luyện AI và gánh nặng chứng minh lỗi/thiệt hại của chủ thể quyền tác giả.

Trong các mô hình AI, dữ liệu đầu vào không được lưu trữ nguyên vẹn như một thư viện số, mà bị phân tách thành hàng tỷ tham số (parameter) và hòa trộn trong một "không gian tiềm ẩn" (latent space). Khi đó, thông tin được chuyển hóa thành các tham số thống kê phục vụ cho việc dự đoán, khiến cho mối liên hệ giữa tác phẩm gốc và đầu ra trở nên cực kỳ trừu tượng. Tác giả gần như không thể biết tác phẩm của mình đã được sử dụng như thế nào trong hộp đen thuật toán đó. Để chứng minh "đầu ra xâm phạm", tác giả phải chứng minh được mối liên hệ nhân quả và sự tương đồng đáng kể giữa tác phẩm gốc và sản phẩm AI.

Thách thức tiếp theo đến từ ranh giới mong manh giữa việc "tái hiện" và học hỏi "phong cách". AI có khả năng học phong cách và ý tưởng, tức những yếu tố vốn không được luật bản quyền bảo hộ, vì luật chỉ bảo hộ hình thức thể hiện.

Trong vụ kiện giữa The New York Times (NYT) và OpenAI vào năm 2023, nguyên đơn (NYT) đã đưa ra rất nhiều bằng chứng cho thấy chatbot của OpenAI có thể tái tạo gần như nguyên văn các bài báo của NYT, điều này có nghĩa, sản phẩm đầu ra chắc chắn bao hàm yếu tố xâm phạm quyền tác giả.

Tuy nhiên, việc phát hiện và xử lý vi phạm lúc này là giải pháp "hậu kiểm", mang tính chất "sự đã rồi". Tác giả có thể phải chạy theo kiện tụng từng vụ việc rất tốn kém và mệt mỏi, thay vì có quyền ngăn chặn việc sử dụng trái phép ngay từ gốc (từ đầu vào). Cơ chế kiểm soát đầu ra, do đó, đẩy toàn bộ gánh nặng giám sát và thực thi pháp luật lên vai những người sáng tạo vốn đã yếu thế hơn về mặt công nghệ và tài chính so với các tập đoàn công nghệ mạnh về tài chính lẫn các mối quan hệ.

Giải pháp bổ trợ

Định hướng mới của Việt Nam về việc cho phép sử dụng dữ liệu công khai làm đầu vào AI cho thấy sự linh hoạt trong tư duy lập pháp và cam kết mạnh mẽ đối với mục tiêu phát triển công nghệ quốc gia. Tuy nhiên, cơ chế "đầu vào mở - đầu ra đóng" nếu được áp dụng một cách cơ học sẽ đặt gánh nặng rủi ro quá lớn lên vai người sáng tạo, đẩy họ vào thế yếu trong cuộc đàm phán với máy móc. Điều kiện "đầu ra không xâm phạm" là cần thiết nhưng chưa đủ để bảo vệ thực chất quyền lợi tác giả trong bối cảnh công nghệ phức tạp hiện nay.

Để xây dựng một hệ sinh thái số bền vững, Việt Nam cần một "hệ điều hành" pháp lý hoàn chỉnh hơn, không chỉ dừng lại ở việc mở cửa đầu vào mà còn phải bao gồm các van an toàn như quyền Opt-out, định nghĩa chặt chẽ về truy cập hợp pháp, cơ chế cấp phép tập thể và nghĩa vụ minh bạch hóa.

Chỉ khi đó, chúng ta mới giải quyết được bài toán kép: vừa tạo hành lang thông thoáng cho công nghệ phát triển, vừa đảm bảo rằng trí tuệ nhân tạo không được xây dựng trên sự tàn lụi của lao động sáng tạo con người, mà phải là công cụ để tôn vinh và gia tăng giá trị cho tri thức nhân loại.

Trở lại Văn hóa - Xã hộiTrở lại Văn hóa - Xã hội