Bảo hộ dữ liệu huấn luyện AI: Đi tìm “điểm cân bằng”

Việc nới lỏng quyền sử dụng dữ liệu huấn luyện các mô hình trí tuệ nhân tạo (AI) sẽ tạo điều kiện thuận lợi cho các nhà phát triển AI, nhưng nếu không có giới hạn phù hợp, đây lại là một đòn giáng mạnh vào hệ sinh thái văn hóa sáng tạo ở Việt Nam.

Trong phiên bản mới nhất, một điều khoản trong dự thảo Luật Sở hữu trí tuệ sửa đổi đã khiến cộng đồng luật và những người làm việc trong lĩnh vực văn hóa, nghệ thuật "dậy sóng". Cụ thể, khoản 5 điều 7 trong dự thảo cho phép các công ty AI sử dụng các nguồn dữ liệu đã được công bố để huấn luyện mô hình AI mà không cần xin phép tác giả, miễn là họ "không sao chép, phân phối, truyền đạt, công bố, làm tác phẩm phái sinh hoặc khai thác thương mại văn bản, dữ liệu gốc và không gây thiệt hại đến lợi ích hợp pháp của tác giả hay chủ sở hữu".

"Tôi và một số người trong ngành đặc biệt lo ngại về điều này", TS. Lê Vũ Vân Anh ở Đại học Durham (Vương quốc Anh), nhận xét trong một bài viết trên trang Facebook cá nhân. "Quy định này có thể trở thành một rủi ro nghiêm trọng đối với tác giả, văn nghệ sĩ và chủ sở hữu quyền tác giả. Việc cho phép ‘xài chùa’ tác phẩm dưới danh nghĩa huấn luyện AI là một cơ chế mở rộng quá mức và tiềm ẩn nhiều lạm dụng".

Có hay không hành vi xâm phạm quyền?

Hiện nay, phần lớn các dữ liệu được dùng để huấn luyện mô hình AI đều được bảo hộ quyền tác giả. Đây là điều tất yếu vì theo nguyên tắc bảo hộ tự động của Công ước Berne, quyền tác giả phát sinh ngay khi tác phẩm được định hình dưới dạng vật chất nhất định chứ không phụ thuộc vào thủ tục đăng ký. Và khác với sáng chế hay các giải pháp kỹ thuật, thời hạn bảo hộ của tác phẩm thường rất dài - suốt cuộc đời tác giả cộng thêm 50 năm kể từ ngày tác giả qua đời. Để tránh vấn đề bản quyền, các nhà phát triển AI có thể lựa chọn tác phẩm thuộc về miền công cộng, đã hết hạn bản quyền hoặc được cấp phép theo Creative Commons (CC) hoặc các giấy phép công cộng khác. Tuy nhiên, lượng dữ liệu này chỉ chiếm phần rất nhỏ. Hơn nữa, các tác phẩm hết hạn bản quyền sẽ có tuổi đời lớn - thường ra đời trước những năm 1950. Các mô hình AI chỉ được đào tạo dựa trên dữ liệu này có thể đối mặt với nguy cơ lạc hậu.

Trong một số trường hợp ngoại lệ, bất cứ ai cũng có thể sử dụng các tác phẩm được bảo hộ mà không cần xin phép hay trả tiền bản quyền (sử dụng hợp lý). Hầu hết các quốc gia, bao gồm Việt Nam, từ lâu đều có quy định về vấn đề sử dụng hợp lý nhằm cân bằng giữa quyền tác giả và lợi ích của công chúng. Và tất nhiên,các quy định này nhắm đến đối tượng sử dụng là con người. Chẳng hạn theo pháp luật Việt Nam, bất cứ ai cũng có thể sao chép một bản nhằm mục đích nghiên cứu khoa học, giảng dạy hay trích dẫn hợp lý tác phẩm mà không làm sai ý tác giả để bình luận hoặc minh họa trong tác phẩm của mình, mà không cần phải xin phép hay trả tiền cho tác giả/chủ sở hữu tác phẩm.

Việc sử dụng dữ liệu huấn luyện AI không cần xin phép hay trả tiền có vẻ giống với các trường hợp ngoại lệ được phép sử dụng hợp lý. Nếu vậy, các tác phẩm tốn nhiều công sức sáng tạo sẽ trở thành nguồn dữ liệu chất lượng cao miễn phí để huấn luyện các mô hình AI, trong khi các nhà phát triển AI lại kiếm bộn tiền từ các mô hình này? Để tránh viễn cánh mất cân bằng lợi ích giữa các bên, dự thảo Luật Sở hữu trí tuệ sửa đổi không để sử dụng tự do, mà yêu cầu việc sử dụng này phải đáp ứng điều kiện "không sao chép, phân phối, truyền đạt, công bố, làm tác phẩm phái sinh hoặc khai thác thương mại văn bản, dữ liệu gốc và không gây thiệt hại đến lợi ích hợp pháp của tác giả, chủ sở hữu".

Tuy nhiên, quy định này vẫn còn nhiều điểm mơ hồ. Bởi lẽ, hành vi sử dụng tác phẩm trong huấn luyện mô hình AI không giống với hành vi sử dụng của con người. Con người có thể sử dụng một tác phẩm mà không cần sao chép, chẳng hạn như mua một cuốn tiểu thuyết được xuất bản hợp pháp về đọc. Trong khi đó, sao chép là một yếu tố không thể thiếu trong quá trình huấn luyện mô hình AI. Để thu thập dữ liệu trong huấn luyện AI, nhà phát triển AI phải tải các tác phẩm này vào hệ thống và lưu trữ vào bộ nhớ. Sau đó thông tin sẽ được xử lý và chuẩn hóa theo cấu trúc dữ liệu của hệ thống, dữ liệu sẽ được phân loại cho huấn luyện trong học máy hay học sâu, sau đó là bóc tách các đặc điểm của dữ liệu, cuối cùng là công đoạn phân tích, học từ dữ liệu và cuối cùng là tạo ra kết quả. "Trên thực tế, trong phần lớn các trường hợp, dữ liệu huấn luyện phải được sao chép ít nhất một lần trong quá trình huấn luyện", TS. Adam Buick ở Trường Luật, Đại học Ulster, viết trên Journal of Intellectual Property Law & Practice.

Hành vi sao chép của mô hình AI trong quá trình huấn luyện đã dẫn đến nhiều tranh cãi: một số bên cho rằng hành vi sao chép tạm thời này không nằm trong phạm vi bảo hộ quyền tác giả, trong khi nhiều người cho rằng đây là hành vi xâm phạm quyền. "Truy cập vào tác phẩm được bảo hộ để huấn luyện AI về bản chất vẫn là hành vi sao chép và sử dụng tác phẩm. Không thể gọi đó là ‘không xâm phạm’ chỉ bằng cách tuyên bố như vậy trong luật", TS. Lê Vũ Vân Anh nhận xét.

Một điểm gây bối rối khác là điều kiện "không gây thiệt hại". "Dự luật yêu cầu ‘không gây thiệt hại’, nhưng thiệt hại được xác định bằng cách nào?", theo TS. Lê Vũ Vân Anh. "Làm sao có thể nói là ‘không thiệt hại’ khi mô hình AI được xây dựng từ chính tác phẩm của tác giả, rồi sau đó sinh ra sản phẩm cạnh tranh với họ trên thị trường? Thu nhập từ việc khai thác tác phẩm có thể bị thay thế, suy giảm nghiêm trọng - chưa kể đến nguy cơ xóa nhòa dấu ấn sáng tạo, gây nhầm lẫn tác giả, hoặc làm biến dạng tác phẩm".

Cân bằng quyền lợi giữa các bên

Đằng sau cuộc tranh luận vẫn chưa ngã ngũ về bản quyền trong huấn luyện mô hình AI là bài toán hài hòa lợi ích giữa các nhà phát triển AI và các nhà sáng tạo trong các lĩnh vực văn hóa, nghệ thuật. Những người ủng hộ AI cho rằng quá trình huấn luyện AI cũng như quá trình học hỏi của con người, do vậy, chúng ta nên ứng xử với AI giống như ứng xử với trí tuệ con người. Tuy nhiên, một số chuyên gia cho rằng quan điểm này "chứa quá nhiều vấn đề nghiêm trọng". "Ngay cả sinh viên muốn học còn phải mua sách, vậy tại sao công ty AI, vốn có lợi nhuận khổng lồ, lại không cần mua giấy phép? Tại sao chúng ta phải đối xử với AI như con người, khi AI không phải là người, không có quyền nhân thân, và quan trọng nhất: AI không cần động lực sáng tạo, còn con người thì có", TS. Lê Vũ Vân Anh phân tích.

Các quốc gia trên thế giới có những cách tiếp cận khác nhau với vấn đề này. Một số chọn cách kiểm soát chặt chẽ, tiêu biểu là Trung Quốc. Mặc dù tiến nhanh trong cuộc đua AI, nước này hiện không công nhận bất kỳ ngoại lệ quyền tác giả nào trong huấn luyện AI tạo sinh. Luật Bản quyền Trung Quốc liệt kê 13 trường hợp ngoại lệ, nhưng không đề cập đến hoạt động đào tạo AI hay hoạt động khác liên quan như khai thác văn bản và dữ liệu tự động. Trong khi đó, nước này yêu cầu nhà cung cấp AI phải đảm bảo không xâm phạm quyền sở hữu trí tuệ hợp pháp của người khác trong toàn bộ quá trình huấn luyện. "Có thể thấy, Trung Quốc đang xây dựng một khung pháp lý khá nghiêm ngặt về bảo vệ quyền tác giả trong đào tạo mô hình AI, các công ty tại Trung Quốc bằng cách này hay cách khác cần phải tuân thủ quy định về sở hữu trí tuệ", tác giả Trịnh Quốc Đạt ở trường Đại học Luật, Đại học Quốc gia Hà Nội, viết trên Tạp chí Công thương.

Cách tiếp cận của Liên minh châu Âu (EU) có phần cởi mở hơn Trung Quốc. Theo Đạo luật AI (EU) 2024/1689, "việc phát triển và đào tạo các mô hình AI đa năng đòi hỏi phải có quyền truy cập vào một lượng lớn văn bản, hình ảnh, video và dữ liệu khác. Các kỹ thuật khai thác văn bản và dữ liệu có thể được sử dụng rộng rãi trong bối cảnh này để truy xuất và phân tích nội dung đó, bao gồm cả các nội dung có thể được bảo vệ bởi bản quyền và các quyền liên quan". Tuy nhiên, EU cũng yêu cầu phải tôn trọng cơ chế từ chối (opt-out), tức là nhà phát triển AI chỉ được phép khai thác dữ liệu khi chủ sở hữu quyền tác giả không nêu rõ tuyên bố từ chối (tuyên bố "All rights reserved" - "Mọi quyền được bảo lưu" mà chúng ta thường bắt gặp trên các tác phẩm. Đây là tuyên bố cho biết chủ sở hữu bản quyền sở hữu mọi quyền độc quyền đối với tác phẩm và không ai khác được phép sử dụng tác phẩm đó trừ khi được cấp phép).

Cách tiếp cận linh hoạt nhất thuộc về Mỹ, thể hiện rõ quan điểm ưu tiên phát triển AI của nước này. Tại Mỹ, vấn đề bản quyền và dữ liệu đào tạo xoay quanh học thuyết sử dụng hợp lý,đây là một ngoại lệ mở đối với bản quyền, không có danh sách các trường hợp ngoại lệ được quy định từ trước. Thay vào đó, tính công bằng của một mục đích sử dụng cụ thể phải được xem xét trên cơ sở từng trường hợp cụ thể, dựa trên bốn yếu tố: mục đích và tính chất của việc sử dụng, bản chất của tác phẩm có bản quyền, số lượng và mức độ quan trọng của phần được sử dụng so với toàn bộ tác phẩm có bản quyền, và ảnh hưởng của việc sử dụng đối với thị trường tiềm năng hoặc giá trị của tác phẩm có bản quyền. "Pháp luật Mỹ thể hiện sự linh hoạt cao cho việc khai thác tác phẩm có bản quyền trong huấn luyện AI, điều này tạo ra dư địa lớn cho các công ty công nghệ phát triển. Tuy nhiên, chính sự linh hoạt này cũng khiến các doanh nghiệp phải đối mặt với mức độ rủi ro cao hơn, khi kết quả xét xử hoàn toàn phụ thuộc vào lập luận cụ thể của toà án trong từng vụ tranh chấp", tác giả Trịnh Quốc Đạt nhận xét.

Giữa đa dạng cách tiếp cận, Việt Nam nên đi theo hướng nào? Để tìm ra câu trả lời phù hợp, một số chuyên gia cho rằng nên bắt đầu từ việc minh bạch hóa quy trình huấn luyện mô hình AI. "Thay vì đặt ra một cánh cửa rộng để AI sử dụng tác phẩm của người khác miễn phí, pháp luật cần minh bạch hóa quy trình mà các công ty công nghệ thu thập và sử dụng dữ liệu để huấn luyện AI. Nếu quy trình này được minh bạch, nghệ sĩ và các bên liên quan sẽ có cơ hội hiểu rõ hơn AI đã ‘học’ những gì và sử dụng chúng ra sao. Từ đó, họ sẽ có cơ sở để thảo luận, thậm chí đàm phán trước khi cho các ứng dụng này tiếp cận đến tác phẩm. Như vậy, AI sẽ không phải là rào cản hay cỗ máy lấy công làm lời từ thành quả sáng tạo của người khác", luật sư Nguyễn Thái Hải Lâm ở Văn phòng Luật sư Nguyễn & Trần nhận xét trong một bài viết trên trang Facebook cá nhân.

Ngày 24/11/2025, Quốc hội thảo luận về dự án Luật sửa đổi, bổ sung một số điều của Luật Sở hữu trí tuệ, trong khuôn khổ Kỳ họp thứ 10, Quốc hội khóa XV.

Một điểm đáng chú ý là dự thảo luật đã bổ sung quy định về việc khai thác dữ liệu để huấn luyện mô hình trí tuệ nhân tạo (AI). Cụ thể, "tổ chức, cá nhân được phép sử dụng văn bản và dữ liệu đã được công bố hợp pháp và công chúng được phép tiếp cận, nhằm mục đích nghiên cứu, huấn luyện và phát triển hệ thống trí tuệ nhân tạo, với điều kiện không sao chép, phân phối, truyền đạt, công bố, làm tác phẩm phái sinh hoặc khai thác thương mại văn bản, dữ liệu gốc và không gây thiệt hại đến lợi ích hợp pháp của tác giả, chủ sở hữu theo quy định của Luật này và pháp luật khác có liên quan".

Tuy nhiên, dự thảo chưa đưa ra tiêu chí xác định thế nào là thiệt hại không có giới hạn, phạm vi dữ liệu, cũng như không ràng buộc trách nhiệm minh bạch, không quy định cơ chế giám sát. Nếu để nguyên, quy định này có thể trở thành cánh cửa rất rộng để thu thập dữ liệu hàng loạt, gây thiệt hại không thể phục hồi đối với tác giả, nghệ sĩ và các ngành công nghiệp văn hóa.

Nhiều ý kiến cho rằng cần tiếp tục nghiên cứu thận trọng, kỹ lưỡng điều khoản này để có giải pháp đảm bảo hài hòa giữa bảo vệ quyền tác giả và thúc đẩy đổi mới sáng tạo.

Bài đăng KH&PT số 1372 (số 48/2025)

Thanh An

Trở lại Khoa học - Công nghệTrở lại Khoa học - Công nghệ