Việc chủ động nắm được công nghệ lõi, đạt chuẩn an toàn quốc tế là điều rất tích cực và cần chủ động nắm bắt để bảo vệ cơ sở dữ liệu. Tuy nhiên, sẽ sai lầm nếu cho rằng khi đạt được điều đó là có thể yên tâm, từ đó cho phép thu thập dữ liệu tùy ý.
Lợi ích của dữ liệu là hiển nhiên và không bị phủ nhận; vấn đề bài viết này đặt ra là cảnh báo nguy cơ các hệ thống luôn bị xâm nhập, từ đó rất thận trọng trong việc thu thập và lưu trữ dữ liệu, cùng với tư duy quản trị rủi ro chặt chẽ.
Điều đáng cảnh báo là: Trong thực tế không có chuẩn nào là thực sự đảm bảo an toàn tuyệt đối. Ngay cả khi ta nắm công nghệ lõi, kiểm soát mọi thứ kín kẽ thì cũng chỉ tránh được việc cài lén các cổng hậu (backdoors - lối truy cập bí mật vô hiệu hóa mọi lớp bảo mật). Đó chỉ là điều tối thiểu cần làm và phải làm, nhưng không bao giờ là đủ. Lý do là chính bản thân các thuật toán đạt chuẩn đều có thể bị phá từ gốc, và chẳng còn gì là có thể đảm bảo an toàn lâu dài. Nếu "yên tâm ảo" mà thiếu cẩn trọng trong thu thập dữ liệu sẽ là lợi bất cập hại.
Thuật toán phá mã, phá chuẩn an toàn không được công bố chính là những cổng hậu ghê gớm nhất, mà thường thì ta không biết được sự tồn tại của nó. Và chính vì thế mà ta có thể bị lấy mất toàn bộ kho dữ liệu hàng thập kỷ mà không hề hay biết. Trường hợp Iran là một ví dụ nhãn tiền. Chúng ta sẽ quay trở lại bàn về vấn đề quan trọng này phía dưới.
Bởi vậy, ở mức độ quốc gia, nguyên tắc tránh rủi ro phải là: tối thiểu hóa việc thu thập và lưu trữ dữ liệu và chỉ làm cho các mục đích thực sự cơ bản; không thu thập dữ liệu tràn lan, không thu thập dữ liệu riêng tư nhạy cảm của toàn dân, hạn chế thu thập dữ liệu thời gian thực, trong đó có thu thập dữ liệu thời gian thực để chấm điểm công dân bởi vì mô hình này buộc phải lưu và cập nhật liên tục dữ liệu hành vi cá nhân ở quy mô lớn, khiến hệ thống trở thành mục tiêu tấn công có giá trị cao và khó kiểm soát khi bị xâm nhập. Tóm lại, cần hạn chế tối đa việc thu thập dữ liệu riêng tư và đồng thời phải quản trị trên nguyên tắc đặc quyền tối thiểu (Principle of Least Privilege, truy cập cơ sở dữ liệu ở mức tối thiểu, vừa đủ cho mục đích cần làm) để không tự biến mình trở thành miếng mồi ngon cho các đòn tấn công.
Năm 2017, những kẻ tấn công sử dụng cổng hậu (backdoor) để phát tán vũ khí tin học NotPetya đánh gục toàn bộ máy tính trên đất nước Ukraine và làm rung chuyển toàn thế giới. Thảm họa an ninh mạng này trước tiên bắt đầu làm tê liệt hệ thống vận tải của Maersk, tức là 1/5 lượng hàng hóa đường biển toàn cầu đình đốn. Ảnh: Pexel
Rủi ro của các cơ sở dữ liệu quan trọng
Một bài báo mới đây phỏng vấn CEO của MK Group, đơn vị đứng sau việc triển khai hạ tầng, công nghệ và làm thẻ căn cước công dân, nêu một số nhận định đúng, và đồng thời bỏ qua một vấn đề cơ bản rất lớn [1].
Bài báo nói tới rủi ro của những cơ sở dữ liệu quan trọng như sinh trắc học trong ngân hàng là đúng. Dữ liệu sinh trắc tập trung như một "hũ mật" dữ liệu, là mồi, là đích đến cho mọi loại hacker; ngân hàng không bảo vệ được là mối nguy cho mọi người dân. Nhận định này tuy đúng nhưng đáng lẽ cần được nhìn nhận sớm hơn để tránh việc triển khai vội vàng. Ngay từ khi có kế hoạch triển khai, chúng tôi cũng đã cảnh báo về nguy cơ này [2]. Trước đó, chúng tôi cũng đã cảnh báo về sự rủi ro của việc thu thập và sử dụng các cơ sở dữ liệu cá nhân [3,4].
Một khi đã nhận thức được rủi ro của các cơ sở dữ liệu quan trọng thì nhất thiết cần bàn đến rủi ro với cơ sở dữ liệu tập trung quan trọng nhất, lớn nhất, nhiều thông tin riêng tư nhất - cơ sở dữ liệu công dân. Nếu so sánh rủi ro tầm quốc gia như Iran bị hack từ dữ liệu camera, thì đây là cơ sở dữ liệu tiềm ẩn thiệt hại lớn nhất nếu bị rò rỉ.
Càng tập trung dữ liệu riêng tư càng dễ trở thành đích ngắm
Cơ sở dữ liệu nào càng nhiều dữ liệu quý, riêng tư, sinh trắc, dữ liệu thực tại, dữ liệu liên tục theo thời gian thực thì càng giá trị. Bởi vậy, đó sẽ là đích đến cho các cuộc tấn công. Vì nếu kẻ địch sở hữu được kho dữ liệu này thì có thể coi như nắm được tường tận những cá nhân và thành phần trong đó. Từ đó, kẻ địch có thể khống chế ngầm, trong suốt, khó nhận ra, thông qua điều khiển ngầm hành vi các thành phần; còn ở mức nghiêm trọng nhất là có thể khống chế công khai các thành phần nếu muốn.
Nếu đã nhận thức được rủi ro của các cơ sở dữ liệu quan trọng, thì cần nhất quyết tuân thủ nguyên tắc hạn chế rủi ro ở mức độ quốc gia như đã đề cập trên đây. Ngược lại, khi chúng ta không áp dụng đầy đủ nguyên tắc an toàn này thì sẽ thành tự mâu thuẫn: một mặt "phi tập trung" dữ liệu sinh trắc trong ngân hàng để tránh rủi ro, nhưng mặt khác lại yên tâm trước rủi ro của việc tập hợp dữ liệu quan trọng ở mức "siêu tập trung".
Nếu thu thập tràn lan dữ liệu công dân liên tục thời gian thực, dữ liệu sinh trắc riêng tư, thậm chí còn nhắm tới dữ liệu gien vượt quá khả năng quản trị an toàn, thì khi cơ sở dữ liệu này bị lộ (thậm chí chúng ta còn không biết là bị lộ), tác hại sẽ khôn lường, có thể còn ở mức nặng nề hơn cả trường hợp Iran.
Tự làm không có nghĩa là tránh được tấn công ngầm
Quay trở lại điều cơ bản mà chúng ta phải nhìn nhận đầy đủ: không phải chúng ta tự làm thì sẽ tránh được các cổng hậu. Cổng hậu có rất nhiều mức độ. Mức độ cao nhất là cổng hậu trong thuật toán mà gần như không ai có thể biết.
Điển hình, các chính phủ châu Âu với đội ngũ nhà khoa học đỉnh cao về mật mã vẫn lo ngại về tiêu chuẩn hậu lượng tử của NIST (bộ chuẩn mật mã được thiết kế để chống lại các cuộc tấn công bằng máy tính lượng tử). Dù chọn các tiêu chuẩn do chính các tác giả châu Âu đưa ra, vẫn có thể có thuật toán phá mã ẩn đằng sau mà không công bố. Từ đó mà họ đưa ra chiến lược lai ghép, kết hợp một thuật toán hậu lượng tử mới và một thuật toán cổ điển đã được kiểm nghiệm qua thời gian dài, để tránh rủi ro.
Thuật toán phá mã, phá chuẩn an toàn không được công bố chính là những cổng hậu ghê gớm nhất, mà thường thì ta không biết được sự tồn tại của nó.
Vừa mới ngay đây thôi, ngày 31/3/2026, Google đã công khai nói rõ về cách tiếp cận khi tìm thấy lỗ hổng bảo mật: họ sẽ không công bố chi tiết mà chỉ chứng tỏ sự tồn tại của lỗ hổng thông qua một chứng minh không để lộ tri thức [5]. Điều đó cho thấy thực tế có rất nhiều tấn công ngầm không được công bố. Đến một công ty lớn như Google sẽ còn không công bố đầy đủ các tấn công thì những tổ chức khác hiển nhiên cũng sẽ không công bố mà có thể âm thầm lợi dụng các điểm yếu của hệ thống bị phát hiện.
Cụ thể, ở mức lý thuyết rất cao là phá mã một cách hiệu quả bằng các thuật toán lượng tử mới, Google tuyên bố tìm ra một thuật toán với độ cải thiện gấp 20 lần thuật toán tốt nhất hiện có, nhưng sẽ không công bố thuật toán với lý do lo ngại kẻ xấu lợi dụng. Thay vào đó, họ đưa ra chứng minh có thể kiểm thử được về sự sở hữu thuật toán đó nhằm mục đích cảnh báo.
Cách tiếp cận của Google cho thấy rõ một điều: thế giới thực có rất nhiều phát triển ngầm mà ta rất khó nhận ra. Đó là các tấn công ngầm, khai thác lỗ hổng ngầm, truy nhập và thu thập dữ liệu ngầm. Từ thực tế các xung đột phức tạp gần đây, có thể thấy quốc gia nào nắm được nhiều dữ liệu chi tiết của quốc gia khác thì họ có thể chiếm quyền điều khiển, thao túng theo ý mình.
Nhìn sang Trung Quốc, họ cũng đã nhận ra việc thu thập dữ liệu tràn lan là nguy hiểm. Vấn đề lớn nhất là sau thời gian thu thập quá nhiều, nhiều dữ liệu đã vượt khỏi tầm kiểm soát của nhà nước, nhiều kho dữ liệu của các công ty bị hack, trong đó có những cơ sở dữ liệu cực lớn bị tấn công, có nguy cơ kẻ xấu có thể dễ dàng thao túng thông tin cá nhân, khiến tình hình ngày càng khó quản lý. Do vậy, Trung Quốc đã có những điều luật rõ ràng để yêu cầu triển khai các phương án kỹ thuật bảo vệ ở mức cao nhất cũng như xử lý cực kỳ nghiêm khắc tất cả những đơn vị để lộ dữ liệu.
Chính vì thế chúng ta cần luôn đặt giả thiết, như ngay cả ở những nước phát triển nhất: Điều gì sẽ xảy ra nếu cơ sở dữ liệu quan trọng của tôi bị tấn công? Từ đó chỉ lưu trữ thông tin ở mức tối thiểu cho các mục đích quản trị cơ bản, để khi bị tấn công thì tác hại là tối thiểu.
Cần một tư duy thống nhất cho mọi hạ tầng
Bảo mật quốc gia cần một tư duy thống nhất cho mọi hạ tầng. Không thể chỉ nhìn thấy rủi ro ở dữ liệu sinh trắc của ngân hàng mà không nhìn thấy rủi ro lớn hơn rất nhiều ở các cơ sở dữ liệu tập trung quan trọng cấp quốc gia. Không thể chỉ nói đến nguyên tắc phi tập trung ở một số nơi, nhưng lại không tính đến rủi ro của việc siêu tập trung vào một nơi khác. Không thể dựa vào việc nắm vài tiêu chuẩn, vài công nghệ lõi, hay niềm tin rằng "ta tự làm nên an toàn" để làm chỗ dựa cho việc thu thập dữ liệu ngày càng nhiều hơn.
Điều đó không đồng nghĩa với việc chúng ta hạn chế các công nghệ dữ liệu lớn, mà cần có chiến lược sử dụng. Chúng ta vẫn cần có dữ liệu lớn và tối ưu hóa quản trị với các thuật toán tiên tiến. Chẳng hạn, chúng ta hoàn toàn có thể lưu trữ một cách hệ thống và minh bạch toàn bộ dữ liệu về hoạt động công của nhà nước. Đây là dữ liệu khổng lồ, và càng minh bạch càng tốt. Từ lâu, Pháp liên tục cập nhật và đã công bố gần 400 nghìn tài liệu công [6], đây có thể là cơ sở để phát hiện thất thoát, nguồn gốc tham nhũng, có thể qua những thuật toán phân tích thông minh.... Nguyên tắc "minh bạch công, bảo mật riêng" là như vậy.
Đây là thời điểm bản lề và chúng ta cần tỉnh táo nghĩ xa về tương lai đất nước. Chỉ điều đó mới có thể tránh rơi vào vòng phụ thuộc.
---
Tài liệu đã dẫn:
[1] Gần 90 triệu người Việt đang cầm trên tay công nghệ bảo mật cấp quân sự, nhưng rất ít người biết: https://soha.vn/gan-90-trieu-nguoi-viet-dang-cam-tren-tay-cong-nghe-bao-mat-cap-quan-su-nhung-rat-it-nguoi-biet-198260327094824886.htm
[2] Xác thực bằng dữ liệu sinh trắc học: Cần cẩn trọng trước những bước đi "không thể đảo ngược"!
Tia Sáng https://tiasang.com.vn/du-lieu-sinh-trac-hoc-can-can-trong-truoc-nhung-buoc-di-khong-the-dao-nguoc-4967200.html
[3] Tính điểm công dân: "Robot hóa" con người?.
Trên báo Lao Động, 2019, bản online trên:
https://www.facebook.com/rongchoi/posts/10217251098246313
[4] Sự nguy hiểm của chiến lược thu thập dữ liệu gien trên diện rộng
Tia Sáng.
https://tiasang.com.vn/su-nguy-hiem-cua-chien-luoc-thu-thap-du-lieu-gen-tren-dien-rong-4971523.html
[5] Safeguarding cryptocurrency by disclosing quantum vulnerabilities responsibly https://research.google/blog/safeguarding-cryptocurrency-by-disclosing-quantum-vulnerabilities-responsibly/
[6] Cơ sở dữ liệu công của Pháp https://www.data.gouv.fr/