Bài toán đồng hóa dữ liệu và những thách thức của Việt Nam

Để có được những thông tin dự báo thời tiết tốt, cần phải giải quyết được bài toán về đồng hóa dữ liệu (data assimilation), tuy nhiên bản thân bài toán này còn ẩn chứa nhiều thách thức với các nhà nghiên cứu Việt Nam.

Việc đưa ra dự báo thời tiết chính xác không dễ. Theo GS. TS Phan Văn Tân, trường Đại học KHTN (ĐHQGHN), “thời gian càng ngắn, hiện tượng xảy ra càng ở quy mô nhỏ thì càng khó dự báo. Đến giờ chúng ta vẫn chưa thể dự báo được nhiều hiện tượng thời tiết như mưa lớn, tố lốc, mưa cục bộ…”. Về cơ bản, để đưa ra dự báo, các nhà nghiên cứu cần có được các dữ liệu miêu tả trạng thái của khí quyển và bề mặt Trái đất (đất và đại dương) và chất lượng của dự báo phụ thuộc vào mức độ họ xử lý thông tin nhận được trong thời gian thực từ hệ thống quan trắc, bao gồm các thiết bị vệ tinh, rada, trạm thời tiết, tàu biển, máy bay thám sát, bóng thám không… và đưa vào các mô hình số trị.  Đặc biệt, với bài toán dự báo thời tiết, điều kiện ban đầu về trạng thái khí quyển là yếu tố quyết định đến độ chính xác của dự báo do những sai số ban đầu có thể sẽ bị khuếch đại lên theo cách mà người ta vẫn gọi là hiệu ứng cánh bướm (butterfly effect) – mô tả độ nhạy của hệ động lực học vật lý khí quyển đối với điều kiện gốc.

Vậy vai trò của đồng hóa dữ liệu ở đây là gì? GS. Phan Văn Tân giải thích, “dự báo thời tiết phụ thuộc rất lớn vào dữ liệu đầu vào trong khi các dữ liệu mà chúng ta có khá đa dạng và khác nhau bởi nhận được từ nhiều nguồn, nhiều loại các thiết bị quan trắc khác nhau. Do đó, để hòa hợp các dữ liệu ấy thành một bộ dữ liệu tương đối đồng nhất về tính chất rồi đưa vào các mô hình tính toán, chúng ta cần đồng hóa dữ liệu”. 

Những vấn đề khó vượt qua 

Nhưng cũng như các vấn đề khác trong nghiên cứu khí tượng – khí hậu ở Việt Nam, bài toán đồng hóa dữ liệu này không dễ giải quyết. 

Thứ nhất, nó phụ thuộc vào việc chúng ta có được những dữ liệu gì, có đầy đủ và chi tiết hay không. Theo các nhà nghiên cứu, muốn có được đầy đủ dữ liệu đầu vào, cần phải có mạng lưới quan trắc cao không tốt hoạt động liên tục 24/24, đặc biệt ở những nơi có địa hình trọng yếu như dốc, sườn núi – vốn thường diễn ra các trận lũ quét, sạt lở. Tuy vậy, đây vẫn là mục tiêu phấn đấu của Việt Nam bởi theo video trả lời phỏng vấn của ông Trần Hồng Thái, Phó Tổng cục trưởng phụ trách  Tổng cục Khí tượng thủy văn (Bộ TN&MT) bên lề hội thảo “Nắm vững công nghệ và kiến thức để đáp ứng những thách thức trong kỷ nguyên mới của dự báo bão” vào tháng 2/2018: “Hệ thống các trạm quan trắc của chúng ta còn thưa so với khu vực, công nghệ của các trạm quan trắc còn thấp so với khu vực, tỷ lệ những trạm khí tượng, những trạm báo mưa, trạm quan trắc về mực nước tự động còn rất ít. Và nó làm cho việc tiếp nhận số liệu không đầy đủ, không chính xác và không kịp thời…”1

Mặt khác, các dữ liệu này đều ở các định dạng rất khác nhau, ví dụ thông tin từ mây do vệ tinh cung cấp dưới dạng ảnh, trong khi những thông tin từ nhiệt độ ghi lại bằng thiết bị tự động lại dưới dạng con số, thông tin từ rada là tín hiệu phản hồi từ sóng vô tuyến. “Thậm chí, các thiết bị rada của các hãng khác nhau cũng cho những dữ liệu khác nhau do chênh lệch về độ nhạy”, GS. TS Phan Văn Tân cho biết.  

Giống như công việc của các nhà khoa học máy tính khi xử lý dữ liệu phi cấu trúc – những thông tin không được định nghĩa trước về mô hình dữ liệu hay cách thức tổ chức nội dung của dữ liệu, việc đồng hóa dữ liệu trong lĩnh vực khí tượng cũng là một dạng bài toán xử lý dữ liệu hết sức phức tạp với các phương pháp nội suy phân tích (statistical interpolation), nội suy tuần tự bằng bộ lọc Kalman (sequential interpolation: the Kalman filter)2…Theo đánh giá của GS. TS Phan Văn Tân, “muốn đồng hóa được các dữ liệu khác nhau này, không chỉ đòi hỏi nhà nghiên cứu giỏi về khoa học máy tính mà còn phải hiểu rất sâu sắc về tính chất vật lý của các hiện tượng trong khí quyển”.

Do vậy, bài toán đồng hóa dữ liệu đã “động chạm” đến vấn đề cố hữu của khí hậu – khí tượng Việt Nam: không có nhiều người đủ năng lực giải quyết được vấn đề này. 

Không dễ giải quyết ngày một ngày hai, ngay cả Viện Khoa học Khí tượng và biến đổi khí hậu cũng chỉ dám đặt mục tiêu “giải quyết được bài toán này trong vòng 5 năm tới” như lời của TS. Mai Văn Khiêm – Phó viện trưởng. 

Từng chứng kiến một cuộc thử nghiệm đồng hóa dữ liệu trên các dữ liệu chưa chuẩn mực, GS. TS Phan Văn Tân hiểu cái thiếu hụt trong năng lực của Việt Nam là gì. Ông cùng đồng nghiệp ở trường Đại học Khoa học Tự nhiên (ĐHQGHN) đã đề xuất việc mời TS Kiều Quốc Chánh – trưởng một nhóm nghiên cứu về khí tượng ở trường Đại học Indiana, Mỹ và là một chuyên gia phát triển các thuật toán đồng hóa số liệu quan trắc vệ tinh để cải thiện dự báo bão và thời tiết cực đoan, về Việt Nam tổ chức một khóa tập huấn vào tháng 8/2018 – một nhánh nhỏ trong hợp phần tài trợ đưa các chuyên gia giỏi ở nước ngoài về KHCN và đổi mới sáng tạo về Việt Nam của FIRST với ĐHQGHN. Những khóa học như thế rất có ích cho các nhà nghiên cứu trong nước, vốn không phải lúc nào cũng có điều kiện tham gia các workshop và seminar ở nước ngoài. 

Tuy nhiên những gì diễn ra trên thực tế lại diễn ra trái với kỳ vọng của các nhà tổ chức. “Chúng tôi đã thông báo rộng rãi thông tin về khóa học nhưng số lượng những nhà nghiên cứu tới lớp không đáng bao nhiêu. Có nhiều người mà mình biết là có năng lực tiếp thu và cũng đang muốn thúc đẩy nghiên cứu về thời tiết ở một số nơi, vì lí do này hay lý do khác, đã không đến. Tôi cảm thấy rất buồn bởi họ chưa cảm thấy những điều đó thực sự có ích cho chính công việc và chưa thấy nhu cầu thiết thân phải nâng cao năng lực nghiên cứu của mình,” GS. TS Phan Văn Tân nhận xét. Để khỏi “phí” mất cơ hội này, ông đã phải mời thêm học viên cao học, thậm chí cả sinh viên đại học, tới lớp.  

Do đó, trong quá trình hội nhập và học hỏi bên cạnh những rào cản về mặt khách quan như sự chưa đầy đủ của dữ liệu cũng như cái yếu kém năng lực tính toán của thiết bị, còn có những tồn tại từ chính những người làm nghề. PGS. TS Ngô Đức Thành, trường Đại học KH&CN Hà Nội, cho rằng, máy móc có thể dần đầu tư trang bị nhưng còn vấn đề con người thì cần nỗ lực tự thân của mỗi người làm nghiên cứu trong việc nâng cao năng lực, qua đó góp phần đem lại ý nghĩa cho các sản phẩm nghiên cứu của mình. 
***
Dù từng thất bại nhưng những người mong muốn thúc đẩy quá trình hội nhập quốc tế như GS. TS Phan Văn Tân vẫn ấp ủ ý định tổ chức nhiều hoạt động như thế trong tương lai. Nhớ lại thời điểm cách đây 20 năm khi quyết định bỏ 4 cuốc dạy thêm ở các trung tâm vào dịp cuối tuần để chuyên tâm vào nghiên cứu, ông nheo mắt: “Trước tác động của biến đổi khí hậu, nhịp điệu mùa cũng có thể có sự biến đổi, ví dụ như mùa đông đến muộn hơn hay kết thúc sớm hơn nhưng bao giờ người ta vẫn cảm nhận được sự tồn tại của mùa. Chúng tôi cũng vậy, dù thế nào vẫn luôn tìm ra cho mình cách thức tối ưu để tiếp tục nghiên cứu của mình”. 

1.https://tuoitre.vn/the-gioi-co-chung-thach-thuc-ve-du-bao-cuong-do-bao-20180226135514566.htm
2. cerea.enpc.fr/HomePages/bocquet/teaching/assim-mb-en.pdf
3. https://www.ecmwf.int/en/research/data-assimilation

Đồng hóa dữ liệu thường là một quy trình diễn ra theo các bước thời gian tuần tự, trong đó kết quả dự báo bằng mô hình số trị được so sánh với các quan trắc mới nhận được, sau đó liên tục cập nhật thông tin quan trắc mới vào mô hình này để mô hinh có thể phản ánh được các quan sát, dự báo mới. Bước cập nhật trong quy trình đồng hóa dữ liệu thường được gọi là phân tích và dự báo mô hình trong thời gian ngắn được dùng để tạo ra phân tích được gọi là dự báo nền. Công việc này hết sức phức tạp và phải sử dụng nhiều mô hình, ví dụ để giải thích cho tính chất hỗn loạn tự nhiên của khí quyển và sự không chắc chắn liên quan đến dự báo, Trung tâm Các dự báo hạn vừa của châu Âu (European Centre for Medium – range Weather Forecasts ECMWF) phải chạy đồng thời 51 mô hình dự báo, trong đó có mô hình dự báo sử dụng trạng thái ban đầu tốt nhất và 50 mô hình dự báo khác với các thay đổi nhỏ so với trạng thái ban đầu. Do vậy, việc đồng hóa dữ liệu liên quan chặt chẽ đến năng lực tính toán của hệ siêu máy tính 3.

Tác giả