VIETHERB: Cây thuốc trong thời đại Big data

Lần đầu tiên tại Việt Nam, một cơ sở dữ liệu về nguồn thảo dược đa dạng và phong phú ở Việt Nam trên nền tảng khoa học máy tính hiện đại được hình thành mang tên VIETHERB do PGS. TS Lê Thị Lý và nhóm nghiên cứu (trường Đại học Quốc tế, ĐHQG TP.HCM) thực hiện sẽ góp phần giới thiệu và định vị những giá trị y học cổ truyền Việt Nam trên bản đồ thế giới.


PGS. TS Lê Thị Lý hướng dẫn sinh viên trong phòng thí nghiệm. 

Dẫu dự án xây dựng VIETHERB được nhóm nghiên cứu triển khai từ năm 2014 nhưng với riêng PGS. TS Lê Thị Lý, ý tưởng về việc cần phải có một cơ sở dữ liệu riêng cho các cây thuốc Việt Nam đã bắt nguồn từ nhiều năm trước, khi quan sát thấy nhiều cơ sở dữ liệu lớn trên thế giới về thực vật hoặc các loài dược liệu quý được xây dựng và phát huy hiệu quả trong bảo tồn, khai thác giá trị của những nguồn cây cỏ thiên nhiên. “Thực ra, việc tôi quan tâm đến các loại cây thường được dùng trong những phương thuốc của y học cổ truyền cũng có đôi chút ‘cá nhân’. Trong gia đình thì cả ông nội và ông ngoại đều là thầy thuốc đông y ở Thanh Hóa. Hồi bé, khi gia đình vào Lâm Đồng, ông nội từng dẫn tôi đi hái lá cây về sắc thuốc. Đó là nguyên nhân sâu xa khiến tôi muốn theo đuổi dự án này”, chị cho biết.

Tuy nhiên từ mối liên hệ gần gụi với cây thuốc cổ truyền đến một dữ liệu online còn tồn tại một khoảng trống rất lớn mà chỉ những kiến thức hiện đại mới có thể bắc cầu kết nối được. Đó cũng là “nghề” của PGS. TS Lê Thị Lý: “May mắn là tôi theo học cả hai chuyên ngành về Hóa và Khoa học máy tính ở bậc đại học, rồi làm nghiên cứu sinh về Tin Sinh học ứng dụng trong thiết kế dược phẩm ở Mỹ nên có điều kiện giải quyết vấn đề đó”. Sau năm năm triển khai, dự án nghiên cứu của PGS. TS. Lê Thị Lý và cộng sự đã hoàn thành với  công trình “VIETHERB: A Database for Vietnamese Herbal Species” (VIETHERB: Một cơ sở dữ liệu cho các loài thảo dược Việt Nam) xuất bản trên The Journal of Chemical Information and Modeling, một tạp chí của Hội Hóa học Mỹ chuyên về những phương pháp mới và những ứng dụng quan trọng trong các lĩnh vực thông tin hóa học và mô hình phân tử, và cơ sở dữ liệu trên địa chỉ vietherb.com.vn1.

Không chỉ là số hóa dữ liệu

 

Trước khi có VIETHERB, ngành dược Việt Nam đã có nhiều tài liệu quý về cây thuốc nam, từ một số bộ sách thời kỳ Trung đại như Nam dược thần hiệu (thiền sư – y sư Tuệ Tĩnh), Hải Thượng y tông tâm lĩnh (Hải Thượng Lãn Ông Lê Hữu Trác) đến những dược điển lớn xuất bản vào những năm 1960, 1990 như Các cây thuốc và vị thuốc Việt Nam (giáo sư Đỗ Tất Lợi), Từ điển cây thuốc Việt Nam (giáo sư Võ Văn Chi)… Đây là những tư liệu rất quý về những cây thuốc nam với những mô tả hình dạng, phân bố, tác dụng dược lý… đi kèm cùng những bài thuốc với thành phần thảo dược đó và trở thành “sách gối đầu giường” cho những người làm nghề dược. Tuy nhiên theo thời gian, những thông tin đó cũng trở nên “lạc hậu” khi thiếu hụt những bổ sung sâu hơn và chính xác hơn (trong một cuộc trao đổi tại công ty Traphaco vào năm 2015, Phó Tổng giám đốc Nguyễn Huy Văn, một dược sĩ tốt nghiệp trường Đại học Dược khoa HN, cũng cho biết như vậy).

Mặt khác, điểm bất lợi lớn của các dược điển này là vẫn còn tồn tại dưới dạng văn bản, chưa được số hóa, hoặc nếu đã “số hóa” thì dữ liệu vẫn còn ở dạng thô, chưa theo đúng quy chuẩn và mới dừng ở phiên bản tiếng Việt, nên việc tìm kiếm, khai thác dữ liệu và mở rộng liên kết với các cơ sở dữ liệu quốc tế còn hạn chế.

Trước hiện trạng đó, nhóm nghiên cứu của PGS. TS Lê Thị Lý – một nhóm nghiên cứu trẻ gồm 15 thành viên chuyên ngành khoa học máy tính, sinh học tính toán, công nghệ sinh học thực vật, và hóa dược đã suy nghĩ và tìm hiểu cách thức xây dựng dữ liệu của các nền tảng lớn trên thế giới như KnapSAcK của Viện KH&CN NARA (Nhật Bản), GBIF (một mạng lưới nghiên cứu quốc tế), TMC (Đài Loan)… để mong tìm ra cách thức phù hợp nhất với tình hình Việt Nam. Họ nhận thấy, muốn có được một cơ sở dữ liệu như quốc tế, VIETHERB phải đạt được những chuẩn mực quốc tế cả về nội dung và hình thức nhằm tạo điều kiện cho cả người truy cập Việt Nam cũng như nước ngoài. Do đó, có hai vấn đề lớn cần được giải quyết đồng thời, trước hết là phần nội dung về các loại cây dược liệu, trong đó mỗi cây đều có những thông tin cơ bản như tên khoa học, tên Việt Nam, họ (familia), chi (genus), hình ảnh mô tả; những thông tin chuyên sâu về các chất chuyển hóa (metabolites) được chiết xuất từ các cây thuốc đó với danh pháp (nomenclature), công thức (formula), cấu trúc hóa học (structure); đồng thời cả những thông tin chi tiết về hình thái cây (hoa, thân, lá, quả  và phân bố, phân loại, hiệu quả điều trị.

Để có được những thông tin mong muốn đó, nhóm nghiên cứu đã ưu tiên sử dụng các tài liệu tin cậy và đã được công nhận ở Việt Nam của các giáo sư Đỗ Tất Lợi, Võ Văn Chi cùng với một số tài liệu về dược liệu, thảo dược từ các trường đại học uy tín trong và ngoài nước. Trong quá trình tìm kiếm thông tin như vậy, họ cũng phát hiện được những điều thú vị, “chúng tôi đã phát hiện ra nhiều cơ sở dữ liệu lớn trên thế giới đã lưu trữ rất nhiều thông tin mới, khá chi tiết và tin cậy về các cây thuốc Việt Nam. Đây thực sự là những nguồn dữ liệu rất quý để chúng tôi bổ sung vào VIETHERB”, PGS. TS Lê Thị Lý cho biết về quá trình thu thập dữ liệu.


VIETHERB có giao diện thân thiện và nhiều thông tin hữu dụng được trình bày một cách mạch lạc. 

Theo cách làm như vậy, họ đã có trong tay nguồn dữ liệu “thô” đầu vào hết sức phong phú, tuy nhiên đây mới chỉ là bước đi đầu tiên. Theo thạc sĩ Nguyễn Võ Thanh Hoàng, một thành viên chủ chốt của nhóm nghiên cứu và là tác giả thứ nhất công trình “VIETHERB: A Database for Vietnamese Herbal Species”, thì ở bước tiếp theo “nhóm tiến hành sàng lọc, đối chiếu thống tin giữa các tài liệu với nhau cũng như với các cơ sở dữ liệu của nước ngoài, qua đó rút trích những đặc trưng chung”. Việc làm này rất phức tạp bởi “như công việc xử lý ở bao cơ sở dữ liệu về thực vật, dược liệu khác, việc không thống nhất về tên gọi theo vùng miền, tên khoa học, hoặc các đặc trưng về hình thái là một trong những thách thức lớn nhất trong quá trình chuẩn hóa dữ liệu”, Thanh Hoàng giải thích.

Để giải quyết thách thức này, nhóm nghiên cứu của PGS. TS Lê Thị Lý đã mất tới phân nửa thời gian thực hiện dự án với sự hỗ trợ của một đội ngũ từ nhiều sinh viên cùng với các học viên cao học. ‘Với mỗi cơ sở dữ liệu tương tự trên thế giới, việc tập hợp và xử lý thông tin đòi hỏi một lượng nhân lực lớn hơn và một quá trình dài hơn nhưng các bạn trong nhóm đã nỗ lực trong việc sắp xếp công việc khoa học để hoàn tất công việc này”, PGS. TS Lê Thị Lý chia sẻ một cách tự hào về các thành viên. Nhờ vậy, “thông tin của VIETHERB đã được cập nhật về danh pháp khoa học, và các thông tin về hóa thực vật của các loại cây so với bản in giấy lấy tham chiếu từ các cơ sở dữ liệu lớn”, Thanh Hoàng cho biết.

 

Khoa học máy tính giúp giải quyết bài toán dữ liệu

 

Một trong những mục tiêu của nhóm nghiên cứu là tạo ra một nền tảng online phù hợp, đủ khả năng xử lý một lượng thông tin lớn, đa dạng, nhiều mối quan hệ nhằm tạo điều kiện cho người truy cập có thể tìm kiếm nhanh, thuận lợi và thủ pháp đơn giản. Đây chính là điểm yếu của nhiều cơ sở dữ liệu dược liệu nói riêng và các cơ sở dữ liệu khác ở Việt Nam nói chung. Theo cách đó thì VIETHERB cần được xây dựng trên một cấu trúc “thông minh” với nhiều thuật toán nền tảng phục vụ cho các bài toán thu thập, đánh chỉ số, xếp hạng dữ liệu khi có truy vấn.

Với VIETHERB, nhóm nghiên cứu có thêm bài toán thứ hai về thiết kế và cấu trúc, vốn được coi là ẩn chứa thách thức không kém việc thu thập và xử lý dữ liệu đầu vào. Để có được giải pháp tối ưu cho mình, nhóm nghiên cứu đã tham khảo và học hỏi cách xây dựng của các cơ sở dữ liệu quốc tế. “Việc tham khảo này giúp chúng tôi có cái nhìn tổng quát hơn về việc sắp xếp các thông tin và hình thức trình bày để người xem có thể dễ dàng tra cứu và sử dụng tùy vào các mục đích khác nhau”, Thanh Hoàng cho biết.

Việc tham khảo các cơ sở dữ liệu lớn đã giúp họ định hình được bộ khung của VIETHERB, đó là cấu trúc trên cơ sở ontology – một nền tảng lưu trữ dữ liệu được phân chia theo các cấp độ giúp cho việc quản lý thông tin và phân lớp thông tin hiệu quả hơn, do các nhà khoa học máy tính trường Đại học Stanford phát triển. “Ontology là khái niệm không mới nhưng hiệu quả đối với nhu cầu và mục đích của VIETHERB”, Thanh Hoàng giải thích về lựa chọn này. Bên cạnh đó, việc thiết lập một số kỹ thuật khác như Java và MySQL, phép phân tích thành phần chính (principal component analysis) giúp hỗ trợ các mục đích truy vấn cho mỗi mục tiêu cụ thể và đánh giá sự phân bố của số hợp chất được ghi nhận so sánh với số lượng thực vật được định danh.

Điểm thuận lợi lớn nhất mà nhóm có được là sự tư vấn của giáo sư Hiroshi Motoda (trường Đại học Osaka Nhật Bản), một chuyên gia hàng đầu thế giới về khoa học máy tính và trí tuệ nhân tạo 2. “Những tư vấn dựa trên sự hiểu biết rất rộng và kinh nghiệm nghiên cứu nhiều năm của ông đã giúp chúng tôi tránh được những lỗi có thể mắc và rút ngắn được thời gian xử lý dữ liệu cũng như cấu trúc VIETHERB”, PGS. TS Lê Thị Lý nhấn mạnh đến hỗ trợ đáng giá này với nhóm nghiên cứu.      

Do đó, VIETHERB trên địa chỉ vietherb.com.vn không đơn thuần là một “kho lưu trữ” thông tin thảo dược, cây thuốc thông thường mà còn là một nền tảng thông minh, thú vị với giao diện thân thiện và các thư mục được sắp xếp một cách khoa học. Với “hình hài” như vậy, VIETHERB tạo cho người truy cập cảm giác thoải mái và hứng thú mỗi khi thực hiện các thao tác tìm kiếm. Nếu nhấp chuột vào hạng mục “cây thuốc, thảo dược”, cửa sổ biểu thị một loạt thông tin mang tính cơ bản về “tên khoa học”, “tên Việt Nam”, “họ”, “loài”, “hình ảnh mô tả”. Ví dụ như khi gõ thông tin về đậu bắp, một loài cây được trồng khắp Việt Nam, đặc biệt là miền Nam, có quả được dùng như một loại rau xanh, một cửa sổ mở ra cho chúng ta biết đậu bắp có tên khoa học là Abelmoschus Esculentus, thuộc họ Malvaceae, loài Abelmoschus. Với cú nhấp chuột thứ hai, một cửa số tiếp theo cho chúng ta biết những đặc điểm hình thái chi tiết về hoa, thân, lá, quả. Nếu quan tâm đến các hoạt chất đã được nhận diện ở cây đậu bắp, chúng ta nhấp chuột vào thư mục “Các chất chuyển hóa” và thêm một cửa sổ mới với thông tin về 11 hoạt chất với tên được đánh số đi kèm với cấu trúc hóa học từng hoạt chất, địa chỉ nguồn trích dẫn, những cây thuốc liên quan…

Một chu trình tìm kiếm tương tự như vậy sẽ tiếp tục nếu người truy cập tìm hiểu các loài cây khác, hoặc theo tiêu chí thông tin khác. Tất cả được liên kết chặt chẽ với nhau nhưng thông tin truy xuất không bị rối và bất cứ lúc nào cũng có thể hữu ích cho những người tìm kiếm đơn thuần do tò mò về một loại cây thuốc cho đến những nhà nghiên cứu ngành dược, hóa dược, thực vật học… muốn tìm hiểu chuyên sâu về một loại hoạt chất, một phương thức điều trị… “Đó chính là lợi thế mà khoa học máy tính có thể mang lại”, PGS. TS Lê Thị Lý nói. “Nhờ vậy, chúng ta đã có một cơ sở dữ liệu cho các cây thuốc Việt Nam trong thời đại Big data với những công cụ của khoa học máy tính, khai phá dữ liệu hoàn toàn mới”.

Mặt khác, về lâu dài, VIETHERB có thể được mở rộng và bổ sung thông tin. Đó chính là ưu điểm của một cơ sở dữ liệu như VIETHERB so với tài liệu giấy, “việc cập nhật thông tin và điều chỉnh thông tin không tốn quá nhiều chi phí, nhân sự, và thời gian so với việc biên tập lại một tài liệu giấy”, Thanh Hoàng nói.

 

Những cơ hội kết nối và nghiên cứu

 

Trong năm năm thực hiện dự án nhiều tham vọng như VIETHERB, có nhiều điểm mà chỉ người trong cuộc mới nhận ra và thấm thía. Nó vượt qua những thông tin mang tính cảm nhận ban đầu. “Trước đây, tôi cũng biết Việt Nam là quốc gia nhiệt đới với sự đa dạng sinh học vào top 20 thế giới và có tỷ lệ các loài thực vật đặc hữu cao nhưng khi tiến hành chuẩn hóa, tổ chức dữ liệu, tôi thực sự cảm thấy choáng ngợp và thú vị với những thông tin mình tìm thấy”, Thanh Hoàng nói và cho biết thêm, có tới 1698 loài thực vật, tức là chiếm 56,24% loài đã được định danh trong cơ sở dữ liệu VIETHERB, không có sẵn trong bất kỳ cơ sở dữ liệu chuyển hóa thực vật hiện tại. Vậy thông tin này nói lên điều gì? “Nó cho thấy ở Việt Nam có nhiều loài thực vật đặc hữu, chưa có nhiều nghiên cứu về chúng cũng như chưa nhiều thông tin về các hợp chất tự nhiên của chúng”.


Bản đồ phân bố các loài thảo dược.

Ít được nghiên cứu, những cây thuốc đặc hữu của Việt Nam như những kho báu còn nép mình dưới tán rừng già và chưa được khai phá, ngoại trừ việc tồn tại trong các phương thuốc dân gian. Không chỉ chưa có đủ bằng chứng khoa học để làm cơ sở cho những biện pháp điều trị hiện đại mà đáng tiếc hơn, trên thế giới còn chưa có nhiều người biết đến sự tồn tại của một nền y học cổ truyền “Nam dược trị Nam nhân” (Thuốc nam chữa trị cho người Việt). “Hầu hết mọi người vẫn cho rằng, các cây thuốc Việt Nam cũng tương tự như Trung Quốc, không có sự khác biệt và do đó, việc sử dụng các cây thuốc này của các lương y Việt Nam cũng sao chép cách làm của các đồng nghiệp Trung Quốc. Tuy nhiên, công trình của chúng tôi đã cho thấy đây là một cách hiểu sai lầm”, PGS. TS Lê Thị Lý nhận xét.

Theo quan điểm của chị, những điểm còn khuyết thiếu về các cây thuốc Việt Nam mà VIETHERB chia sẻ “sẽ tạo động lực cho các nghiên cứu sâu hơn trong tương lai về hóa thực vật, qua đó góp phần tìm ra nhiều loại thực vật có khả năng chữa bệnh hoặc các nhóm hợp chất có hoạt tính sinh học hữu ích trong điều trị các bệnh hiểm nghèo như ung thư…” Nhìn rộng ra, những gợi ý như thế có thể đem đến những hợp tác nghiên cứu liên ngành giữa các nhà nghiên cứu Việt Nam hoặc giữa Việt Nam với quốc tế để giải quyết những vấn đề lớn. “Tôi nghĩ điều này là hoàn toàn có thể, ví dụ nghiên cứu về metabolomics để tìm hiểu về các hoạt chất chuyển hóa được tổng hợp trong các cơ thể sống như tế bào, mô…, chính là một trong những xu hướng mà nhiều trung tâm nghiên cứu thực vật, công nghệ sinh học đang theo đuổi. Vì nghĩ đến những cơ hội này mà chúng tôi đã áp dụng cả ngôn ngữ Việt và Anh cho VIETHERB”, chị cho biết. “Và sau khi có một cơ sở dữ liệu về dược liệu bằng tiếng Anh xuất hiện, nhiều nhà khoa học trên thế giới, đặc biệt là châu Á, đã liên lạc với tôi để tìm hiểu và đề nghị cộng tác”.

Trước khi có được những cơ hội kết nối nghiên cứu như vậy, VIETHERB cần được bổ sung và cập nhật rất nhiều thông tin. Là một người cầu toàn và luôn đặt cho mình những cái mục tiêu cao hơn để vượt qua, PGS. TS Lê Thị Lý không ngần ngại “phê” những thành công bước đầu: “Những gì mà nhóm VIETHERB làm được vẫn còn ở mức thấp so với kỳ vọng của mình. Hiện nhóm mới chỉ xây dựng được cơ sở dữ liệu nền về hình thái, phân bố, hoạt chất, dược tính của các cây thuốc trong khi muốn đưa được nguồn dữ liệu quý này vào sử dụng đại trà thì vẫn cần rất nhiều nỗ lực hoàn thiện hơn về nội dung và xây dựng các ứng dụng trên nền dữ liệu ấy. Về lâu dài, tôi hi vọng VIETHERB sẽ giúp người Việt hiểu và dùng thuốc Nam nhiều hơn, cũng như mở ra cho Việt Nam cơ hội phát triển các vùng dược liệu”.

Với mong muốn đó, câu chuyện về VIETHERB sẽ không dừng lại ở những gì đã có. “Chúng ta cần tiếp tục phát triển cơ sở dữ liệu này để phục vụ tốt cho việc tra cứu, khám chữa bệnh, nghiên cứu phát triển tân dược từ dược liệu, cũng như việc xây dựng các vùng dược liệu chiến lược ở các địa phương phục vụ nhu cầu trong nước và xuất khẩu. Nguồn tài trợ ban đầu của Quỹ Nghiên cứu Không Quân Hoa Kỳ ở châu Á (AOARD) chỉ đủ để xây dựng cơ sở dữ liệu nền, VIETHERB cần được đầu tư thực sự để phát huy tiền năng của nền y học cổ truyền và nguồn dược liệu phong phú mà Việt Nam đang bị mai một dần”, đây là điều mà PGS. TS Lê Thị Lý luôn băn khoăn sau khi hoàn thiện giai đoạn đầu của dự án.

Tuy nhiên, điều mà chị cảm thấy hài lòng nhất là với dự án VIETHERB, nhiều thành viên đã cảm thấy yêu và gắn bó với khoa học. “Việc xây dựng cơ sở dữ liệu song ngữ Anh Việt tốn khá nhiều thời gian và công sức nhưng may mắn là các bạn sinh viên của Đại học Quốc tế có vốn tiếng Anh và tinh thần làm việc nhóm rất tốt. Nhiều thành viên của dự án hiện đã ra nước ngoài làm nghiên cứu sinh ở Úc, châu Âu, New Zealand…, một bạn làm giám đốc kỹ thuật của một công ty về công nghệ sinh học. Nhìn chung, các em trưởng thành hơn nhiều sau dự án và tôi rất tự hào về họ”, PGS. TS Lê Thị Lý mỉm cười. “Rất có thể trong tương lai, họ sẽ trở về xây dựng VIETHERB như đúng quy mô và tầm vóc của nó, tại sao lại không hi vọng chứ?”.

1. https://pubs.acs.org/doi/10.1021/acs.jcim.8b00399

2. http://www.ar.sanken.osaka-u.ac.jp/~motoda/motopreg.html

VIETHERB đã tập hợp được 2881 loài thực vật, 10.887 chất chuyển hóa, 458 địa điểm địa lý, 8.046 tác dụng điều trị cổ truyền đồng thời thiết lập được số liệu về các mối liên hệ nhị phân (binary relationship) giữa loài – chất chuyển hóa (17.602), loài – hiệu quả điều trị (2.718), loài – hình thái (11.943), loài – phân bố (16.089). “Nếu xuất bản theo phương thức sách giấy truyền thống, cơ sở dữ liệu này sẽ tương đương với rất nhiều tập sách dày mà một người bình thường khó lòng đọc hết trong một thời gian ngắn và vì thế việc tìm kiết thông tin về dược liệu sẽ tốn rất nhiều thời gian”, PGS. TS Lê Thị Lý nhận xét.

Tác giả