Học máy dò những virus khó nắm bắt

Trí tuệ nhân tạo có thể thúc đẩy các nghiên cứu về đa hệ gene để tìm kiếm những loài virus còn chưa được biết đến trong khoa học.

Trong một cuộc họp của Bộ Năng lượng Mỹ (DOE) tổ chức vào ngày 15/3/2018, một báo cáo đã cho thấy, bằng việc sử dụng một công cụ mới được thiết kế, các nhà khoa học đã khám phá ra gần 6.000 loài virus còn chưa được biết đến trước đây, một hệ sinh thái vô cùng lớn của các loài virus trên trái đất.

Dẫu cho các virus ảnh hưởng đến tất cả các khía cạnh trong đời sống từ sức khỏe con người đến phân hủy rác thải nhưng việc nghiên cứu về chúng gặp phải rất nhiều khó khăn. Các nhà nghiên cứu không thể nuôi cấy phần lớn các loài virus trong phòng thí nghiệm và do đó nỗ lực để nhận diện các kết quả giải trình tự gene virus cũng khó khăn bởi các hệ gene của chúng vô cùng nhỏ nhưng lại tiến hóa rất nhanh.

Trong những năm gần đây, các nhà nghiên cứu đã săn tìm những loài virus còn chưa được biết đến bằng việc giải trình tự DNA trong các mẫu vật được lấy từ nhiều môi trường sống khác nhau. Để nhận biết được sự hiện diện của các vi sinh vật, các nhà nghiên cứu đã tìm kiếm những tín hiệu về gene của những loài vi khuẩn và vi trùng đã biết –  giống như việc nhấn chức năng tìm kiếm của hệ xử lý văn bản để tìm một từ trong các tập tài liệu riêng rẽ của một bộ tài liệu. Nhưng phương pháp này thường thất bại bởi vì các nhà vi trùng học không thể tìm kiếm những gì mà anh ta chưa biết. Hiện tại, dường như người ta có thể “trông cậy” vào học máy (machine learning) – một hình thức của  trí tuệ nhân tạo (AI), bởi vì học máy có thể tìm kiếm những mẫu hình nổi bật trong hàng núi thông tin. Các thuật tính học máy phân tích dữ liệu, “học” từ dữ liệu và sau đó tự phân loại thông tin.  

Jie Ren, một nhà sinh học máy tính tại trường đại học Nam California ở Los Angeles, cho biết: “Trước đây, con người không có phương pháp nào để nghiên cứu về các loại virus một cách hiệu quả. Nhưng hiện tại chúng tôi đã có những công cụ để tìm ra chúng”.

Với những nghiên cứu gần nhất, Simon Roux, một nhà sinh học máy tính khác tại Viện nghiên cứu liên hợp hệ gene DOE (JGI) tại Walnut Creek, California, đã “huấn luyện” cho các máy tính khả năng nhận diện các kết quả trình tự gene của các loại virus từ một họ virus hiếm là Inoviridae. Các loài virus này sống trong các vi khuẩn và lựa chọn hành vi của vật chủ: ví dụ, chúng khiến các vi khuẩn trở thành tác nhân gây bệnh tả – Vibrio cholerae, có nhiều khả năng dẫn đến tử vong. Nhưng Roux, người trình bày báo cáo trong cuộc họp của DOE, ước lượng rằng, ít nhất có 100 loài đã được phát hiện trước khi ông bắt đầu nghiên cứu.

Roux đã trình bày một thuật toán học máy với hai bộ dữ liệu – một bộ chứa 805 giải trình tự hệ gene từ  virus Inoviridae đã biết, một bộ khác gồm khoảng 2.000 kết quả trình tự gene từ các vi khuẩn và những loại virus khác – vì vậy thuật toán này có thể tìm thấy nhiều cách phân biệt chúng. 

Sau đó, Roux đã nuôi các bộ dữ liệu đa hệ gene lớn. Máy tính đã phục hồi hơn 10.000 hệ gene Inoviridae và đưa chúng vào các nhóm theo đặc điểm của những loài riêng biệt. Ông giải thích, các biến dị di truyền trong một vài nhóm virus trong số này cũng rất lớn bởi hầu như chắc chắn là Inoviridae gồm rất nhiều họ.

Học hỏi về virus

Trong một nghiên cứu khác, Deyvid Amgarten- nhà tin sinh học tại trường đại học của São Paulo tại Brazil, đã dùng học máy để tìm kiếm virus trong các đám rác ủ trong vườn bách thú của thành phố.

Ông đã lập trình thuật toán của mình để tìm kiếm một số đặc trưng khu biệt của các hệ gene virus, như mật độ của các gene trong một đoạn trình tự DNA có độ dài nhất định . Sau khi được huấn luyện, bằng cách phân tích lại các hệ gen đã công bố trước đó, máy tính phát hiện ra một số hệ gen virus có những đặc tính mới. Bước cuối cùng là sẽ nghiên cứu các protein do các loài virus này sản xuất ra và quan sát xem liệu loại nào trong số chúng có thể gia tăng tốc độ phân hủy vật chất hữu cơ. “Chúng tôi muốn cải tiến hiệu suất phân hủy [của các virus]”, ông cho biết.

 Amgarten đã đặt kỳ vọng vào công cụ học máy từ năm ngoái, mang tên VirFider, từ nhóm nghiên cứu của Ren. VirFinder được lập trình để nhận biết sự kết hợp của các ký hiệu DNA như AT hoặc CG trong các bó DNA. Ren đã ứng dụng thuật toán này để tìm hiểu các mẫu vật chứa đa hệ gene từ chất thải của người khỏe mạnh và những người bị chứng xơ gan – một căn bệnh do nhiều nguyên nhân gây ra: từ viêm gan đến nghiện rượu mãn tính.Một khi máy đã phân loại được các nhóm virus trong những mẫu thử này, nhóm nghiên cứu nhận biết được những kiểu gene riêng biệt có nhiều hoặc ít điểm chung hơn của người khỏe mạnh so với người bị xơ gan – điều đó đề xuất một số loại virus có thể là một phần [của nguyên nhân] dẫn đến bệnh.

Phát hiện của Ren thật thách thức: các nhà y sinh từ lâu đã tự hỏi là liệu các con virus “đóng góp” gì tới các biểu hiện của phần lớn các điều kiện [phát bệnh] riêng biệt, như chứng mệt mỏi mãn tính (chronic fatigue syndrome hay còn gọi là myalgic encephalomyelitis) và bệnh viêm ruột (inflammatory bowel disease). Derya Unutmaz, một nhà miễn dịch học tại Phòng thí nghiệm Jackson về dược học hệ gene ở Farmington, Connecticut, đã biện luận rằng các virus có thể làm gây ra một loại phản ứng dẫn đến khả năng viêm nhiễm – hoặc chúng có thể làm biến đổi tập tính của vi khuẩn trong microbiome – cộng đồng vi sinh vật đang tồn tại trong cơ thể mỗi người, do đó tác động trở lại và gây mất ổn định sự trao đổi chất và hệ thống miễn dịch [trong cơ thể].

Unutmaz cho biết, với sự hỗ trợ của học máy, các nhà nghiên cứu có thể nhận biết được các virus vẫn tồn tại trong bệnh nhân nhưng còn chưa được biết đến. Hơn nữa, vì AI có khả năng tìm kiếm các đặc trưng dữ liệu trong các bộ dữ liệu khổng lồ nên cách tiếp cận này có thể kết nối các đặc trưng đó giữa các loài khác nhau từ virus đến vi khuẩn, và cả sự thay đổi protein ở người với các triệu chứng do chúng gâyr a.

Học máy có thể tiết lộ thêm nhiều kiến thức mà thậm chí chúng tôi còn chưa từng biết đến”, ông nói.

Thanh Nhàn dịch

TS. Nguyễn Cường (Trung tâm Nghiên cứu tế bào gốc và công nghệ gene, Bệnh viện đa khoa quốc tế Vimec) hiệu đính

Nguồn: https://www.nature.com/articles/d41586-018-03358-3

Tác giả