Học máy khám khá “các gene quan trọng” trong y học và nông nghiệp
Học máy có thể điểm ra “những gene quan trọng” có thể giúp đem về những mùa bội thu dù không cần nhiều phân bón, theo một nghiên cứu mới xuất bản trên tạp chí Nature Communications. Nó cũng có thể dự đoán những đặc tính của cây trồng và bệnh tật của các loài vật, xác định được những ứng dụng vượt ngoài phạm vi nông nghiệp.
Sử dụng dữ liệu hệ gene để dự đoán các kết quả có thể đạt được trong nông nghiệp và y học là sự thách thức lẫn hứa hẹn với các hệ thống sinh học. Các nhà nghiên cứu đã tập trung vào tìm hiểu để xác định cách sử dụng một lượng lớn dữ liệu hệ gene sẵn có để dự đoán cách các cơ quan sinh học phản hồi những thay đổi về dinh dưỡng, độc tố và sự phơi nhiễm mầm bệnh – vốn có thể đưa đến việc cải thiện vụ mùa, dự đoán bệnh tật, miễn dịch và y tế công cộng. Tuy nhiên, việc dự đoán một cách chính xác nhiều kết quả phức tạp trong nông nghiệp và y học từ thông tin hệ gene ở quy mô lớn vẫn còn là một thách thức khó vượt qua.
Trong công trình xuất bản trên Nature Communications “Evolutionarily informed machine learning enhances the power of predictive gene-to-phenotype relationships” (Học máy có khả năng đem lại thông tin mang tinh cách mạng làm tăng cường dự đoán các mối quan hệ kiểu gene đến kiểu hình”, các nhà nghiên cứu NYU và cộng sự ở Mỹ, Đài Loan đã giải quyết thách thức này bằng cách sử dụng học máy, một dạng của trí tuệ nhân tạo để dò các mẫu hình trong dữ liệu 1.
“Chúng tôi đã chứng tỏ rằng việc tập trung vào những gene có biểu hiện các mẫu hình có khả năng bảo tồn khắp các loài mang tính hỗ trợ khả năng của chúng tôi trong việc học và dự đoán “các gene quan trọng” trong việc tăng trưởng hiệu suất cho các mùa vụ chính, cũng như bệnh dịch với loài vật”, Gloria Coruzzi, giáo sư danh hiệu Carroll & Milton Petrie tại Khoa Sinh học và Trung tâm Hệ gene và Sinh học hệ thống NYU cũng như tác giả liên hệ của công trình, nói.
“Cách tiếp cận của chúng tôi là khai thác những biến thể tự nhiên của biểu hiện rộng khắp trong hệ gene là liên hệ với các kiểu hình bên trong hoặc khắp các loài”, Chia-Yi Cheng của Trung tâm nghiên cứu Hệ gene và Sinh học hệ thống NYU và trường Đại học Đài Loan, tác giả thứ nhất của công trình, cho biết. “Chúng tôi chứng tỏ rằng việc giảm dần dữ liệu đầu vào hệ gene cho các gene có các mẫu hình biểu hiện được bảo tồn trong và giữa các loài là một cách mang tính nguyên tắc sinh học để giảm thiểu kích thước của dữ liệu hệ gene, điều này giúp cải thiện đáng kể năng lực của các mô hình học máy trong việc nhận biết những gene nào quan trọng với một đặc tính sinh học”.
Với một nguyên tắc như vậy, các nhà nghiên cứu đã chứng minh các gene phản hồi với nitrogen được bảo tồn về mặt tiến hóa giữa hai loài cây khác nhau – Arabidopsis, một thực vật có hoa nhỏ được sư dụng rộng rãi như một mô hình sinh vật trong sinh học cây trồng, và vô số giống ngô, một cây lương thực được trồng rộng rãi bậc nhất ở Mĩ – đã cải thiện một cách đáng kể năng lực của các mô hình học máy để dự đón các gene quan trọng với các loại thực vật sử dụng nitrogen hiệu quả như thế nào. Nitrogen là dưỡng chất cốt lõi cho thực vật và là hợp phần chính của phân bón; vụ mùa được bón nitrogen tăng trưởng nhanh hơn và cần ít phân bón hơn, do đó đem lại nhiều lợi ích kinh tế và môi trường.
Các nhà nghiên cứu thực hiện thí nghiệm đã đánh giá tám loại nhân tố phiên mã chính như các gene then chốt cho việc sử dụng nitrogen hiệu quả. Họ chứng tỏ rằng, việc thay đổi biểu hiện gene trong Arabidopsis hay ngô có thể làm tăng sự tăng trưởng cây trồng trong điều kiện đất có lượng nitrogen thấp, vốn được họ kiểm tra cả trong phòng thí nghiệm của NYU và ngoài đồng ngô ở trường đại học Illinois.
“Giờ thì chúng tôi có thể dự đoán một cách chính xác ngô lai nhỉnh hơn trong việc sử dụng phân bón nitrogen trong trồng trọt, chúng tôi có thể cải thiện một cách nhanh hơn đặc tính này. Gia tăng việc sử dụng hiệu quả của nitrogen trong ngô và những vụ mùa khác cho thấy ba lợi ích chính là giảm chi phí đầu tư của nông dân, giảm thiểu ô nhiễm môi trường và phát thải ít khí nhà kính từ nông nghiệp”, Stephen Moose, giáo sư danh hiệu Alexander về khoa học nông nghiệp tại trường đại học Illinois tại Urbana-Champaign, nói.
Các nhà nghiên cứu đã chứng tỏ rằng, cách tiếp cận học máy truyền thông tin mang tính cách mạng có thể áp dụng để tìm các đặc tính khác và trên nhiều loại bằng việc dự đoán các đặc tính có thêm trong thực vật, bao gồm lượng sinh khối và năng suất của cả Arabidopsis và ngô. Họ cũng chứng tỏ cách tiếp cận này có thể dự đoán được các gene then chốt với khả năng chịu han ở những vụ mùa chính như lúa gạo cũng như các loại bệnh tật của động vật thông qua nghiên cứu các mô hình chuột. “Bởi vì chúng tôi chứng tỏ hệ thông tin mang tính tiến hóa của chúng tôi cũng có thể áp dụng được trên động vật, nó nhấn mạnh vào tiềm năng phát hiện ra các gene quan trọng đối với bất kỳ đặc tính sinh lý hoặc lâm sàng nào được quan tâm trong lĩnh vực sinh học, nông nghiệp hoặc y học”, Coruzzi nói.
“Nhiều đặc tính chính của nông học hoặc lâm sàng đều rất phức tạp về mặt di truyền và cho đến giờ vẫn còn quá phức tạp để có thể kiểm soát chúng. Thành công của chúng tôi chứng tỏ là big data và việc tư duy ở cấp độ hệ thống có thể giúp giải quyết những thách thức phức tạp này”, Ying Li, Khoa Trồng trọt và kiến trúc cảnh quan tại Đại học Purdue, nhận xét.
Anh Vũ tổng hợp
Nguồn: https://phys.org/news/2021-09-machine-uncovers-genes-importance-agriculture.html
https://www.eurekalert.org/news-releases/929111
—————————
1. https://www.nature.com/articles/s41467-021-25893-w