Sử dụng AI để dự đoán cấu trúc và chức năng của protein
Các nhà sinh học và khoa học tính toán tại Phòng thí nghiệm Quốc gia Brookhaven thuộc Bộ Năng lượng Mỹ đã cải tiến hai chương trình trí tuệ nhân tạo (AI), ban đầu do Meta xây dựng, để dự đoán hình dạng protein, từ đó có thể giúp trồng cây nhiên liệu sinh học trên đất bạc màu và bảo vệ cây khỏi các bệnh truyền nhiễm.

Mô hình kết hợp mới này, được gọi là ESMBind, có thể dự đoán cấu trúc 3D của protein để khám phá cách chúng liên kết với các kim loại dinh dưỡng như kẽm và sắt trong đất, vốn rất cần thiết cho sự sống của cây. Đây có thể là bước đầu tiên hướng tới việc biến đổi gene cây trồng nhiên liệu sinh học để phát triển trong điều kiện đất nghèo dinh dưỡng, giúp giữ lại nhiều đất đai màu mỡ hơn để trồng cây lương thực.
Protein ban đầu là những chuỗi dài các phân tử axit amin liên kết với nhau. Trước khi các phân tử này có thể thực hiện chức năng của mình trong tế bào, một chuỗi axit amin phải gấp lại, tạo ra hình dạng 3D độc đáo. Cấu trúc 3D này quyết định cách protein tương tác với các phân tử khác để thực hiện chức năng của nó bằng cách đưa các nhóm axit amin nhất định lại gần nhau.
Nhóm nghiên cứu đã bắt đầu với hai mô hình nền tảng từ Meta là ESM-IF và ESM-2 để thu thập thông tin từ trình tự và cấu trúc protein. Quy trình làm việc kết hợp này có thể dự đoán liệu một protein cụ thể có thể liên kết với một kim loại cụ thể hay không.
Các nhà khoa học thường nghiên cứu các cấu trúc protein bằng phương pháp thực nghiệm, sử dụng các cơ sở như Máy gia tốc Synchrotron Quốc gia II (NSLS-II). NSLS-II tạo ra chùm tia X siêu mạnh có thể giúp tiết lộ các cấu trúc ở cấp độ nguyên tử. Hầu hết dữ liệu cấu trúc được sử dụng để huấn luyện ESMBind đến từ các nghiên cứu tinh thể học tia X được thực hiện tại NSLS-II và các cơ sở synchrotron khác.
Mô hình ESMBind có thể đẩy nhanh quá trình nghiên cứu bởi nó là “một công cụ sàng lọc để tìm các protein liên kết với kim loại mà chúng tôi muốn nghiên cứu”, Xin Dai, nhà khoa học AI thuộc ban Khoa học Dữ liệu và Máy tính của Phòng thí nghiệm Brookhaven, giải thích. Điều này giúp giảm số lượng ứng viên protein mà các nhà nghiên cứu cần thực nghiệm.
Khi đánh giá quy trình làm việc của ESMBind, nhóm nghiên cứu nhận thấy mô hình của họ vượt trội hơn các mô hình AI khác trong việc dự đoán chính xác cấu trúc protein 3D và chức năng của chúng. Họ đặc biệt quan tâm đến cây cao lương – loại cây trồng có thể được chuyển đổi thành nhiều dạng nhiên liệu sinh học, bao gồm ethanol và than sinh học rắn. Nó có thể sinh trưởng trên đất cằn cỗi ở các vùng bán khô hạn và chịu được nhiệt độ tương đối cao.
Nghiên cứu này cũng có thể giúp bảo vệ các loại cây trồng nhiên liệu sinh học khỏi các bệnh truyền nhiễm. Các nhà khoa học đã áp dụng mô hình ESMBind để dự đoán hình dạng protein trong Colletotrichum sublineola, một loại nấm gây bệnh cho cây cao lương.
Giống như protein trong cây cao lương, protein trong nấm cũng liên kết với các kim loại cụ thể. Ở nấm, kim loại đóng vai trò kích hoạt nhiễm trùng. Bằng cách hiểu được vị trí liên kết kim loại trong protein của nấm, các nhà nghiên cứu đang tìm cách can thiệp vào khả năng lây nhiễm để bảo vệ cây cao lương khỏi bệnh tật. Họ đã xác định được khoảng 140 protein ứng viên và tạo ra các mô hình về vị trí liên kết protein-kim loại làm cơ sở cho các nghiên cứu sau này nhằm ngăn ngừa nhiễm nấm.
Trong tương lai, các nhà khoa học sẽ phát triển mô hình dựa trên ESM để thiết kế các protein có thể chiết xuất và tách các khoáng chất và vật liệu quan trọng từ các nguồn như tro mỏ, chất thải và quặng. Các phương pháp công nghiệp hiện tại để chiết xuất và tinh chế các khoáng chất này, bao gồm cả các nguyên tố đất hiếm, sử dụng hóa chất mạnh và tiêu tốn nhiều năng lượng. Việc tận dụng khả năng nội tại của protein trong việc thu giữ các khoáng chất này có thể giúp hỗ trợ chuỗi cung ứng bền vững của Hoa Kỳ.
ESMBind là một mô hình học sâu nguồn mở. Bất kỳ ai cũng có thể truy cập để tạo ra các mô hình tương tác protein-kim loại.□
Trà My lược dịch
Nguồn: https://www.bnl.gov/newsroom/news.php?a=222590
Bài đăng Tia Sáng số 18/2025