Hơn cả AlphaFold: AI vượt trội trong việc tạo ra các protein mới

Hơn hai năm qua, học máy đã tiến hóa dự đoán cấu trúc protein. HIện tại, ba bài báo trên tạp chí “Science” miêu tả một tiến hóa tương tự trong thiết kế protein.

Trong những bài báo mới, các nhà sinh học tại trường Y Đại học Washington đã chứng tỏ là học máy có thể hữu dụng trong việc tạo ra các phân tử protein nhiều hơn và chính xác hơn nhiều so với khả năng trước đây. Các nhà khoa học hi vọng là sự tiến triển này sẽ dẫn đến nhiều loại vaccine mới, nhiều phương pháp điều trị mới và công cụ mới để bắt giữ carbon, và các vật liệu sinh học bền vững.

“Các protein là những vật liệu cơ bản trong sinh học nhưng chúng tôi biết là tất cả các loại protein tìm thấy trong các loài thực vật, động vật và vi sinh vật chỉ là một phần trăm so với những gì có thể. Với những công cụ phần mềm mới, các nhà nghiên cứu có thể tìm thấy những giải pháp để đối mạt với những thách thức tồn tại đã lâu trong y học, năng lượng và công nghệ”, tác giả chính của nghiên cứu là giáo sư sinh hóa David Baker, tại trường Y ĐH Washington và là một trong những người nhận giải thưởng Đột phá 2021 về Khoa hoc sự sống, nói.

Các protein đều được coi là “những khối cơ bản của sự sống” bởi vì chúng thiết yếu trong cấu trúc và chức năng của tất cả các hình thức sống. Chúng tiến hóa trong mọi quá trình hữu hình diễn ra bên trong các tế bào, bao gồm sự tăng trưởng, phân chia và sửa chữa. Các protein tạo nên các chuỗi dài hóa học gọi là các amino acids. Trình tự amino acids trong một protein được xác định có hình dạng ba chiều. Hình dạng phức tạp này rất quan trọng cho chức năng của protein.

Gần đây, các thuật toán học máy hiệu quả bao gồm AlphaFold và RoseTTAFold đều được huấn luyện để dự đoán các hình dạng chi tiết của các protein trong tự nhiên trên cơ sở các chuỗi amino acid của chúng. Học máy là một dạng của trí tuệ nhân tạo cho phép các máy tính học hỏi từ dữ liệu mà không cần được lập trình một cách cụ thể. Học máy có thể hữu dụng để mô hình hóa các bài toán khoa học phức hợp, vốn được coi là quá phức khó để con người có thể hiểu được.

Vượt qua các protein tìm thấy trong tự nhiên, nhóm của Baker đã phá vỡ thách thức thiết kế cho mỗi phần.

Đầu tiên, một hình dạng protein mới phải được tạo ra. Trong một bài báo xuất bản vào ngày 21/7 tại tạp chí Science, nhóm nghiên cứu đã chứng tỏ là trí tuệ nhân tạo có thể tạo ra các hình dạng protein mới theo hai cách. Thứ nhất là “ảo giác”, tương tự như cách DALL-E hay các công cụ AI khác tạo ra kết quả dựa trên những gợi ý đơn giản; thứ hai gọi là “tái tạo” tương tự như đặc điểm hoàn thành tự động trong các thanh tìm kiếm hiện đại.

Thứ hai, để tăng tốc quá trình này, nhóm đã viết một thuật toán mới để tạo ra các trình tự amino acid. Miêu tả trong bài báo xuất bản vào ngày 15/9 trên Science, công cụ phần mềm có tên gọi ProteinMPNN chạy trong vòng một giây, nhanh hơn 200 lần so với phần mềm tốt nhất trước đây. Kết quả của nó vượt trội so với những công cụ trước đây và phần mềm không đòi hỏi chuyên gia phải tùy chỉnh để vận hành.

“Các mạng thần kinh đều dễ dàng huấn luyện nếu anh có một lượng dữ liệu khổng lồ nhưng với protein, chúng tôi không có nhiều ví dụ như chúng tôi ao ước. Chúng tôi phải tìm và nhận diện những đặc điểm nào trong các phân tử đó là quan trọng nhất. Đó quả là quá trình thử và sai”, Justas Dauparas, một postdoct tại Viện Thiết kế Protein, nói.

Thứ ba, nhóm nghiên cứu sử dụng AlphaFold, một công cụ do Alphabet’s DeepMind, phát triển để đánh giá một cách độc lập xem liệu các trình tự amino acid mà họ tạo ra có gập theo những hình dạng được mong đợi hay không.

“Phần mềm dự đoán các cấu trúc protein là một phần của giải pháp nhưng không thể tự mình mang đến cái mới”, Dauparas giải thích.

“ProteinMPNN là thiết kế protein mà AlphaFold đã dự đoán cấu trúc”, Baker cho biết thêm.

Trong công trình khác xuất hiện trên Science vào ngày 15/9, một nhóm nghiên cứu từ Phòng thí nghiệm của Baker xác nhận là sự kết hợp các công cụ học máy mới có thể tạo ra trong phòng thí nghiệm các protein mới mang chức năng.

“Chúng tôi tìm thấy là các protein được tạo ra bằng ProteinMPNN dường như gập theo dự kiến nhiều hơn và chúng tôi có thể tạo ra các tổ hợp protein phức tạp bằng các phương pháp này”, Basile Wicky, một postdoct tại Viện Thiết kế Protein, nói.

Trong số những protein mới được tạo ra là các vòng ở kích thước nano mà các nhà nghiên cứu tin là có thể trở thành thành phần của các cỗ máy nano thương mại. Kính hiển vi điện tử đã được họ dùng để quan sát các vòng này với kích thước một tỉ lần nhỏ hơn một hạt cây poppy.

“Đây mới là điểm bắt đầu của học máy trong thiết kế protein. Trong những tháng tới, chúng tôi sẽ nghiên cứu để cải thiện các công cụ này để tạo ra những protein có chức năng và động lực hơn”, Baker nói.

Các nguồn lực máy tính dành cho công trình này do Microsoft và Amazon đóng góp.

Thanh Hương tổng hợp

Nguồn: https://phys.org/news/2022-09-alphafold-ai-excels-proteins.html

https://www.technologyreview.com/2022/09/15/1059550/an-ai-that-can-design-new-proteins-could-help-unlock-new-cures-and-materials/

Tác giả