AlphaFold giúp phát hiện bí mật trong tiến hóa protein
Các nhà nghiên cứu đã sử dụng cơ sở dữ liệu AlphaFold và các thuật toán Foldseek Cluster để phân tích hàng triệu cấu trúc protein được dự đoán và đề xuất những cái nhìn mới vào sự tiến hóa của chính protein.
Bằng việc phát triển một cách hiệu quả để so sánh mọi cấu trúc protein đã được dự đoán có trong cơ sở dữ liệu AlphaFold, các nhà nghiên cứu đã tiết lộ những sự tương đồng giữa các protein của các loài khác nhau. Công trình này giúp tăng hiểu biết của chúng ta về sự tiến hóa của protein và phát hiện những thông tin mới vào nguồn gốc của các protein miễn dịch của con người.
Nghiên cứu này do Viện Tin sinh học châu Âu thuộc EMBL (EMBL-EBI), Viện nghiên cứu Sinh học các hệ thống phân tử ETH Zurich, và trường Các khoa học sinh học, ĐH Quốc gia Seoul.
Cơ sở dữ liệu AlphaFold là một nguồn quan trọng trong lĩnh vực nghiên cứu về protein, đóng vai trò như một kho lưu trữ toàn diện về các cấu trúc 3D của mọi protein đã biết do AI dự đoán. Cơ sở dữ liệu này lấp đầy khoảng trống rất lớn trong chức năng protein và sự tiến hóa của nó bằng việc đề xuất những dự đoán cấu trúc chất lượng cao. Dẫu các dự đoán AI này không phải là một thay thế cho các cấu trúc được xác định bằng thực nghiệm, chúng vẫn đem lại những cái nhìn đầy giá trị cho cộng đồng khoa học.
Trong nghiên cứu này, xuất bản trên tạp chí Nature 1, các nhà nghiên cứu đã phát triển một thuật toán mới là Foldseek Cluster có thể hữu dụng cho phân tích cùng lúc các tập hợp lớn của các cấu trúc protein. Foldseek Cluster đã được ứng dụng cho 200 triệu cấu trúc protein được dự đoán trong AlphaFold, nhận diện được hơn 2 triệu cụm cấu trúc độc đáo – các nhóm cấu trúc protein có sự tương đồng với nhau về các hình dạng ba chiều. Một phần ba những cụm này chưa từng được chú giải trước đó, nghĩa là chúng chưa từng được miêu tả hoặc phân loại trước đây.
Bắc cầu qua khoảng trống khoa học protein
Các protein tối quan trọng cho các quá trình diễn ra tại tế bào. Hiểu về cấu trúc protein là vấn đề mấu chốt để nghiên cứu về chức năng và tiến hóa của nó. Bất chấp những tiến bộ đáng kể trong các dự đoán dựa trên giải trình tự các cấu trúc protein, các giới hạn tính toán khiến rất khó để nghiên cứu các cấu trúc đó. Foldseek Cluster hiện giờ cho phép so sánh cấu trúc và xếp cụm tại một quy mô chưa từng có trước đây, qua đó làm giảm thời gian thực hiện nhiều nghiên cứu ở các cấp độ khác nhau.
“Chúng tôi mới bước vào một kỷ nguyên mới của sinh học cấu trúc, nơi các phương pháp tính toán đã mở khóa cho phép khám phá vũ trụ protein này”, Martin Steinegger, trợ lý giáo sư tại trường Các Khoa học sinh học, ĐH Quốc gia Seoul, nói. “Chúng tôi ước tính, nếu việc xếp cụm các cấu trúc với những phương pháp đã có thì có thể mất hàng thập kỷ nhưng với phương pháp mới như Foldseek Cluster thì chỉ mất năm ngày. Thuật toán của chúng tôi có thể tách hàng triệu cấu trúc protein được dự đoán trong cơ sở dữ liệu AlphaFold và xếp cặp dựa trên hình dạng các cấu trúc 3D của chúng. Sự gia tốc trong các nguồn lực tính toán không chỉ khiến cho nó trở nên nhanh hơn mà còn biến chúng trở thành có thể”.
Sự tiến hóa và miễn dịch của các protein
Nghiên cứu này cũng rọi ánh sáng mới vào những gợi ý tiến hóa của các cụm này. Phần lớn chúng đều có nguồn gốc cổ xưa, khoảng 4% dường như mang tính đặc trưng loài. Điều này đem lại những thông tin mới vào hiện tượng tiến hóa như sự sinh ra của gene de novo – khi những gene mới xuất hiện từ những vùng phi mã hóa của hệ gene. Công trình này cũng vẽ ra nhiều ví dụ về các mối quan hệ tiến hóa có thể làm giàu hiểu biết của chúng ta về chức năng của protein ở khắp các loài khác nhau, bao gồm vai trò của chúng trong hệ miễn dịch người.
“Công trình này không chỉ khiến cho các so sánh trở nên hiệu quả hơn mà còn tăng hiểu biết mới vào lịch sử tiến hóa của các protein”, Pedro Beltrao, phó giáo sư Viện nghiên cứu Sinh học các hệ thống phân tử ETH Zurich, nói. “Một trong những phát hiện thú vị nhất từ nghiên cứu này là việc chúng tôi dò ra những tương đồng cấu trúc giữa các protein miễn dịch người và những protein như thế trong vi khuẩn. Nghiên cứu của chúng tôi không chỉ làm giàu thêm hiểu biết hiện tại mà còn đặt một lộ trình cho những nghiên cứu tương lai để tìm hiểu những bí ẩn trong chức năng và tiến hóa của protein”.
Cải thiện cơ sở dữ liệu AlphaFold về mặt chức năng
Khi cơ sở dữ liệu AlphaFold và những cơ sở dữ liệu khác về khoa học sự sống tiếp tục tiếp tục tăng trưởng thì một nhu cầu bao quát toàn bộ các dữ liệu của những người sử dụng ngày một lớn hơn và nhu cầu giảm thiểu chi phí tính toán cho phân tích và quản lý dữ liệu. Các cách tiếp cận như thuật toán Foldseek Cluster, có thể nâng quy mô tới hàng tỉ tỉ cấu trúc, sẽ vô cùng giá trị trong việc giúp các nhà nghiên cứu định vị được sức mạnh của thông tin.
“Foldseek Cluster còn hơn cả một tiên tiến công nghệ; đó là một cách cải tiến nâng cao toàn bộ trải nghiệm trên AlphaFold cho các nhà khoa học trên toàn thế giới, Sameer Velankar, người phụ trách nhóm nghiên cứu tại EMBL-EBI, nói. “Với sự khám phá các cấu trúc protein đã được dự đoán mà chúng tôi có ở AFDB, việc quản lý và điều hướng những dữ liệu đó một cách hiệu quả là một thách thức đáng kể”, anh nói thêm. “Foldseek Cluster đã cách mạng hóa quá trình này. Chúng tôi đang nghiên cứu về việc tích hợp các cụm FoldSeek vào AFDB để khơi dòng phân tích các bộ dữ liệu lớn về các cấu trúc protein và khiến cho nó dễ dàng hơn với cộng đồng sử dụng để có thể tìm một cách chính xác những gì họ muốn tìm kiếm”.
Thanh Đức tổng hợp
https://www.miragenews.com/unveiling-protein-evolution-mysteries-with-1083676/
—————————————–
1. https://www.nature.com/articles/s41586-023-06510-w