Học máy tìm đột biến trong các trình tự hệ gene tương đồng của các mẫu ung thư

Một nhóm các nhà nghiên cứu làm việc tại Viện nghiên cứu Francis Crick đã phát triển một cách để tìm các đột biến trong nhũng vùng của hệ gene tương đồng của các mẫu ung thư.

Trong công bố của họ trên tạp chí Nature Biotechnology “A pan-cancer landscape of somatic mutations in non-unique regions of the human genome”, nhóm nghiên cứu đã miêu tả việc sử dụng một thuật toán học máy để điểm những đột biến ung thư trong các phần của hệ gene.

Như một phần trong lịch sử tiến hóa của con người, các phần của hệ gene đã trải qua những lần tái sắp xếp và trong một số trường hợp, lại được nhân lên. Khi tìm kiếm các đột biến, người ta thấy rằng càng nhiều lần sao chép như vậy càng có điều kiện gây ra vấn đề. Các phương pháp quét hiện tại có thể chỉ ra những chuỗi ngắn được nhận diện nhưng không rõ ràng, điều đó có nghĩa là các phần của hệ gene này tương đồng với các phần của hệ gene khác nhưng chưa từng được đề cập đến – và có nghĩa là bất cứ đột biến nào cũng sẽ có khả năng bị mất. Trong nỗ lực mới, các nhà nghiên cứu đã phát triển một cách để tìm kiếm những đột biến ở những phần không rõ ràng của hệ gene.

Cách tiếp cận này bao gồm việc phát triển một danh sách các vùng của hệ gene đã biết tương đồng với những vùng khác, sau đó sử dụng chúng để dạy một thuật toán học máy cách ghi nhận chúng. Các nhà nghiên cứu đã sử dụng thuật toán này để điểm những đột biến ở những vùng mô khác nhau – 2.658 mẫu của bộ dữ liệu Phân tích ung thư của toàn bộ hệ gene. Họ đã tái khám phá các đột biến trong 1.744 chuỗi mã hóa cùng với hàng ngàn đột biến trong các chuỗi không rõ ràng. Họ thấy tỉ lệ sai của thuật toán này chỉ ở mức 7% và đánh giá được hơn 80%.

Các nhà nghiên cứu lưu ý là những đột biến đó bao gồm cả các chuỗi mã hóa có tác động lên chuỗi protein, một số trong đó liên quan đến nhiều loại ung thư, đồng thời khoảng cách giữa các đột biến dẫn đến sự thay đổi của protein, cũng liên quan đến những loại ung thư cụ thể, ví dụ họ tìm thấy một đột biến tái hồi trong các gene KMT2C và PIK3CA hay những đột biến liên quan đến ung thư vú, hoặc các đột biến có trong các vùng điều hành, bao gồm một số ở các phân tử immunoglobulin.

Các nhà nghiên cứu đã đề xuất là kỹ thuật của mình có thể hữu dụng với những nhóm nghiên cứu khác trong việc để khắc phục các vấn đề như bỏ sót các đột biến trong các vùng gene gần trùng lặp.

Anh Vũ tổng hợp

Nguồn: https://phys.org/news/2021-07-machine-learning-mutations-similar-genome-sequences.html

https://newatlas.com/medical/novel-test-brain-cancer-dna-mutations-blood-urine/

Tác giả

(Visited 1 times, 1 visits today)