Sử dụng cách tiếp cận mã hóa DNA để tích hợp và phân tích các dữ liệu sức khỏe khác nhau

Các nhà nghiên cứu Brazil đã sáng tạo ra công cụ tính toán sáng tạo và chỉ tốn ít thời gian khi liên kết và phân tích các cơ sở dữ liệu sức khỏe khác nhau với hàng triệu hồ sơ bệnh án của bệnh nhân.

Nền tảng Tucuxi-BLAST mã hóa sự nhận diện các hồ sơ trong một cơ sở dữ liệu như tên bệnh nhân, tên mẹ và nơi sinh, sử dụng những chữ cái tái hiện các nucleotide trong một chuỗi DNA (A, T, C hoặc G). “Sự chuyển đổi” của các cá nhân sang DNA cho phép khớp nối hồ sơ trong các cơ sở dữ liệu một cách chính xác bất chấp các lỗi in ấn và những sự thiếu nhất quán khác.

Công cụ này có thể hữu dụng trong nghiên cứu, các phân tích dịch tễ và hình thành chính sách công về sức khỏe.

Ví dụ, có thể tham chiếu chéo những người đã được tiêm vaccine ở Dịch vụ sức khỏe quốc gia Brazil (SUS) để tìm kiếm những người đã tiêm vaccine và mắc một loại bệnh cụ thể. Ngay cả nếu hồ sơ tiêm vaccine chứa những lỗi hoặc các trường thông tin chưa hoàn thiện, Tucuxi-BLAST cũng có khả năng liên kết với bệnh nhân cùng tên ở cơ sở dữ liệu khác bởi sự điều trị thiếu nhất quán. Công cụ hệ gene cần so sánh các đoạn với nhau để quyết định xem chúng tương đồng nhau hơn khác nhau và liệu có liên kết các cặp base được truy vấn không. Nếu mỗi phản hồi tương ứng với một chuỗi hoặc các chữ cái, dữ liệu từ những nơi khác nhau có thể được tham chiếu chéo và liên kết qua công cụ này.

“SUS là một nguồn thông tin giá trị cho y học và nghiên cứu dịch tễ bởi nó lưu trữ dữ liệu sức khỏe của hàng triệu bệnh nhân. Tuy nhiên các hồ sơ liên quan đến bệnh tật và các dạng dữ liệu khác nhau được lưu trưc ở các cơ sở dữ liệu khác nhau không phai lúc nào cũng ‘trao đổi’ được với nhau. Do đó, phương pháp mà chúng tôi phát triển có thể hiệu quả với hồ sơ được liên kết chính xác và ở tốc độ rất nhanh”, Helder Nakaya, tác giả chính của bài báo về nghiên cứu này được xuất bản trên tạp chí PeerJ, sao đổi với Agência FAPESP.

Nakaya là một nhà miễn dịch học làm việc ở trường Các khoa học dược của đại học São Paulo (FCF-USP), Bệnh viện Albert Einstein Jewish (HIAE), Nền tảng khoa học Platform Pasteur-USP, và Viện nghiên cứu Todos pela Saúde. Ông cũng làm việc ở Trung tâm nghiên cứu các bệnh viêm nhiễm (CRID), một trong số những Trung tâm nghiên cứu, đổi mới sáng tạo và phổ biến (RIDCs).

Sử dụng công cụ thực hành

Trước khi bài báo này được xuất bản, Tucuxi-BLAST đã được phát triển trong thực hành. Nó hữu dụng để tham chiếu chéo dữ liệu bốn năm từ Hệ thống Giám sát bệnh sốt rét của Bộ Y tế Brazil với dữ liệu lâm sàng của Quỹ y học nhiệt đới tiến sĩ Heitor Vieira Dourado (ở Manaus, bang Amazonas), một nhánh của Quỹ Oswaldo Cruz (Fiocruz), một cơ quan trực thuộc Bộ Y tế Brazil.

Kết quả cho thấy, người dương tính với HIV có nguy cơ rủi ro khi mắc bệnh sốt rét do ký sinh trùng đơn bào Plasmodium vivax gây ra, khiến đem đến một thách thức nữa cho chính sách sức khỏe công cộng. Do thiếu những nhận diện đơn lẻ cho trước, Tucuxi-BLAST sử dụng tên bệnh nhân, tên mẹ và ngày sinh để tìm kiếm. Phát hiện này đã được miêu tả trong một bài báo xuất bản vào tháng 5/2022 trên tạp chí Scientific Reports 1.

Nghiên cứu này do các nhà nghiên cứu tại trường đại học bang Amazona (UEA). Nakaya và José Deney Alves Araújo của FCF-USP, tác giả đầu tiên của bài báo trên PeerJ 2. Araújo đã đặt tên cho công cụ Tucuxi để ghi nhớ Sotalia fluviatilis, một loài cá heo nước ngọt sống tại các dòng sông ở đồng bằng Amazon. Còn BLAST (Công cụ tìm kiếm liên kết cục bộ cơ bản) liên quan đến bộ một các chương trình vẫn được sử dụng trong tin sinh học để tạo ra những liên kết giữa các nucleotide hoặc các dãy protein khắp các cơ sở dữ liệu lớn.

Nó làm việc như thế nào

Để phát triển phương pháp mới, các nhà khoa học đã chuyển dữ liệu bệnh nhân thành các chuỗi DNA bằng việc sử dụng một bánh xe mã di truyền codon thay đổi về mặt động năng trong những lần chạy khác nhau mà không giảm hiệu quả của quá trình này. Các codon là những chuỗi gồm ba nucleotide được mã hóa bằng một amino acid cụ thể trong một phân tử DNA hoặc RNA. Các bánh xe codon hữu dụng để nhận diện ra các amino acid được mã hóa bằng bất kỳ codon DNA hay codon RNA nào.

Khung mã hóa này cho phép mật hóa dữ liệu theo thời gian thực, do đó đem đến một lớp bổ sung cho sự bảo vệ dữ liệu cá nhân trong suốt quá trình liên kết các bộ dữ liệu. “Đây là việc sử dụng DNA để mã hóa thông tin và bảo vệ quyền riêng tư”, Nakaya nói.

Các trường nhận diện mã hóa DNA được so sánh bằng BLAST, và các thuật toán học máy tự động phân loại các kết quả cuối cùng.

Vì trong hệ gene so sánh, nơi các gene từ những hệ gene khác nhau được so sánh để xác định các chuỗi chung và riêng biệt, Tucuxi-BLAST cũng cho phép sự tích hợp song song dữ liệu từ những cơ sở dữ liệu quản trị mà không cần đến quá trình tiền xử lý dữ liệu phức tạp.

Trong nghiên cứu này, nhóm nghiên cứu đã sử dụng Tucuxi-BLAST để kiểm tra sự so sánh của một cơ sở dữ liệu mô phỏng chứa 300 triệu hồ sơ cũng như bốn cơ sở dữ liệu quản trị lớn chứa dữ liệu về những trường hợp bệnh nhân thật bị lây nhiễm với các mầm bệnh khác nhau.

Kết luận rút ra là Tucuxi-BLAST đã xử lý thành công những liên kết hồ sơ ở các bộ dữ liệu lớn (200.000 hồ sơ), bất chấp những lỗi sai chính tả và những lỗi khác và những bỏ sót, trong vòng 23 giờ, chỉ bằng một phần năm thời gian so với phương pháp cũ.

Các nhà nghiên cứu đã xây dựng một trang web để những người sử dụng có thể chuyển đổi các chữ cái, các cụm từ và các tên thành DNA 3.

Nhiều quốc gia như Anh, Canada và Australia, đã khai thác nhiều sáng kiến thành công để tích hợp các cơ sở dữ liệu và phát troeenr những chiến lược phân tích dữ liệu mới, Nakaya lưu ý như vậy với mong muốn chính phủ Brazil cũng quan tâm đến việc sử dụng rộng rãi bộ công cụ này trong lĩnh vực chăm sóc sức khỏe.

Thanh Phương tổng hợp

Nguồn: https://medicalxpress.com/news/2022-10-tool-dna-encoded-approach-health-databases.html

https://www.eurekalert.org/news-releases/966828

———————————————-

1. https://www.nature.com/articles/s41598-022-13256-4

2. https://peerj.com/articles/13507/

3. https://tucuxi-translator.csbiology.org/

Tác giả

(Visited 32 times, 1 visits today)