Thứ tư, 4/4/2018, 08:00 (GMT+7)

Thời đại vàng của dữ liệu gene

Y học chính xác và những công nghệ, thiết bị hỗ trợ tiên tiến đã đem lại một khối lượng dữ liệu lớn về gene với quy mô ngày càng mở rộng, hứa hẹn cho chúng ta cơ hội khám phá những bí ẩn còn ẩn giấu trong bộ gene người. Tuy nhiên để làm được điều đó, chúng ta cần phải vượt qua rất nhiều rào cản trong khai thác và xử lý dữ liệu.

*Việc giải trình tự gene đem lại cho con người kho dữ liệu gene lớn. Nguồn: Mahmoud-Ahmed*

Điều đầu tiên có thể thấy, để giải trình tự được một hệ gene hoàn chỉnh thông qua dự án Giải trình tự hệ gene người (Human Genome Project), người ta đã phải đầu tư cho nghiên cứu 2,7 tỷ USD và chờ đợi 15 năm. Tuy nhiên quá trình thương mại hóa thì không chậm như vậy.

Nắm ngay lấy lợi ích mà dự án đem lại, nhiều công ty sản xuất thiết bị hoặc phát triển các kỹ thuật về giải trình tự gene đã chạy đua trong việc rút ngắn thời gian và giảm giá thành dịch vụ giải trình tự gene. Nhờ vậy giá thành loại dịch vụ đặc biệt này đã xuống tới mức "dễ chịu": nếu năm 2006, ca giải trình tự gene thương mại đầu tiên của Illumina – công ty dẫn đầu thị trường thế giới về sản xuất máy giải trình tự gene là 300.000 USD, tới năm 2017, mức giá giải trình tự gene và phân tích chỉ còn khoảng 1.400 USD, đi kèm là thời gian chạy dữ liệu cũng chỉ diễn ra vài ngày và việc phân tích đòi hỏi chừng vài tuần, theo nhận định của TS. Doug Schenkel - người phụ trách nhóm nghiên cứu về công nghệ y tế, đặc biệt là các công cụ về khoa học sự sống, của tập đoàn dịch vụ tài chính Cowen Group.

Hiện giờ, tùy theo từng nấc dịch vụ mà giá cả cũng ở mức chênh lệch, ví dụ có những nơi như 23andMe – công ty chuyên về phân tích và giải trình tự gene có trụ sở ở California, Mỹ, đưa ra mức giá xét nghiệm gene khoảng 150 bảng (tương đương khoảng 213 USD). Vì thế, không chỉ những người mắc những căn bệnh hiểm di truyền hiểm nghèo mà số lượng người khỏe mạnh tham gia xét nghiệm gene cũng tăng lên. Các chuyên gia dự đoán, vào năm 2022, số lượng hệ gene người được giải trình tự trên thế giới sẽ tăng lên 50 triệu.

Không phải chờ đến năm 2022, nguồn dữ liệu về gene người mà chúng ta hiện có trong tay đã ở mức rất lớn. Tuy nhiên, khai thác tốt những dữ liệu quý này để phục vụ cho điều trị và chăm sóc sức khỏe con người không phải là chuyện dễ, nó liên quan mật thiết đến việc quản lý, khai thác và xử lý dữ liệu gene – phần lớn những công việc này phụ thuộc vào năng lực con người hơn là máy móc, thiết bị.

Thứ nhất, dù kỹ thuật giải trình tự gene của các nhà nghiên cứu đã được cải thiện với sự hỗ trợ của các cỗ máy giải trình tự gene thế hệ mới như NovaSeq 5000, NovaSeq 6000 của Illumina nhưng đó mới chỉ là phần việc ban đầu cho ra các dữ liệu thô. Để biến các dữ liệu thô này thành thông tin hữu ích có thể áp dụng trong y tế, cần sự kết hợp của những người có khả năng hiểu dữ liệu để phân tích và chú giải – những chuyên gia tin sinh học, thống kê học, di truyền học... Bản thân hiểu biết về hệ gene của những nhà nghiên cứu này vẫn còn hạn chế trong khi con đường từ kiểu gene đến kiểu hình vẫn còn chưa thật rõ ràng và ranh giới giữa kiểu hình và đột biến rất mong manh. Đây mới là trở ngại đáng kể.

Các chuyên gia dự đoán, vào năm 2022, số lượng hệ gene người được giải trình tự trên thế giới sẽ tăng lên 50 triệu. Việc khai thác tốt dữ liệu này để phục vụ cho điều trị và chăm sóc sức khỏe con người phụ thuộc vào năng lực của con người hơn là máy móc, thiết bị.

Ngoài ra, hiện người ta đã biết đến sự tồn tại của 5.000 căn bệnh di truyền hiếm gặp, mỗi loại bệnh lại có những biểu hiện lâm sàng khác nhau. Do đó việc khai thác dữ liệu về gene để xác định được nguyên nhân dẫn đến bệnh tật sẽ là chủ đề lớn cần giải quyết của y học chính xác.

Thứ hai, do dữ liệu về gene người rất lớn nên cần có những công cụ đặc biệt để khai thác và xử lý dữ liệu. Một số nhà nghiên cứu đã bắt đầu phát triển một số kỹ thuật trí tuệ nhân tạo (AI) và học máy (machine learning) tuy nhiên các nhà di truyền học vẫn còn nghi ngờ về khả năng ứng dụng của chúng trong việc phân lập và sàng lọc những mẫu cần tìm trong kho dữ liệu gene người. Vì thế, để thuyết phục được các nhà di truyền học, miễn dịch học tin dùng và sử dụng những công cụ mới này, các nhà sinh học máy tính cần hoàn thiện bằng việc đem lại cho nó những tính năng rõ ràng hơn.

Nhiều khả năng là vấn đề này sẽ sớm được giải quyết. Theo nghiên cứu công bố ngày 6/3/2018 của GenomeWeb - một tổ chức dịch vụ toàn cầu về KH&CN, hiện các tổ chức và các nhà nghiên cứu đang nghiên cứu hoặc áp dụng y tế chính xác đã bắt đầu quan tâm đến trí tuệ nhân tạo và học máy: 77% những người được điều tra cho biết họ bắt đầu có những lựa chọn về việc kết hợp trí tuệ nhân tạo và học máy vào những nghiên cứu của mình; gần 80% chờ đợi AI và học máy sẽ giúp họ tận dụng tối đa dữ liệu để có cái nhìn mới về bệnh tật và phát triển những đề xuất điều trị bằng cách triển khai các công nghệ này trong tương lai.

Thứ ba, những dữ liệu về gene chỉ thực sự có ý nghĩa khi được kết nối với các loại dữ liệu y tế như dữ liệu lâm sàng trong khám bệnh, dữ liệu về thói quen sống của con người và nhiều dữ liệu sức khỏe khác ngành Y có được từ công cuộc số hóa. Nếu liên kết được các bộ dữ liệu này được với nhau, chúng ta có thể bắt đầu xây dựng được một bức tranh toàn cảnh về cơ thể con người và có được những hiểu biết sâu sắc hơn về những yếu tố quan trọng dẫn đến bệnh tật, không riêng gì các bệnh ung thư.

Đây là một vấn đề hết sức phức tạp bởi mỗi bộ dữ liệu lại có một kiểu dữ liệu khác nhau. TS Lưu Vĩnh Toàn (Công ty chuyên về xử lý dữ liệu Squirro, Thụy Sĩ) nhận xét, việc tập hợp thành một bộ dữ liệu lớn như vậy tiềm ẩn nhiều thách thức: có quá nhiều dữ liệu, nhiều khuôn dạng và những dữ liệu này lại nằm ở nhiều nơi, trải dài theo thời gian, ví dụ dữ liệu của riêng một bệnh nhân có thể là hình ảnh, video soi chụp, ghi chép của bác sĩ, kết quả xét nghiệm, đơn thuốc, các chỉ số cơ thể...; dữ liệu khó chuẩn hóa vì có thể thuộc dạng có cấu trúc như các chỉ số xét nghiệm, tên thuốc v.v.. và phi cấu trúc như hình ảnh, âm thanh, văn bản ghi chép...; cách định nghĩa dữ liệu không đồng nhất và luôn thay đổi vì các nhà nghiên cứu luôn có các nghiên cứu mới, và phát hiện loại bệnh mới...; dữ liệu phức tạp vì vẫn còn nhiều vấn đề liên quan đến cơ thể con người chưa được định nghĩa về cấu trúc dữ liệu để lưu trữ và phân tích cho hiệu quả, ví dụ dữ liệu liên quan đến cấu trúc não, thần kinh, di truyền...; dữ liệu không đầy đủ và thiếu khách quan do sự thay đổi về các quy định và yêu cầu trong cách thức khám chữa ở mỗi bệnh viện và trong mỗi thời kỳ rất khác nhau, ngay cả việc thiếu thiết bị đo khám cũng ảnh hưởng đến sự đầy đủ và khách quan của dữ liệu.

Hiện nay các nhà khoa học và các chuyên gia ngành y thế giới đang kêu gọi chuẩn hóa dữ liệu để đảm bảo khả năng kết nối các bộ dữ liệu và biến nó thành một nguồn lực có thể được mở rộng, phân tích để có được cái nhìn sâu hơn và chính xác hơn về cơ chế của sự sống, qua đó có thêm nhiều cơ hội nâng cao điều kiện chăm sóc sức khỏe con người.

Anh Vũ tổng hợp

Nguồn: healthitanalytics.com, pmlive.com, forbes.com, nature.com...

Trở lại Khoa học - Công nghệTrở lại Khoa học - Công nghệ

Tia Sáng
Chuyên trang tri thức của VnExpress
Tổng biên tập: Phạm Văn Hiếu

Địa chỉ: Tầng 10, Tòa A FPT Tower,
số 10 Phạm Văn Bạch, phường Cầu Giấy, Hà Nội
Điện thoại: (024) 39428445
Email: tiasang@vnexpress.net