Mô phỏng sự sống
Liệu một chương trình máy tính có thể tái tạo mọi điều xảy ra trong một tế bào sống ?
Gần 30 năm trước Harold J.Morowitz đã phác thảo một chương trình cho sinh học phân tử. Ông đưa ra kế hoạch nghiên cứu sinh thể đơn giản nhất là một vi khuẩn thuộc chi Mycoplasma. Công việc bước đầu là giải mã chuỗi gen, giải mã dãy acid amino của tất cả protein trong tế bào. Vào năm 1980 việc đọc hệ gen không phải là việc thường nhật như hiện nay song Morowitz lý luận rằng công việc đó có thể thực hiện được nếu hệ gen (genome) là đủ nhỏ.
Morowitz tính được dung lượng thông tin DNA của Mycoplasma là vào khoảng 160.000 bit. Morowitz cho rằng lượng thông tin đó bao trùm được các protein và logic của sự sống có thể viết lại trong một số bước. Hiểu được tường tận các quá trình trong một tế bào nhân sơ (prokaryotic) như vậy là trong tầm của khả dĩ.
Chương trình của Morowitz là:
Với một số bước hữu hạn có thể xây dựng một mô hình máy tính và từng bước này có thể thực hiện trong phòng thí nghiệm. Và hy vọng điều này sẽ cho phép hiểu được hệ mẫu (paradigm) của sinh học phân tử. Nhìn từ phía sinh học hiện đại (genomics [1] và proteomics [2]) thì thấy Morowitz có lý và đường đi mà Morowitz vạch ra là đúng hướng. Tuy nhiên việc thách thức viết ra được “logic của sự sống” trong một số bước để hiểu được một tế bào sống cũng dễ làm người ta lo lắng: liệu kết quả mô phỏng sự sống này có tương thích với thực tại của những cơ thể sống hay không?
Hiện nay đã có một chương trình máy tính với mục tiêu trên của nhóm Markus W.Covert (Đại học Stanford) cùng 8 cộng sự có tên là WholeCell.[3] &[4]. Chương trình này mô phỏng toàn vòng đời của Mycoplasma genitalium, một loại vi khuẩn thuộc chi mà Morowitz gợi ý. Trong mô hình có tất cả những quá trình chính quan trọng của sự sống: sự phiên mã [5] DNA [6] vào RNA [7], dịch mã [8] của RNA vào protein, quá trình chuyển hóa (metabolism) của các chất dinh dưỡng để tạo ra năng lượng, sự tái tạo (replication)[9] của hệ gen, và cuối cùng là sự phân chia tế bào. Kết quả máy tính thu được dường như tương thích với kết quả thực nghiệm. Và câu hỏi đặt ra là liệu với WholeCell có thể nói chúng ta đã bước vào ngưỡng cửa của quá trình xây dựng hoàn chỉnh sinh học phân tử chăng?
Dạng sống nhỏ nhất
Vi khuẩn Mycoplasma là sinh thể nhỏ nhất đơn giản nhất có khả năng tự nhân bản (self-replicating) (virut có thể nhỏ hơn nhưng chỉ tự tạo nhờ sử dụng cơ chế hóa sinh của tế bào chủ-host).
Lúc Mycoplasma được quan sát lần đầu tiên trong thế kỷ 19 người ta cho đó là một loại nấm (fungi, tiền tố myco có gốc Hy lạp là nấm). Mycoplasma cung cấp một số thức ăn cho con người đồng thời cũng là nguyên nhân sinh bệnh cho động vật (như bệnh viêm phổi) và thực vật.
Mycoplasma có kích thước vào khoảng ½ micrometer (xem hình 1).Tế bào đơn giản và hệ gen rõ ràng của Mycoplasma là những điều kiện tốt cho một chương trình máy tính để hiểu được sự duy trì sự sống.
Hình 1. Tế bào Mycoplasma. Mycoplasma là những cơ thể sống tự do nhỏ nhất và đơn giản nhất. Bên phải là một bức tranh nghệ thuật vẽ tế bào mycoplasma bằng thuốc nước của họa sĩ David S.Goodsell. |
Trong một khía cạnh nào đó mô phỏng sự sống bằng máy tính còn khó hơn việc tìm cách tổng hợp sự sống từ những thành phần hóa học. Nếu biết được các thành phần đúng đắn một nhà sinh học có thể tổng hợp một tế bào sống mà không cần hiểu hết các chi tiết các quá trình mà các thành phần tương tác với nhau. Nhưng chỉ có chương trình máy tính mới có thể mô tả chi tiết từng quá trình tương tác của các thành phần và sự diễn biến của các sự kiện phân tử.
Mức độ chi tiết của mô hình
Xây dựng một mô hình máy tính đòi hỏi sự lựa chọn, sự chắt lọc nhiều bước để đi đến một mức độ chi tiết nhất định. Lấy ví dụ trường hợp chuyển hóa các carbohydrate trong đó đường biến thành nước và carbon dioxide:
C6H12O6 +6O2 = 6CO2+6H2O.
Công thức trên không nói lên được điều gì đã thực tế xảy ra trong tế bào. Một khảo sát sâu hơn đòi hỏi phải đưa vào cả chục bước trung gian:
Ví dụ phân tử glucose 6-carbon trước tiên rã thành 2 phân tử pyruvate giải phóng năng lượng, năng lượng này lại bị bắt bởi adenosine triphosphate và vân vân… Thêm nhiều chi tiết dẫn đến nhiều phản ứng hóa học.
Về nguyên tắc sự mô phỏng phải theo dõi từng phân tử một đúng như các quá trình đã thực tế xảy ra.
Mô hình WholeCell được cấu tạo bởi 28 mođun quá trình (xem hình 2) tương ứng với các hoạt động chính yếu trong tế bào như sự tái bản hệ gen, sự tổng hợp protein, sự sửa chữa các DNA bị hư hỏng… Ngoài ra còn có 16 dữ liệu cấu trúc gọi là các biến số trạng thái biểu diễn trạng thái tức thời của những hệ con khác nhau tại nhiều thời điểm. Chương trình bắt đầu bằng các biến số trạng thái của một tế bào vừa xuất hiện sau quá trình phân chia. Sau đó 28 mô đun quá trình sẽ chạy. Sau một thời đoạn ta có những biến số trạng thái với kết quả của các phép tính và chu trình lại tiếp tục. Việc mô phỏng tiếp tục đến khi tế bào hoàn thành vòng đời và bắt đầu phân chia. Đối với Mycoplasma thời gian tính vào khoảng 9 tiếng đồng hồ thực hiện 32.000 lần lặp của vòng mô phỏng. Và thời gian chạy chương trình gần bằng thời gian thực tại của một thế hệ. Chương trình được viết trong MATLAB. Cùng với Covert, các tác giả phần mềm là Jonathan R.Karr và Jayodita C. Sanghvi.
Hình 2. Chương trình WholeCell chứa 16 biến số trạng thái (bên trái hình vẽ) và 28 mô đun quá trình (bên phải hình vẽ). Các biến số trạng thái mô tả trạng thái biến đổi sinh lý của tế bào.Các mô đun quá trình thực hiện các bước của mô phỏng như sự sao chép genome,sự phiên mã DNA vào RNA và dịch mã RNA vào protein. Mô đun chuyển hóa bao gồm nhiều phản ứng hóa học cung cấp năng lượng và nguyên liệu. Các đường nối trên hình vẽ biểu diễn mối liên hệ giữa các biến số trạng thái với những quá trình đó.Cột phía ngoài bên phải cùng chỉ số gen có đóng góp vào các mô đun (không phải tất cả gen đều hiện diện trên bảng trên). Các mô đun quá trình đọc các trị số hiện hành của các biến số trạng thái, sẽ tính điều gì sẽ xảy ra trong một đơn vị thời gian sau đó cập nhật các biến số. Chu trình đó liên tục tiếp diễn đến khi vòng đời của vi khuẩn kết thúc vào khoảng 9 tiếng đồng hồ. |
Các mô đun quan trọng
Để hiểu thêm chương trình chúng ta xét 3 mô đun quan trọng:
mô đun chuyển hóa (metabolism),
mô đun phiên mã (transcription) của thông tin gen, mô đun mô tả diễn biến kích thước và hình dáng của tế bào trong quá trình sinh trưởng.
1/ Mô đun chuyển hóa là mô đun mô tả quá trình các hiện tượng hóa sinh cổ điển xảy ra. Ngay đối với Mycoplasma mô đun này cũng bao gồm một mê lộ các quá trình hóa học tương liên với nhau. Mô đun này của WholeCell chứa 104 enzymes [10], 585 chất nền (subtrate), 441 phản ứng hóa học và 204 quá trình di động (transport). Kích thước và sự phức tạp của mô đun đòi hỏi nhiều phương pháp giải tích toán học. Tốc độ của mỗi phản ứng hóa học phụ thuộc một phần vào mật độ các chất phản ứng và thành phẩm. Và thành phẩm của mỗi phản ứng lại là input đầu vào của một phản ứng khác cho nên các quá trình không thể được tính toán độc lập với nhau.
2/ Những tính toán trong mô đun phiên mã hoàn toàn khác các tính toán trong mô đun chuyển hóa. Thay vì chương trình tuyến tính ở đây ta gặp mặt những tính toán thuộc phạm trù xác suất. Sự phiên mã của một gen bắt đầu lúc một phân tử của enzyme RNA polymerase[11] kết với một điểm nhiễm sắc thể (chromosome site) gọi là promoter. Sau đó enzyme móc dọc vào sợi xoắn kép (double helix) tạo nên một sợi của thông tin RNA (mRNA) vốn là sợi bổ sung của sợi DNA. Khi phiên mã (transcription) hoàn thành thì polymerase rơi khỏi sợi xoắn đôi và rời RNA.
Quá trình chuyển tiếp (transitions) giữa các trạng thái là những sự kiện ngẫu nhiên với xác suất tính được phù hợp với phân bố thực nghiệm quan sát được.
3/ Hai mô đun trên không liên quan đến không gian song sự mô phỏng phải xét đến một biến số trạng thái mô tả hình học để biểu diễn hình dạng của vi khuẩn và những phân rã có thể xảy ra. Hình dạng trong mô phỏng có thể không phải là hình dạng thực tế của tế bào sinh học. Mycoplasma thường được hình dung có dạng một quả lê. Đưa vào chi tiết này thực ra không tăng thêm thông tin sinh học mà chỉ gây thêm khó khăn cho nên người ta sử dụng hình học đơn giản nhất: một hình cầu nhỏ kéo dài thành một hình trụ với hai bán cầu ở hai đầu. Ở cuối chu trình sống sau khi 2 phiên bản (copy) của hệ gen ( genome) đi về phía 2 đầu của tế bào thì phần giữa của hình trụ teo lại và chuẩn bị cho sự hình thành 2 tế bào mới.
Quy luật cho sự tăng trưởng của tế bào không khó hiểu: khi thể tích của chất tế bào (cytoplasm) lớn lên, thì màng bọc phải lớn lên về diện tích. Cơ chế chủ yếu của sự phân chia là sự hiện diện của một protein gọi là FtsZ, protein này làm thành một vòng (ring) trong mặt phẳng chung của hai tế bào con và là ranh giới chia đôi hai tế bào con.
Vấn đề dữ liệu
Chương trình WholeCell dựa trên dữ liệu của 900 công trình. Hơn 1.900 trị số bằng số lấy từ các công trình đó biến thành các thông số của mô hình. Đây quả là một việc gây ấn tượng về phương diện dữ liệu. Các trị số đều lấy từ thực nghiệm. Vấn đề khó khăn ở chỗ chọn các dữ liệu sao cho tương thích với nhau. Cần tiến đến một bộ dữ liệu đầy đủ tin cậy về hóa sinh.
Hiện nay thì các mô phỏng trong công trình WholeCell cho những kết quả chấp nhận được. Thời gian vòng đời tế bào, tốc độ tăng trưởng và mật độ các chất chuyển hóa (metabolites) đều gần với các trị số đo được trong các tế bào thực.
Kết hợp quy giản luận
Ý tưởng xây dựng một dạng sống nhân tạo nhờ một phần mềm hoặc nhờ sự tổng hợp cytoplasm luôn luôn là một vấn đề gây tranh cãi. Mary Shelley gần 200 năm trước đã viết một trước tác sâu sắc về vấn đề này: Frankenstein, or the Modern Prometheus. Ở thời đại của Shelley vấn đề nêu ra được quy về sự tranh chấp giữa hai quan điểm sinh lực luận (vitalism) và tế bào cơ học luận (mechanism). Sinh học luận chủ trương rằng vật chất sống khác với vật chất không sống nhờ một tia lửa sống (spark of life). Ngược lại phái cơ học luận mà đại diện là René Descartes lại xem cơ thể sống như một đồng hồ cơ học automat.
Ngày nay trong khoa học hiện đại sinh lực luận xem như đã chết. Trong những năm của sinh học phân tử, DNA là bản thiết kế của sự sống. Quá trình cơ bản của sự sống quy về sự thao tác của những ký hiệu: kết đôi G với C và A với T [6] sau đó ánh xạ bảng chữ cái 4-chữ của nucleotide vào bảng chữ cái 20-chữ của các acid amin. Nếu chúng ta biết đọc bản thiết kế và giải mã các thông điệp gen thì chúng ta có thể hiểu được sự sống đã hoạt động như thế nào. Hiện nay chúng ta có thể đọc được dãy DNA khá thành thạo.
Ý tưởng mô phỏng một tế bào sống bằng máy tính nằm trên giao điểm của quy giản luận (reductionism)[12] và một tổng luận của sinh học.
Mặt khác chương trình WholeCell cho thấy rõ dãy DNA tự thân chưa phải là chìa khóa chính của sự sống. Mặc dầu sự chuyển thông tin từ DNA cho RNA là yếu tố trung tâm của mô hình song điều đó không thể được vận dụng như một ánh xạ đơn giản giữa các bảng chữ cái. Điều nhấn mạnh ở đây là quá trình xảy ra trên các phân tử chứ không phải là quá trình thao tác trên các ký hiệu.
Mặt khác sự xây dựng mô hình là một tuyên ngôn rằng sự sống có thể hiểu được, ở đây không có điều gì là siêu nhiên mà có thể quy về một thuật toán – một quá trình tính toán hữu hạn. Mọi điều xảy ra trong tế bào mô hình hóa đều xuất phát từ những định luật mà chúng ta liệt kê ra được, hiểu được và viết ra được.
Chúng ta có thể tin tưởng rằng thắng lợi của các phương pháp mô phỏng trong sinh học sẽ dẫn đến những phương pháp tổng hợp mới và có hy vọng tạo nên nhiều ảnh hưởng quan trọng đối với các đàm luận triết học vô tận về sự sống.
CC biên dịch và chú thích
American Scientist số tháng 1/2013
Tài liệu tham khảo và các chú thích
[1] Genomics , môn học di truyền về genom (hệ gen) của các sinh thể.
[2] Proteomics, môn học về cấu trúc và chức năng của protein. Protein được tổng hợp tại những ribosome. Ribosome là những vật thể trong tế bào có cấu trúc: protein+RNA có dạng hạt đường kính 300 Angstrom.
[3] Barile, M.F.,and S.Razin,1989.The Mycoplasmas. New York:Academic Press.
[4] Karr, J.R.,et al .2012.A WholeCell computational model predicts phenotype from genotype. Source code: http://wholecell.stanford.edu.
[5] Transcription = sự phiên mã, sự sao chép, đây là quá trình tạo ra một bản sao bổ sung RNA của dãy DNA.
[6] DNA= deoxyribonucleic acid có cấu trúc sợi kép xoắn, vật liệu di truyền, chứa mọi thông tin gen về sự phát triển và vận hành của mọi cơ thể sống. DNA gồm một dãy các nucleotide với các gốc (base) là adenine A, guanine G,cytosine C và thymine T.
[7] RNA=ribonucleic acid có cấu trúc sợi kép xoắn giống như DNA hoặc có cấu trúc một sợi đơn.
[8] Translation = dịch mã, trong quá trình dịch mã RNA thông tin (mRNA) tạo nên trong quá trình phiên mã được giải mã bởi ribosome để sản ra một dãy amino acid đặc biệt hay polypeptide mà sau này sẽ nhập vào một protein hoạt động.
[9] replication =quá trình tái tạo,
self-replication=quá trình tự tái tạo
DNA replication =quá trình sao chép một sợi kép DNA
[10] Enzyme= một nhóm con của protein làm nhiệm vụ xúc tác (có thể làm tăng tốc độ phản ứng lên nhiều lần).
[11]Polymerase =các enzym xúc tác với nhiệm vụ trung tâm gắn liền với DNA và RNA, polymerase có chức năng polyme-hóa các DNA và RNA mới trong quá trình tái tạo và phiên mã.
[12] Quy giản luận (reductionism-nhiều tác giả còn dùng từ reductivism) là luận thuyết nhằm giải thích mọi hiện tượng trong thiên nhiên bằng những quy luật cơ bản nằm ở lớp cơ sở. Ý tưởng quy giản luận xuất phát từ Descartes (phần V tác phẩm Discourses – 1637).