Có một nghịch lý khá thú vị trong ngành công nghiệp bán dẫn. Bộ xử lý trung tâm bên trong một chiếc điện thoại cao cấp có thể nằm trong một sản phẩm bán lẻ vài trăm đô la Mỹ. Nhưng trước khi con chip đầu tiên rời khỏi nhà máy, công ty thiết kế ra nó có thể đã tiêu hàng trăm triệu đô la cho quá trình phát triển.
Nếu thiết kế đó xuất hiện một lỗi nghiêm trọng sau tape-out, tức thời điểm chốt thiết kế gửi sang nhà máy đúc chip (foundry, như TMSC) để sản xuất trên silicon, thì gần như toàn bộ quá trình có thể phải lặp lại thêm một lần nữa, khiến tiến độ lùi nhiều tháng, rồi lại đội thêm hàng trăm triệu đô la chi phí. Đó là bản chất của ngành chip hiện đại.
Do chi phí thiết kế đắt đỏ như vậy nên sản xuất ngành chip buộc phải đạt sản lượng cao lên đến hàng trăm triệu chip để có giá thành rẻ. Một khi con chip đầu tiên hoạt động đúng như mong đợi, việc tạo ra con chip thứ hai gần như chỉ còn là bài toán mở rộng sản xuất hàng loạt.
Một số mẫu chip bán dẫn cho kỹ sư Việt tham gia thiết kế, được trưng bày tại Triển lãm quốc tế Đổi mới sáng tạo Việt Nam tháng 10/2023 ở Hòa Lạc. Ảnh: Lưu Quý.
Ngưỡng tài chính để đi tới thời điểm sản xuất hàng loạt mỗi con chip ngày càng cao, đến mức số công ty còn đủ khả năng tham gia vào tiến trình node tiên tiến đang dần thu hẹp theo từng thế hệ transistor.
Để hiểu được mức độ đắt đỏ của việc tạo ra một con chip hiện đại, trước tiên cần phân biệt hai nhóm chi phí rất khác nhau. Nhóm thứ nhất là chi phí sản xuất hàng loạt, bao gồm wafer fabrication tại foundry, packaging và test. Đây là phần chi phí giảm dần theo volume.
Nhóm thứ hai là NRE (Non-Recurring Engineering), tức toàn bộ chi phí để tạo ra thiết kế ban đầu. Có thể hình dung quy trình thiết kế chip giống như: kiến trúc sư thiết kế thành phố, kỹ sư lập sơ đồ điện, phần mềm tự động sắp xếp hàng tỷ transistor, rồi nhà máy mới bắt đầu sản xuất. Khoản chi phí thiết kế này chỉ phát sinh một lần duy nhất, bất kể sau đó sản phẩm bán được một nghìn hay một trăm triệu chip.
Trước khi nói đến sản xuất, chính NRE là thứ quyết định ai đủ sức trụ lại cuối cùng ở các tiến trình tiên tiến.
Sơ đồ giản lược quy trình thiết kế chip. Ảnh: Mỹ Hạnh.
Lớp nền vô hình mang tên EDA
Không có phần mềm thiết kế chip chuyên dụng - EDA (Electronic Design Automation), gần như sẽ không có bất kỳ con chip hiện đại nào tồn tại. Ở tiến trình 3nm với hàng chục tỷ transistor, không còn kỹ sư nào có thể can thiệp thủ công vào toàn bộ quy trình thiết kế nữa. Từ chuyển mã thiết kế thành mạch logic (synthesis), sắp xếp và nối các khối transistor trên chip (place-and-route), kiểm tra độ trễ tín hiệu (static timing analysis), phân tích sụt áp điện bên trong chip (IR drop analysis) cho tới kiểm tra cuối cùng trước sản xuất (extraction và signoff), tất cả đều phải đi qua EDA.
Ở node tiên tiến vài nanomet, EDA không còn đơn thuần là công cụ hỗ trợ thiết kế. Theo một nghĩa nào đó, nó đã trở thành môi trường duy nhất mà con chip có thể "tồn tại" trước khi trở thành silicon thật. Chẳng hạn, các bộ công cụ của Cadence nơi tôi đang làm việc (hay của các công ty EDA khác) cho một doanh nghiệp lớn có thể tiêu tốn từ vài chục triệu đô la mỗi năm chỉ riêng license.
Các hệ thống emulation như Cadence Palladium hay Synopsys ZeBu dùng để kiểm tra thiết kế logic của chip trước tape-out (verify RTL) thậm chí còn có thể đắt ngang cả một trung tâm dữ liệu quy mô nhỏ. Đây là một rào cản khá đặc biệt của ngành bán dẫn. Phần lớn người dùng cuối gần như không bao giờ nhìn thấy nó, nhưng toàn bộ ngành công nghiệp lại đang vận hành phía trên lớp phần mềm vô hình này.
Điều đáng chú ý là quyền lực trong ngành bán dẫn hiện đại không chỉ nằm ở nhà máy sản xuất chip nữa mà nhiều "nút cổ chai" quan trọng lại nằm ở các lớp hạ tầng vô hình như EDA, IP hay đóng gói tiên tiến cho cho chip.
Mỗi con chip được thiết từ hàng chục khối sáng chế (IP block)
Một SoC (System on Chip - chip tích hợp gần như toàn bộ hệ thống xử lý) hiện đại gần như không còn được xây dựng hoàn toàn từ đầu. Thay vào đó, nó được ghép lại từ rất nhiều khối sáng chế (IP block) chuyên biệt: nhân xử lý CPU, bộ điều khiển bộ nhớ (DDR controller), các khối giao tiếp dữ liệu tốc độ cao (PCIe PHY), USB subsystem, memory compiler... phần lớn được mua lại quyền sử dụng (license) từ các công ty khác. Các nhân xử lý CPU của ARM như Cortex-A series có thể tiêu tốn hàng triệu đô la tiền license trước khi dòng RTL đầu tiên được viết ra. Những IP tốc độ cao như PCIe Gen5 hay DDR5 còn đắt hơn nữa. Ngoài khoản phí ban đầu, nhiều IP còn đi kèm royalty fee, tức phí bản quyền tính theo số lượng chip xuất xưởng.
Điều này khiến ngành bán dẫn hiện đại ngày càng mang dáng vẻ của một hệ sinh thái tri thức chuyên môn hóa cực sâu. Không một công ty nào còn tự làm tất cả. Và cũng gần như không còn kỹ sư nào thật sự hiểu toàn bộ con chip. Mỗi team chỉ phụ trách một lát cắt rất nhỏ của hệ thống tổng thể.
Nhưng khoản chi lớn nhất thường lại là con người
Khi nhắc tới chi phí thiết kế chip, nhiều người thường nghĩ tới mask hay wafer fabrication. Nhưng trên thực tế, khoản lớn nhất thường là chi phí nhân sự kỹ sư. Một SoC cao cấp hiện đại có thể cần hàng nghìn kỹ sư làm việc liên tục trong nhiều năm, từ thiết kế RTL designer, kỹ sư kiểm thử (verification engineer), kiểm thử vật lý (physical design engineer), DFT engineer cho tới phần cứng và bring-up team.
Điều thú vị là kiểm thử thiết kế thường cần tỷ lệ nhân sự lớn hơn cả thiết kế. Lý do khá đơn giản. Trong phần mềm, lỗi (bug) thường có thể sửa kể cả sau khi sản phẩm đã phát hành. Nhưng trong silicon, một lỗi logic nghiêm trọng sẽ bị khắc vĩnh viễn lên wafer. Một lỗi sau tape-out có thể khiến công ty mất thêm hàng chục triệu đô la và chậm cả năm sản phẩm. Vì vậy, kiểm thử thiết kế dần trở thành một trong những phần tốn kém nhất của ngành bán dẫn hiện đại.
Sơ đồ đơn giản cấu trúc một SoC hiện đại. Ảnh: Mỹ Hạnh.
Tape-out và mask cost: rủi ro tài chính bắt đầu tăng rất nhanh
Sau nhiều năm thiết kế và verify, tape-out thường là giai đoạn căng thẳng nhất với các đội ngũ thiết kế chúng tôi. Chúng tôi vẫn nói vui, và cả áp lực với nhau rằng, làm sao loài người ngoài kia hiểu được những áp lực khủng khiếp trên môi trường nanomet, ngày càng thách thức các giới hạn vật lý của con này.
Một lỗi sai của chúng tôi có thể khiến công ty mất hàng trăm triệu đô la, và không dừng lại ở công ty, mà còn ảnh hưởng tới thời điểm ra mắt sản phẩm của khách hàng. Đó là thời điểm toàn bộ dữ liệu thiết kế cuối cùng (GDS hay OASIS) được gửi sang nhà máy để tạo từng lớp khuôn mặt nạ (mask) và sản xuất trên silicon thật.
Ở các tiến trình tiên tiến dùng EUV lithography, số lượng các lớp mặt nạ cho một con chip (mask layer) tăng lên rất nhanh. Một thiết kế 3nm có thể cần hơn 80 đến 100 lớp mask khác nhau. Chi phí vì thế cũng tăng theo cấp số nhân. Ở 28nm, một mask set có thể vào khoảng vài triệu đô la. Ở 7nm, con số này tăng lên khoảng 10 đến 15 triệu đô. Và ở 3nm, riêng bộ mask cho một thiết kế cao cấp đã có thể vượt 20 đến 30 triệu đô la. Đó là khoản tiền phải bỏ ra trước khi có bất kỳ silicon hoạt động nào trong tay.
Nếu thiết kế gặp lỗi nghiêm trọng và phải respin, gần như toàn bộ quá trình sẽ phải lặp lại thêm một lần nữa. Điều nghịch lý là transistor càng nhỏ, rủi ro tài chính của mỗi quyết định engineering lại càng lớn.
Với startup hoặc các công ty chưa đủ vốn để tape-out toàn bộ, có một lựa chọn thay thế gọi là MPW, Multi-Project Wafer, tức nhiều công ty hợp tác với nhau chia sẻ cùng một wafer để cùng gánh chi phí. Chi phí có thể giảm xuống còn vài chục nghìn đô, nhưng số die nhận về (một con chip trên tấm silicon wafer: trên một tấm silicon hình tròn lớn, có nhiều ô vuông/chữ nhật nhỏ trên là các die) rất hạn chế, thường chỉ đủ để đánh giá thiết kế chứ không đủ để bán thương mại. Nhưng đây vẫn là cánh cửa hẹp để các team nhỏ hơn có thể chạm tay vào silicon thật mà không cần phải đặt cược cả chục triệu đô ngay từ đầu.
Mô hình đơn giản hóa để dễ hình dung: mỗi lớp trong hình tương ứng một mặt nạ quang khắc (photomask) riêng, được sử dụng tuần tự trong quá trình chế tạo chip. Một chip hiện đại cần hàng chục lớp mask khác nhau... mỗi lớp tương ứng một bước quang khắc, và chính số lượng này là một trong những yếu tố khiến chi phí phát triển tăng mạnh. Ví dụ, riêng mask cho lớp metal 1- lớp kết nối giữa transistor và hệ thống liên kết bên trong chip - đã có thể tốn khoảng vài trăm nghìn USD ở các node trưởng thành (từ 28 nm), khoảng 3 triệu USD ở 7 nm và lên tới 7–10 triệu USD ở 3 nm. Tác giả:Trần Quốc Huy
Như vậy, chỉ ở riêng thiết kế trong chuỗi, giờ đây bất kỳ công ty nào muốn làm tổng thể thiết kế, phải có khả năng duy trì cả một hệ sinh thái kỹ sư, phần mềm thiết kế, chuỗi cung ứng và vốn đầu tư khổng lồ trong nhiều năm liên tiếp. Còn tất nhiên, nếu không làm tổng thể thì có thể làm các IP block để bán quyền sử dụng cho các công ty thiết kế.
Silicon về tay ... vẫn chưa xong
Sau tape-out, nhiều người ngoài ngành thường nghĩ là xong, chip làm ra rồi, bán thôi. Thực tế thì giai đoạn kiểm thử vật lý của thiết kế sau khi in thử xong (post-silicon validation), hay còn gọi là bringup, thường là phần gây bất ngờ nhất.
Các trang thiết bị chuyên dụng để test và debug chip như oscilloscope (máy hiện sóng đo tín hiệu điện), logic analyzer (thiết bị phân tích tín hiệu số), spectrum analyzer (máy phân tích phổ tín hiệu) hay các bo mạch thử nghiệm riêng... có thể tiêu tốn tổng cộng hàng triệu đô la.
Rồi khi về tay, mẫu thử đầu tiên gần như luôn có vấn đề. Đôi khi là bug nhỏ, sửa nhỏ (ECO) mà không cần làm lại toàn bộ mask. Đôi khi là lỗi nghiêm trọng hơn và buộc phải làm lại một phiên bản chip mới (respin). Nếu respin xảy ra, thì buộc phải bắt đầu lại. Thêm 6 đến 12 tháng, thêm chi phí tape-out tương đương lần đầu, thêm áp lực vì đối thủ không chờ, và thị trường thì luôn chạy.
Trong lịch sử ngành bán dẫn, không ít con chip nổi tiếng đã trải qua ít nhất một lần respin trước khi ra được thị trường, và gần như không công ty nào công bố chuyện đó ra ngoài.
Cộng tất cả lại
EDA tools, IP licensing, nhân sự, mask, post-silicon validation... cộng tất cả lại, tổng NRE của một con chip theo node trông như thế này: Ở 28nm vào khoảng 30 đến 50 triệu đô. Ở 16nm từ 80 đến 120 triệu. Ở 7nm từ 200 đến 300 triệu. Ở 5nm từ 400 đến 500 triệu. Và ở 3nm thì vượt 500 triệu đô, một số ước tính cho các SoC phức tạp nhất còn cao hơn thế khá nhiều.
Hệ quả rất rõ ràng. Ở 3nm, để hòa vốn chỉ riêng NRE, một công ty cần bán được hàng triệu chip với biên lợi nhuận đủ tốt. Đó là lý do tại sao node tiên tiến ngày càng chỉ còn là cuộc chơi của Apple, Qualcomm, NVIDIA, AMD, MediaTek và một số ít tên tuổi khác. Số lượng công ty đủ khả năng tham gia đang thu hẹp theo từng thế hệ transistor.
Khi cộng tất cả lại , từ EDA, IP licensing, nhân sự, compute, mask, packaging, validation và các lần respin thì tổng chi phí để đưa một SoC tiên tiến ra thị trường giờ đã vượt xa hình dung của phần lớn người dùng phổ thông. Điều đó khiến chip tiên tiến ngày càng trở thành cuộc chơi chỉ dành cho một số rất ít công ty đủ khả năng duy trì chu kỳ đầu tư khổng lồ qua nhiều năm liên tiếp.
Từ một khối chip duy nhất đến đóng gói tiên tiến (chiplet)
Trong nhiều năm, hướng tiếp cận tự nhiên nhất của ngành chip là tạo ra một khối chip duy nhất (được gọi là monolithic die, tức là một khối chip duy nhất trên miếng wafer) thật lớn và tích hợp mọi thứ lên cùng một silicon. Nhưng khi transistor trở nên quá đắt, die lớn bắt đầu kéo sản lượng sản xuất thành phẩm xuống rất mạnh. Chỉ cần một lỗi nhỏ trên wafer cũng có thể làm hỏng toàn bộ die kích thước lớn. Và từ đó, ngành bán dẫn bắt đầu chuyển sang một hướng khác. Thay vì một die khổng lồ, hệ thống được chia thành nhiều die nhỏ hơn, mỗi phần được sản xuất ở node phù hợp nhất rồi ghép lại bằng đóng gói tiên tiến (chiplet). Đó là lý do các công nghệ như công nghệ đóng gói chip cao cấp của TSMC (CoWoS), bộ nhớ băng thông cao HBM hay xếp chồng nhiều lớp chip (3D stacking) trở thành trung tâm của thế hệ chip tăng tốc AI hiện nay.
NVIDIA H100 không còn đơn giản là một GPU die đơn lẻ. Nó là nhiều lớp silicon và memory stack được kết nối bên trong cùng một package bằng hạ tầng interconnect băng thông cực cao. AMD cũng đã theo đuổi hướng đi tương tự với nhiều thế hệ Epyc processor gần đây.
Điều đáng chú ý là chiplet không chỉ là lời giải cho giới hạn vật lý, nó còn là lời giải kinh tế cho thời đại transistor ngày càng đắt đỏ.
Và không phải tất cả đều phải chạy theo advanced node. Với automotive, IoT, industrial hay power management, các node cũ hơn như 28nm, 40nm hay thậm chí 65nm vẫn là lựa chọn hoàn toàn hợp lý, cả về kỹ thuật lẫn kinh tế. Node cũ không có nghĩa là lỗi thời, chỉ là phù hợp với bài toán khác. Phần lớn thế giới nhúng vẫn đang chạy rất tốt trên những tiến trình mà nhiều người tưởng đã lỗi thời từ lâu.
Điều đáng kinh ngạc nhất có lẽ là... người dùng gần như không nhìn thấy tất cả những điều này Khi nhìn lại toàn bộ chuỗi chi phí phía sau một con chip hiện đại, câu hỏi thú vị có lẽ không phải là tại sao chip đắt, mà là tại sao nó lại có thể trở nên "rẻ" đến vậy khi tính trên đầu người dùng cuối.
Hàng trăm triệu đô la NRE, hàng nghìn kỹ sư, hàng triệu giờ tính toán, hàng chục quốc gia trong chuỗi cung ứng... cuối cùng được nén lại thành một con chip nhỏ hơn lòng bàn tay và xuất hiện trong túi áo của hàng trăm triệu người. Ngành bán dẫn có lẽ là một trong những ví dụ rõ nhất cho việc con người tổ chức tri thức, vốn đầu tư và rủi ro ở quy mô toàn cầu để biến những công nghệ cực kỳ phức tạp thành sản phẩm đại chúng.
Phần lớn người dùng gần như không bao giờ nhìn thấy toàn bộ sự phức tạp ấy, họ chỉ nhìn thấy điện thoại mỏng hơn, laptop nhanh hơn, hay AI phản hồi tự nhiên hơn... Trong khi phía sau những trải nghiệm rất bình thường đó là một trong những hệ thống công nghiệp phức tạp nhất mà con người từng xây dựng.