Card đồ hoạ tối ưu nhất, giá trị nhất cho ứng dụng Stable Diffusion XL

Trang chủ»»Card đồ hoạ tối ưu nhất, giá trị nhất cho ứng dụng Stable Diffusion XL

04-10-2023

Đánh giá

Nếu bạn thường xuyên lướt web trong vài tháng gần đây, có lẽ bạn đã gặp các bài viết, bài báo, và video trên các nền tảng mạng xã hội nói về Trí tuệ Nhân tạo và các loại nội dung mà chúng có thể tạo ra. Trong số những sản phẩm thông minh của OpenAI, ChatGPT vẫn là một trong những lựa chọn phổ biến nhất cho đến thời điểm gần đây. Giao diện trò chuyện của nó cho phép người dùng tương tác với mô hình AI để đặt câu hỏi, hướng dẫn trong việc thực hiện các nhiệm vụ, viết mã, và sáng tác văn bản từ câu đơn đến đoạn văn hoặc thậm chí là toàn bộ bài viết!

Ngoài các mô hình dựa trên văn bản như ChatGPT, các mô hình AI trực quan như MidJourney, Stable Diffusion, DALL-E, và các tương đương khác cũng đang phát triển mạnh mẽ. Chúng có khả năng tạo ra hình ảnh dựa trên hướng dẫn, đưa ra bằng văn bản, ví dụ như "một cô gái xinh đẹp trên đường phố Paris, chơi đàn guitar".

Với một trong những mô hình trên, dưới đây là ví dụ về hình ảnh được tạo ra từ các hướng dẫn đó: [hình ảnh kết quả được tạo ra ở đây].

Các công cụ mạnh mẽ này đang làm thay đổi cả ngành công nghiệp một cách đáng kể. Mặc dù không có mô hình AI nào có thể thực hiện mọi nhiệm vụ như con người trong lĩnh vực nghệ thuật, đồ họa, viết lách, và sáng tạo nói chung, nhưng nhiều ngành đang bắt đầu cảm nhận được tác động của chúng.

Tuy nhiên, cần lưu ý rằng nội dung được tạo ra bởi AI vẫn chỉ nên được coi là một phiên bản hướng dẫn, đặc biệt đối với các loại nội dung phổ biến như văn bản, mã nguồn, hình ảnh, hoặc đồ họa. Điều này là do các mô hình thường có thể tạo ra thông tin không chính xác một cách tự tin đối với nhiều chủ đề khác nhau. Thực tế, Chatbot Bard AI của Google đã đưa ra kết quả không chính xác ngay trong buổi trình diễn đầu tiên!

Những điều này chỉ ra rằng tính chính xác và sử dụng của chúng sẽ tiếp tục phát triển theo thời gian. Chúng ta đã thấy sự xuất hiện của các mô hình AI mới với nhiều cải tiến so với các phiên bản trước đó.

VRAM và các mô hình AI: Bạn sẽ cần bao nhiêu?

Một số công cụ Trí tuệ Nhân tạo đang nổi bật nhờ vào tính chất mã nguồn mở - điều này mang lại khả năng lưu trữ các mô hình trực tiếp trên phần cứng cho người dùng, doanh nghiệp và tổ chức mà không gặp bất kỳ vấn đề nào về quyền riêng tư hoặc bảo mật.

Mặc dù các doanh nghiệp lớn thường có cơ sở hạ tầng và nguồn lực tài chính để tự quản lý và vận hành các mô hình AI này, nhưng với cá nhân và chuyên gia, việc tirừơng tác với các mô hình AI có thể trở nên khó khăn. Một trong những thách thức là khả năng các mô hình AI hoạt động chậm hoặc thậm chí không được hỗ trợ trên phần cứng hiện đại, đặc biệt là khi đối mặt với yêu cầu cao về VRAM từ các mô hình này.

Cấu hình tối thiểu với Stable Diffusion XL

Một ví dụ cụ thể về trường hợp này là mô hình Stable Diffusion XL (SDXL) mới được Stability AI phát hành, được mô tả là phiên bản "tiên tiến nhất" từ trước đến nay. Mô hình này giờ có khả năng tạo ra khuôn mặt cải thiện, văn bản dễ đọc và các tác phẩm nghệ thuật thẩm mỹ cao hơn bằng cách sử dụng các câu lệnh ngắn hơn. Tuy nhiên, để sử dụng những tính năng nâng cao này, yêu cầu phần cứng cao, đặc biệt là đối với VRAM và hiệu suất GPU.

Vậy nên, bạn cần những gì để trải nghiệm các tính năng cải thiện trên SDXL trên máy của mình tại nhà? Đầu tiên, Stability AI đã khuyến nghị các mẫu card đồ họa Nvidia cho công việc này. Chúng tôi sẽ sử dụng các sản phẩm thế hệ hiện tại và thế hệ trước để hiểu rõ hơn về hiệu suất mà bạn có thể mong đợi từ mô hình này. Mặc dù Stability AI yêu cầu ít nhất 8 GB VRAM trong thông cáo báo chí của họ, chúng tôi muốn kiểm tra tác động của việc sử dụng VRAM nhiều hơn.

Câu hỏi là liệu việc đạt chỉ đạt mức tối thiểu (hoặc chỉ cao hơn một chút) có ảnh hưởng đáng kể đến hiệu suất hay không? Và liệu GPU mạnh mẽ có thể bù đắp cho thiếu hụt về VRAM không? Để trả lời những câu hỏi này, chúng tôi đã tiến hành thử nghiệm trong phòng thí nghiệm của mình để xem mô hình hoạt động như thế nào trên phần cứng thế hệ hiện tại và trước đây. Dữ liệu thu được sẽ giúp bạn đưa ra quyết định thông minh hơn khi chọn mua mẫu card đồ họa tiếp theo.

Chấm điểm GPU SDXL cho các card đồ hoạ GeForce.

Cho các thử nghiệm này, chúng tôi sẽ sử dụng một card RTX 4060 Ti với dung lượng 16 GB, một card RTX 3080 với dung lượng 10 GB, và một card đồ hoạ RTX 3060 với dung lượng 12 GB.

Để bắt đầu, chúng tôi sẽ tiến hành thử nghiệm sáng tác tác phẩm nghệ thuật đơn giản, sử dụng các tham số mặc định để giúp các mẫu GPU của chúng ta luyện tập một cách hiệu quả.

1024 x 1024	Kích thước VRAM (GB)	Tốc độ(giây.)
RTX 4060 Ti 16G	11.4 GB	16.0 giây
RTX 3080 10G	9.7 GB	65.1 giây
RTX 3060 12G	11.7 GB	27.2 giây

Kết quả này có thể đưa ra bất ngờ cho những người thường chỉ tập trung vào quá trình đánh giá hiệu suất dựa trên các tựa game.

Card RTX 4060 Ti 16GB, với dung lượng bộ nhớ đệm 16GB VRAM, dễ dàng vượt qua các đối thủ với chỉ 16 giây để hoàn thành tác vụ. Ở vị trí thứ hai, nhờ vào dung lượng VRAM 12GB, card đồ hoạ RTX 3060 12GB hoàn thành tác vụ trong 27.2 giây. Mặc dù không đứng đầu, nhưng kết quả này vẫn khá ấn tượng.

Thật không may, do thiếu hụt về dung lượng VRAM trên mẫu RTX 3080, sức mạnh thuần tuý trong việc xử lý hình ảnh không thể hiện rõ khi hoàn thành tác vụ với thời gian vô cùng chậm, lên đến 65.1 giây! Do đó, một card RTX 4060 Ti 16GB hiện đại có vẻ sẽ vượt trội hơn so với RTX 3080 cao cấp của thế hệ trước với thời gian tạo ra hình ảnh nhanh hơn gần 4 lần.

Chấm điểm với SDXL: 1024x1024 + LoRA

Hãy thử nghiệm với yêu cầu một chút cao hơn nhé? Trong thử nghiệm tiếp theo, chúng tôi sẽ khám phá LoRA. LoRA, hay còn được gọi là Kỹ thuật Low-Rank Adaptation, cho phép điều chỉnh các mô hình Stable Diffusion theo các phong cách nghệ thuật cụ thể hoặc nhân vật. Tuy nhiên, điều này sẽ tạo áp lực lớn hơn lên VRAM của bạn, vì vậy hãy xem các thí sinh của chúng tôi sẽ thể hiện như thế nào trong thử nghiệm này. Chúng ta sẽ sử dụng LoRA để tạo ra một tác phẩm nghệ thuật mang tên 'Cybergirl', nhằm tìm hiểu sự khác biệt giữa một card đồ họa có dung lượng VRAM vừa đủ và một card dư thừa.

1024 x 1024	Kích thước VRAM (GB)	Tốc độ(giây.)
RTX 4060 Ti 16G	15.5 GB	17.0 giây
RTX 3080 10G	9.6 GB	98.8 giây
RTX 3060 12G	11.5 GB	26.8 giây

Kết quả này cho thấy, RTX 3080 dễ dàng bị đánh bại bởi các card dòng 60 sở hữu nhiều VRAM hơn. RTX 4060 Ti 16GB một lần nữa dẫn đầu khi chỉ mất 17 giây để tạo ra hình ảnh, trong khi RTX 3080 tụt lại phía sau với tốc độ chậm như rùa là 98,8 giây.

Chấm điểm SDXL: 1024x1024 + LoRA + ControlNet

Giờ hãy làm cho các bài tập trở nên khó hơn một chút để thử nghiệm các mẫu card dòng 60 với một số điều kiện bổ sung từ ControlNet.

Đầu tiên, hãy làm rõ điều ControlNet là gì. Một cách đơn giản để mô tả, ControlNet là một mô hình mạng thần kinh mà bạn có thể sử dụng để kiểm soát và điều chỉnh các thành phần trong Stable Diffusion (đầu ra). Nó cung cấp khả năng thông báo cho Stable Diffusion về việc bạn đang cung cấp tham chiếu rõ ràng cho thiết kế mà bạn muốn, bằng cách thêm nhiều điều kiện hơn vào đầu ra. Điều này giúp tinh chỉnh kết quả để nó phù hợp hơn với những gì bạn mong muốn.

1024 x 1024	Kích thước VRAM (GB)	Tốc độ(giây.)
RTX 4060 Ti 16G	15.2 GB	48.7 giây
RTX 3080 10G	9.7 GB	51 giây
RTX 3060 12G	11.5 GB	89.2 giây

Sự chênh lệch giữa các mẫu card đồ hoạ đã giảm đáng kể, với RTX 3080 gần như thu hẹp khoảng cách so với RTX 4060 Ti 16 GB và cuối cùng, nó đã vượt qua hoàn toàn RTX 3060 12 GB. Ngay cả trong bối cảnh tính toán siêu nặng như vậy, RTX 4060 Ti 16GB vẫn đứng đầu, mặc dù chênh lệch giữa các mô hình là rất nhỏ.

Stable Diffusion XL RTX 4060 Ti GPU Benchmarks 1

Chấm điểm SDXL: 1024x1024 + Upscaling

Giờ hãy thử nghiệm việc nâng tỷ lệ (upscale) một số hình ảnh. Các mô hình của dòng 60 có thể theo kịp với khả năng upscale đáng kể của RTX 3080 không? Để thực hiện những thử nghiệm này, chúng tôi sẽ sử dụng mô hình Real Enhanced Super-Resolution Generative Adversarial Networks, hay được biết đến với cái tên viết tắt quen thuộc hơn - R-ESRGAN 4x+.

1024 x 1024	Kích thước VRAM (GB)	Tốc độ(giây.)
RTX 4060 Ti 16G	10.8 GB	5.5 giây
RTX 3080 10G	10 GB	8.6 giây
RTX 3060 12G	10.4 GB	7.8 giây

Để upscale hình ảnh ở độ phân giải 1024x1024 lên gấp 2 lần, RTX 4060 Ti 16 GB hoạt động nhanh hơn cả RTX 3080 và RTX 3060 12 GB, chỉ mất 5,5 giây để hoàn thành – khiến quá trình tạo hình ảnh nhanh hơn 36% so với RTX 3080 10 GB.

1024 x 1024	Kích thước VRAM (GB)	Tốc độ(giây.)
RTX 4060 Ti 16G	10.5 GB	10 giây
RTX 3080 10G	10 GB	13 giây
RTX 3060 12G	10.4 GB	12.3 giây

Khoảng cách giữa RTX 4060 Ti 16 GB và các đối thủ ngày càng thu hẹp khi thực hiện tác vụ nâng cấp độ phân giải gấp 4 lần sử dụng bộ upscaler R-ESRGAN 4x+. Ngày nay, RTX 4060 Ti 16 GB hoàn thành tác vụ nhanh hơn 23% so với RTX 3080 10 GB, trong khi RTX 3060 12 GB vẫn duy trì tốc độ ngang ngửa với RTX 3080. Tuy nhiên, RTX 4060 Ti 16GB vẫn giữ vững vị trí đầu tiên. Nhìn chung, từ những kết quả này, có thể thấy rằng với công việc nâng cấp độ phân giải nặng, RTX 3080 ngày càng tiến gần đối thủ trong phân khúc card đồ hoạ dòng 60.

Stable Diffusion XL upscale RTX 4060 Ti GPU Benchmarks 2

Card đồ hoạ đáng giá nhất dành cho Stable Diffusion XL

Khi đề cập đến các mô hình AI như Stable Diffusion XL, việc có đủ dung lượng VRAM là điều quan trọng. Từ các thử nghiệm trên, rõ ràng RTX 4060 Ti 16GB là lựa chọn xuất sắc nhất trong số các card đồ hoạ hiện tại để thực hiện công việc tạo hình ảnh AI.