How to train your own AI image models without breaking the bank

Name: How to train your own AI image models without breaking the bank
Uploaded: 2023-06-16T19:00:06.000Z
Duration: 50 min 50 s

Giới thiệu về AI và mô hình của tôi

Người thuyết trình là Maxime, một nhà thiết kế tại GitHub, đến từ Bỉ và sống ở Anh hơn 10 năm.

Giới thiệu ngắn gọn về AI, các mô hình khác nhau và khi nào nên hoặc không nên tự đào tạo mô hình.

Định nghĩa trí tuệ nhân tạo (AI) là sự mô phỏng trí thông minh con người trong máy móc.

Các ví dụ về AI hiện nay

ChatGPT là một ví dụ nổi bật về AI, có khả năng giao tiếp và hỗ trợ nhiều tác vụ.

Các công cụ như DALL-E, Midjourney và Stable Diffusion cũng là những mô hình AI nổi bật trong việc tạo ra hình ảnh.

Stable Diffusion là một mô hình mã nguồn mở nhưng chưa công khai mã nguồn để đào tạo.

Cách sử dụng các công cụ AI

Có thể sử dụng các công cụ này để tạo ý tưởng cho phim hoạt hình hoặc sản phẩm sáng tạo khác.

Ví dụ: Tạo ra hình ảnh chân thực từ các yêu cầu đơn giản như "chó ăn bánh waffle".

Các mô hình như ChatGPT dựa trên ngôn ngữ lớn, trong khi DALL-E và Midjourney dựa trên mô hình khuếch tán tiềm ẩn.

Chi phí đào tạo mô hình AI

Đào tạo các mô hình phức tạp rất tốn kém do cần hạ tầng mạnh mẽ.

Chi phí có thể lên tới hàng triệu đô la; OpenAI đã chi hơn 100 triệu đô la cho model mới nhất của họ.

Công nghệ đang cải thiện nhanh chóng; chi phí có thể giảm xuống còn 50 triệu đô la trong tương lai gần.

Lời khuyên về việc đào tạo mô hình

Không nên tự mình đào tạo một mô hình phức tạp từ đầu mà hãy để chuyên gia làm điều đó.

Có thể tinh chỉnh các mô hình đã được đào tạo sẵn bằng cách cập nhật tham số với tập dữ liệu nhỏ hơn.

Mô hình mã nguồn mở giúp dễ dàng bắt đầu tinh chỉnh mà không cần đầu tư lớn.

Các Mô Hình Tạo Hình Ảnh Từ Văn Bản

Stable Diffusion là một mô hình mã nguồn mở cho phép tinh chỉnh theo ý muốn.

Có nhiều mô hình đã được tinh chỉnh, ví dụ như mô hình Studio Ghibli tạo ra hình ảnh phong cách Totoro.

Câu hỏi đặt ra là khi nào nên tự tạo mô hình của riêng mình.

Khi Nào Nên Tự Tạo Mô Hình?

Nếu bạn muốn tạo hình ảnh AI của thú cưng, việc tự đào tạo mô hình là cần thiết.

Mô hình không được đào tạo trên dữ liệu cụ thể của chó bạn, do đó cần phải tinh chỉnh.

Đối với các nhân vật nổi tiếng, cũng nên tự đào tạo để có kết quả chính xác hơn.

Các Đối Tượng Chung và Cần Thiết Phải Tinh Chỉnh

Với các đối tượng chung như hamburger, không cần thiết phải tự đào tạo mô hình.

Tuy nhiên, nếu muốn đại diện cho một loại hamburger cụ thể như Big Mac thì nên tự đào tạo.

Đối với linh vật GitHub (Mona), cần phải tự đào tạo vì mô hình hiện tại không nhận diện đúng.

Quy Trình Tạo Mô Hình

Cần thu thập dữ liệu huấn luyện nhất quán; khoảng 10 đến 100 bức ảnh là đủ cho mỗi kiểu dáng.

Dữ liệu cần được cắt thành kích thước 512x512 pixel và đặt tên duy nhất để tránh xung đột.

Có thể sử dụng các mô hình hiện có để sinh dữ liệu huấn luyện.

Sử Dụng Google Colab Cho Việc Huấn Luyện

Google Colab cung cấp môi trường sạch sẽ với GPU mạnh mẽ để chạy mã Python.

So sánh Google Colab với GitHub Code Space nhưng sử dụng Jupyter Notebook thay vì VS Code.

Khuyến nghị trả phí khoảng 8 đô la mỗi tháng cho Google Colab để có trải nghiệm tốt hơn.

Thiết Lập Môi Trường Làm Việc

Truy cập vào collab.research.google.com và mở notebook từ URL GitHub đã cung cấp.

Thay đổi phiên bản mô hình trong phần tải xuống và đặt tên phiên làm việc là GH conf.

Hướng dẫn khởi động Dreamboot

Thay đổi số bước huấn luyện thành tổng số hình ảnh dữ liệu đã chuẩn bị nhân với 100. Nếu dưới 1500, tăng lên 2500.

Nhấn nút phát bên trái mỗi ô để chạy theo thứ tự và chờ cho đến khi chuyển sang dấu tích xanh.

Bỏ qua một số ô như "captions" và "upload the train model", tập trung vào ô huấn luyện chính.

Chạy mô hình và tạo hình ảnh

Sau khi huấn luyện xong, chạy ô tiếp theo để mở trang web kiểm tra mô hình.

Nhập prompt vào trường đầu tiên; sử dụng từ khóa GH conf cho hình ảnh đã dùng.

Trường nhập văn bản tiêu cực giúp loại bỏ các yếu tố không mong muốn trong hình ảnh.

Tối ưu hóa kết quả tạo ra

Số bước lấy mẫu có thể điều chỉnh nhưng trên 60 bước thì sự khác biệt không rõ ràng.

CFG scale quyết định mức độ tuân thủ của mô hình với các prompt đã nhập.

Kết quả nhanh chóng đạt được với phong cách Star Wars và Studio Ghibli.

Cải thiện chất lượng hình ảnh

Mô hình avatar cần đa dạng để đại diện cho nhiều người; đảm bảo tính đa dạng trong kết quả.

Hình ảnh sinh ra thường có lỗi; cần chú ý đến chi tiết như áo và mắt không thực tế.

Sử dụng kỹ thuật inpainting

Inpainting cho phép vẽ lại phần của hình ảnh để tái tạo lại khu vực đó.

Thay đổi prompt và chọn inpaint để làm mới các khu vực đã tô màu.

Kết quả cuối cùng và chỉnh sửa bằng tay

Kết quả cải thiện đáng kể sau khi tái tạo, đặc biệt là về áo và mắt.

Inpainting không hoàn hảo; cần sử dụng công cụ như Photoshop để xử lý thêm.

Kỹ Thuật Upsizing Hình Ảnh

Hình ảnh kích thước 512x512 pixel rất nhỏ, cần sử dụng kỹ thuật upsizing để phóng to hình ảnh.

Sử dụng AI để phóng to hình ảnh lên 4 lần, từ 512 pixel lên 2048 pixel mà vẫn giữ được chi tiết.

Kỹ thuật "image to image" cho phép tạo ra các biến thể của hình ảnh gốc bằng cách thay đổi một số từ khóa.

Tạo Biến Thể Hình Ảnh

Tải lên hình ảnh gốc và thay đổi từ khóa để tạo phiên bản nữ cho cùng một bức tranh.

Việc này giúp nhanh chóng tạo ra bộ sưu tập đa dạng cho thư viện avatar.