How to train your own AI image models without breaking the bank
Giới thiệu về AI và mô hình của tôi
- Người thuyết trình là Maxime, một nhà thiết kế tại GitHub, đến từ Bỉ và sống ở Anh hơn 10 năm.
- Giới thiệu ngắn gọn về AI, các mô hình khác nhau và khi nào nên hoặc không nên tự đào tạo mô hình.
- Định nghĩa trí tuệ nhân tạo (AI) là sự mô phỏng trí thông minh con người trong máy móc.
Các ví dụ về AI hiện nay
- ChatGPT là một ví dụ nổi bật về AI, có khả năng giao tiếp và hỗ trợ nhiều tác vụ.
- Các công cụ như DALL-E, Midjourney và Stable Diffusion cũng là những mô hình AI nổi bật trong việc tạo ra hình ảnh.
- Stable Diffusion là một mô hình mã nguồn mở nhưng chưa công khai mã nguồn để đào tạo.
Cách sử dụng các công cụ AI
- Có thể sử dụng các công cụ này để tạo ý tưởng cho phim hoạt hình hoặc sản phẩm sáng tạo khác.
- Ví dụ: Tạo ra hình ảnh chân thực từ các yêu cầu đơn giản như "chó ăn bánh waffle".
- Các mô hình như ChatGPT dựa trên ngôn ngữ lớn, trong khi DALL-E và Midjourney dựa trên mô hình khuếch tán tiềm ẩn.
Chi phí đào tạo mô hình AI
- Đào tạo các mô hình phức tạp rất tốn kém do cần hạ tầng mạnh mẽ.
- Chi phí có thể lên tới hàng triệu đô la; OpenAI đã chi hơn 100 triệu đô la cho model mới nhất của họ.
- Công nghệ đang cải thiện nhanh chóng; chi phí có thể giảm xuống còn 50 triệu đô la trong tương lai gần.
Lời khuyên về việc đào tạo mô hình
- Không nên tự mình đào tạo một mô hình phức tạp từ đầu mà hãy để chuyên gia làm điều đó.
- Có thể tinh chỉnh các mô hình đã được đào tạo sẵn bằng cách cập nhật tham số với tập dữ liệu nhỏ hơn.
- Mô hình mã nguồn mở giúp dễ dàng bắt đầu tinh chỉnh mà không cần đầu tư lớn.
Các Mô Hình Tạo Hình Ảnh Từ Văn Bản
- Stable Diffusion là một mô hình mã nguồn mở cho phép tinh chỉnh theo ý muốn.
- Có nhiều mô hình đã được tinh chỉnh, ví dụ như mô hình Studio Ghibli tạo ra hình ảnh phong cách Totoro.
- Câu hỏi đặt ra là khi nào nên tự tạo mô hình của riêng mình.
Khi Nào Nên Tự Tạo Mô Hình?
- Nếu bạn muốn tạo hình ảnh AI của thú cưng, việc tự đào tạo mô hình là cần thiết.
- Mô hình không được đào tạo trên dữ liệu cụ thể của chó bạn, do đó cần phải tinh chỉnh.
- Đối với các nhân vật nổi tiếng, cũng nên tự đào tạo để có kết quả chính xác hơn.
Các Đối Tượng Chung và Cần Thiết Phải Tinh Chỉnh
- Với các đối tượng chung như hamburger, không cần thiết phải tự đào tạo mô hình.
- Tuy nhiên, nếu muốn đại diện cho một loại hamburger cụ thể như Big Mac thì nên tự đào tạo.
- Đối với linh vật GitHub (Mona), cần phải tự đào tạo vì mô hình hiện tại không nhận diện đúng.
Quy Trình Tạo Mô Hình
- Cần thu thập dữ liệu huấn luyện nhất quán; khoảng 10 đến 100 bức ảnh là đủ cho mỗi kiểu dáng.
- Dữ liệu cần được cắt thành kích thước 512x512 pixel và đặt tên duy nhất để tránh xung đột.
- Có thể sử dụng các mô hình hiện có để sinh dữ liệu huấn luyện.
Sử Dụng Google Colab Cho Việc Huấn Luyện
- Google Colab cung cấp môi trường sạch sẽ với GPU mạnh mẽ để chạy mã Python.
- So sánh Google Colab với GitHub Code Space nhưng sử dụng Jupyter Notebook thay vì VS Code.
- Khuyến nghị trả phí khoảng 8 đô la mỗi tháng cho Google Colab để có trải nghiệm tốt hơn.
Thiết Lập Môi Trường Làm Việc
- Truy cập vào collab.research.google.com và mở notebook từ URL GitHub đã cung cấp.
- Thay đổi phiên bản mô hình trong phần tải xuống và đặt tên phiên làm việc là GH conf.
Hướng dẫn khởi động Dreamboot
- Thay đổi số bước huấn luyện thành tổng số hình ảnh dữ liệu đã chuẩn bị nhân với 100. Nếu dưới 1500, tăng lên 2500.
- Nhấn nút phát bên trái mỗi ô để chạy theo thứ tự và chờ cho đến khi chuyển sang dấu tích xanh.
- Bỏ qua một số ô như "captions" và "upload the train model", tập trung vào ô huấn luyện chính.
Chạy mô hình và tạo hình ảnh
- Sau khi huấn luyện xong, chạy ô tiếp theo để mở trang web kiểm tra mô hình.
- Nhập prompt vào trường đầu tiên; sử dụng từ khóa GH conf cho hình ảnh đã dùng.
- Trường nhập văn bản tiêu cực giúp loại bỏ các yếu tố không mong muốn trong hình ảnh.
Tối ưu hóa kết quả tạo ra
- Số bước lấy mẫu có thể điều chỉnh nhưng trên 60 bước thì sự khác biệt không rõ ràng.
- CFG scale quyết định mức độ tuân thủ của mô hình với các prompt đã nhập.
- Kết quả nhanh chóng đạt được với phong cách Star Wars và Studio Ghibli.
Cải thiện chất lượng hình ảnh
- Mô hình avatar cần đa dạng để đại diện cho nhiều người; đảm bảo tính đa dạng trong kết quả.
- Hình ảnh sinh ra thường có lỗi; cần chú ý đến chi tiết như áo và mắt không thực tế.
Sử dụng kỹ thuật inpainting
- Inpainting cho phép vẽ lại phần của hình ảnh để tái tạo lại khu vực đó.
- Thay đổi prompt và chọn inpaint để làm mới các khu vực đã tô màu.
Kết quả cuối cùng và chỉnh sửa bằng tay
- Kết quả cải thiện đáng kể sau khi tái tạo, đặc biệt là về áo và mắt.
- Inpainting không hoàn hảo; cần sử dụng công cụ như Photoshop để xử lý thêm.
Kỹ Thuật Upsizing Hình Ảnh
- Hình ảnh kích thước 512x512 pixel rất nhỏ, cần sử dụng kỹ thuật upsizing để phóng to hình ảnh.
- Sử dụng AI để phóng to hình ảnh lên 4 lần, từ 512 pixel lên 2048 pixel mà vẫn giữ được chi tiết.
- Kỹ thuật "image to image" cho phép tạo ra các biến thể của hình ảnh gốc bằng cách thay đổi một số từ khóa.
Tạo Biến Thể Hình Ảnh
- Tải lên hình ảnh gốc và thay đổi từ khóa để tạo phiên bản nữ cho cùng một bức tranh.
- Việc này giúp nhanh chóng tạo ra bộ sưu tập đa dạng cho thư viện avatar.