Gemini có thể tạo và xử lý hình ảnh theo cách trò chuyện. Bạn có thể đưa ra câu lệnh cho Gemini bằng văn bản, hình ảnh hoặc kết hợp cả hai. Nhờ đó, bạn có thể tạo, chỉnh sửa và lặp lại các hình ảnh một cách hiệu quả chưa từng có:
- Text-to-Image: Tạo hình ảnh chất lượng cao từ nội dung mô tả bằng văn bản đơn giản hoặc phức tạp.
- Hình ảnh + Văn bản sang hình ảnh (Chỉnh sửa): Cung cấp một hình ảnh và sử dụng câu lệnh dạng văn bản để thêm, xoá hoặc sửa đổi các phần tử, thay đổi kiểu hoặc điều chỉnh việc phân loại màu.
- Nhiều hình ảnh thành một hình ảnh (Bố cục và chuyển kiểu): Sử dụng nhiều hình ảnh đầu vào để tạo một cảnh mới hoặc chuyển kiểu từ hình ảnh này sang hình ảnh khác.
- Tinh chỉnh lặp đi lặp lại: Tham gia vào một cuộc trò chuyện để tinh chỉnh dần hình ảnh của bạn qua nhiều lượt, thực hiện các điều chỉnh nhỏ cho đến khi hình ảnh hoàn hảo.
- Kết xuất văn bản có độ chân thực cao: Tạo hình ảnh chính xác có chứa văn bản dễ đọc và được đặt đúng vị trí, phù hợp với biểu trưng, sơ đồ và áp phích.
Chú ý: Tất cả hình ảnh được tạo đều có hình mờ SynthID.
Hướng dẫn và chiến lược đặt câu lệnh
Để nắm vững cách tạo hình ảnh bằng Gemini 2.5 Flash, bạn cần bắt đầu bằng một nguyên tắc cơ bản:
Mô tả cảnh, đừng chỉ liệt kê từ khoá. Điểm mạnh cốt lõi của mô hình này là khả năng hiểu ngôn ngữ một cách sâu sắc. Một đoạn văn kể chuyện, mô tả sẽ hầu như luôn tạo ra một hình ảnh tốt hơn, mạch lạc hơn so với một danh sách các từ rời rạc.
Câu lệnh để tạo hình ảnh
Các chiến lược sau đây sẽ giúp bạn tạo câu lệnh hiệu quả để tạo ra chính xác những hình ảnh mà bạn đang tìm kiếm.
1. Cảnh giống thật
Để có hình ảnh chân thực, hãy sử dụng các thuật ngữ nhiếp ảnh. Đề cập đến góc máy, loại ống kính, ánh sáng và các chi tiết nhỏ để hướng dẫn mô hình tạo ra kết quả chân thực như ảnh chụp.
A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is illuminated by [lighting description], creating a [mood] atmosphere. Captured with a [camera/lens details], emphasizing [key textures and details]. The image should be in a [aspect ratio] format.

2. Hình minh hoạ và hình dán cách điệu
Để tạo hình dán, biểu tượng hoặc thành phần, hãy nêu rõ kiểu và yêu cầu nền trong suốt.
A [style] sticker of a [subject], featuring [key characteristics] and a
[color palette]. The design should have [line style] and [shading style]. The background must be transparent.

3. Văn bản chính xác trong hình ảnh
Gemini có khả năng hiển thị văn bản vượt trội. Hãy mô tả rõ ràng về văn bản, kiểu chữ và thiết kế tổng thể.
Create a [image type] for [brand/concept] with the text "[text to render]" in a [font style]. The design should be [style description], with a [color scheme].

4. Bản mô phỏng sản phẩm và ảnh thương mại
Phù hợp để tạo ra những bức ảnh sản phẩm chuyên nghiệp, gọn gàng cho thương mại điện tử, quảng cáo hoặc hoạt động xây dựng thương hiệu.
A high-resolution, studio-lit product photograph of a [product description] on a [background surface/description]. The lighting is a [lighting setup, e.g., three-point softbox setup] to [lighting purpose]. The camera angle is a [angle type] to showcase [specific feature]. Ultra-realistic, with sharp focus on [key detail]. [Aspect ratio].

5. Thiết kế tối giản và không gian âm
Rất phù hợp để tạo nền cho trang web, bản trình bày hoặc tài liệu tiếp thị nơi văn bản sẽ được đặt lên trên.
A minimalist composition featuring a single [subject] positioned in the
[bottom-right/top-left/etc.] of the frame. The background is a vast, empty [color] canvas, creating significant negative space. Soft, subtle lighting. [Aspect ratio].

6. Nghệ thuật tuần tự (Bảng phân cảnh / Khung hình truyện tranh)
Dựa trên tính nhất quán của nhân vật và nội dung mô tả cảnh để tạo các bảng cho nghệ thuật kể chuyện bằng hình ảnh.
A single comic book panel in a [art style] style. In the foreground,
[character description and action]. In the background, [setting details]. The panel has a [dialogue/caption box] with the text "[Text]". The lighting creates a [mood] mood. [Aspect ratio].

Câu lệnh chỉnh sửa hình ảnh
Những ví dụ này cho thấy cách cung cấp hình ảnh cùng với câu lệnh văn bản để chỉnh sửa, tạo thành phần và chuyển kiểu.
1. Thêm và xoá phần tử
Cung cấp hình ảnh và mô tả thay đổi của bạn. Mô hình sẽ khớp với phong cách, ánh sáng và góc nhìn của hình ảnh gốc.
Using the provided image of [subject], please [add/remove/modify] [element] to/from the scene. Ensure the change is [description of how the change should integrate].
| Đầu vào | Đầu ra |
Một bức ảnh chân thực về một chú mèo lông xù màu gừng… | Dựa vào hình ảnh chú mèo của tôi, vui lòng thêm một chiếc mũ phù thuỷ nhỏ bằng len… |
2. Chỉnh sửa cụ thể (Tạo mặt nạ ngữ nghĩa)
Xác định “mặt nạ” theo cách trò chuyện để chỉnh sửa một phần cụ thể của hình ảnh mà không ảnh hưởng đến các phần còn lại.
Using the provided image, change only the [specific element] to [new
element/description]. Keep everything else in the image exactly the same, preserving the original style, lighting, and composition.
| Đầu vào | Đầu ra |
Cảnh quay rộng về một phòng khách hiện đại, đủ ánh sáng… | Dựa vào hình ảnh phòng khách được cung cấp, hãy chỉ thay đổi chiếc ghế sofa màu xanh dương thành chiếc ghế sofa bọc da màu nâu kiểu Chesterfield cổ điển… |
3. Chuyển đổi kiểu
Cung cấp một hình ảnh và yêu cầu mô hình tạo lại nội dung của hình ảnh đó theo một phong cách nghệ thuật khác.
Transform the provided photograph of [subject] into the artistic style of [artist/art style]. Preserve the original composition but render it with [description of stylistic elements].
| Đầu vào | Đầu ra |
Một bức ảnh chân thực, có độ phân giải cao về một con phố nhộn nhịp trong thành phố… | Biến đổi bức ảnh được cung cấp về một đường phố hiện đại trong thành phố vào ban đêm… |
4. Bố cục nâng cao: Kết hợp nhiều hình ảnh
Cung cấp nhiều hình ảnh làm bối cảnh để tạo một cảnh ghép mới. Đây là lựa chọn hoàn hảo cho bản mô phỏng sản phẩm hoặc ảnh ghép sáng tạo.
Create a new image by combining the elements from the provided images. Take the [element from image 1] and place it with/on the [element from image 2]. The final image should be a [description of the final scene].
| Đầu vào 1 | Đầu vào 2 | Đầu ra |
Ảnh chụp chuyên nghiệp về một chiếc váy mùa hè màu xanh dương có hoạ tiết hoa… | Cảnh quay toàn thân của một người phụ nữ búi tóc… | Tạo ảnh thời trang chuyên nghiệp cho thương mại điện tử… |
5. Giữ lại chi tiết có độ trung thực cao
Để đảm bảo các chi tiết quan trọng (chẳng hạn như khuôn mặt hoặc biểu trưng) được giữ nguyên trong quá trình chỉnh sửa, hãy mô tả các chi tiết đó một cách cụ thể cùng với yêu cầu chỉnh sửa của bạn.
Using the provided images, place [element from image 2] onto [element from image 1]. Ensure that the features of [element from image 1] remain completely unchanged. The added element should [description of how the element should integrate].
| Đầu vào 1 | Đầu vào 2 | Đầu ra |
Ảnh chân dung chuyên nghiệp của một phụ nữ có mái tóc nâu và đôi mắt xanh dương… | Một biểu trưng đơn giản, hiện đại có các chữ cái “G” và “A”… | Chụp ảnh đầu tiên về người phụ nữ có mái tóc nâu, mắt xanh và biểu cảm trung tính… |
Các phương pháp hay nhất
Để nâng kết quả từ tốt lên xuất sắc, hãy kết hợp những chiến lược chuyên nghiệp này vào quy trình làm việc của bạn.
- Càng cụ thể càng tốt: Bạn càng cung cấp nhiều thông tin chi tiết, bạn càng có nhiều quyền kiểm soát. Thay vì “áo giáp giả tưởng”, hãy mô tả: “áo giáp dạng tấm của người lùn được chạm khắc hoa văn lá bạc, có cổ áo cao và cầu vai có hình dáng như cánh chim ưng”.
- Cung cấp bối cảnh và ý định: Giải thích mục đích của hình ảnh. Khả năng hiểu ngữ cảnh của mô hình sẽ ảnh hưởng đến kết quả đầu ra cuối cùng. Ví dụ: “Tạo một biểu trưng cho một thương hiệu chăm sóc da tối giản, cao cấp” sẽ mang lại kết quả tốt hơn so với chỉ “Tạo một biểu trưng”.
- Lặp lại và tinh chỉnh: Đừng mong đợi một hình ảnh hoàn hảo ngay từ lần thử đầu tiên. Sử dụng tính chất đàm thoại của mô hình để thực hiện các thay đổi nhỏ. Tiếp tục đưa ra các câu lệnh như “Tuyệt vời, nhưng bạn có thể điều chỉnh ánh sáng ấm hơn một chút không?” hoặc “Giữ nguyên mọi thứ, nhưng thay đổi biểu cảm của nhân vật sao cho nghiêm túc hơn.”
- Sử dụng hướng dẫn từng bước: Đối với những cảnh phức tạp có nhiều phần tử, hãy chia câu lệnh thành các bước. “Trước tiên, hãy tạo một hình nền là khu rừng yên bình, mờ sương vào lúc bình minh. Sau đó, ở tiền cảnh, hãy thêm một bàn thờ bằng đá cổ được phủ rêu. Cuối cùng, hãy đặt một thanh kiếm phát sáng duy nhất lên trên bàn thờ.”
- Sử dụng “Câu lệnh phủ định ngữ nghĩa”: Thay vì nói “không có ô tô”, hãy mô tả cảnh mong muốn một cách tích cực: “một con đường vắng vẻ, không có dấu hiệu giao thông”.
- Kiểm soát Camera: Sử dụng ngôn ngữ nhiếp ảnh và điện ảnh để kiểm soát bố cục. Các thuật ngữ như
wide-angle shot,macro shot,low-angle perspective.
Các điểm hạn chế
- Để có hiệu suất tốt nhất, hãy sử dụng các ngôn ngữ sau: tiếng Anh, tiếng Tây Ban Nha (Mexico), tiếng Nhật, tiếng Trung (giản thể), tiếng Hindi (Ấn Độ).
- Tính năng tạo hình ảnh không hỗ trợ dữ liệu đầu vào là âm thanh hoặc video.
- Không phải lúc nào mô hình cũng tạo ra chính xác số lượng hình ảnh mà người dùng yêu cầu một cách rõ ràng.
- Mô hình này hoạt động hiệu quả nhất khi có tối đa 3 hình ảnh làm dữ liệu đầu vào.
- Khi tạo văn bản cho một hình ảnh, Gemini hoạt động hiệu quả nhất nếu bạn tạo văn bản trước rồi yêu cầu tạo hình ảnh có văn bản đó.
- Không hỗ trợ việc tải hình ảnh trẻ em lên ở Khu vực kinh tế Châu Âu (EEA), Thuỵ Sĩ và Vương quốc Anh.
- Tất cả hình ảnh được tạo đều có hình mờ SynthID.
Trường hợp sử dụng Imagen
Ngoài việc sử dụng các tính năng tạo hình ảnh tích hợp của Gemini, bạn cũng có thể truy cập vào Imagen, mô hình tạo hình ảnh chuyên biệt của Google thông qua Gemini API.
| Thuộc tính | Imagen | Hình ảnh gốc của Gemini |
|---|---|---|
| Điểm mạnh | Mô hình tạo hình ảnh mạnh mẽ nhất từ trước đến nay. Được đề xuất cho hình ảnh siêu thực, độ rõ nét cao hơn, chính tả và kiểu chữ được cải thiện. | Đề xuất mặc định. Tính linh hoạt vô song, khả năng hiểu ngữ cảnh và thao tác chỉnh sửa đơn giản, không cần mặt nạ. Có khả năng chỉnh sửa trong cuộc trò chuyện nhiều lượt một cách độc đáo. |
| Phạm vi cung cấp | Phát hành rộng rãi | Xem trước (Được phép sử dụng trong sản xuất) |
| Độ trễ | Thấp. Được tối ưu hoá để đạt hiệu suất gần như theo thời gian thực. | Cao hơn. Cần nhiều hoạt động tính toán hơn cho các chức năng nâng cao của tính năng này. |
| Chi phí | Tiết kiệm chi phí cho các công việc chuyên biệt. 0,02 USD/hình ảnh đến 0,12 USD/hình ảnh | Giá dựa trên mã thông báo. 30 USD cho mỗi 1 triệu mã thông báo đối với đầu ra là hình ảnh (đầu ra là hình ảnh được mã hoá thành mã thông báo ở mức cố định là 1.290 mã thông báo cho mỗi hình ảnh, tối đa 1024x1024px) |
| Việc cần làm được đề xuất | Chất lượng hình ảnh, độ chân thực, chi tiết nghệ thuật hoặc phong cách cụ thể (ví dụ: trường phái ấn tượng, hoạt hình Nhật Bản) là những yếu tố được ưu tiên hàng đầu.Truyền tải thương hiệu, phong cách hoặc tạo biểu trưng và thiết kế sản phẩm.Tạo lỗi chính tả hoặc lỗi kiểu chữ nâng cao. | Tạo văn bản và hình ảnh xen kẽ để kết hợp liền mạch văn bản và hình ảnh.Kết hợp các thành phần mẫu quảng cáo từ nhiều hình ảnh chỉ bằng một câu lệnh.Chỉnh sửa hình ảnh theo cách cụ thể, sửa đổi từng phần tử bằng các câu lệnh đơn giản và chỉnh sửa lặp đi lặp lại một hình ảnh.Áp dụng một thiết kế hoặc hoạ tiết cụ thể từ hình ảnh này sang hình ảnh khác mà vẫn giữ nguyên hình dạng và chi tiết của đối tượng ban đầu. |
Imagen 4 là mô hình bạn nên dùng để bắt đầu tạo hình ảnh bằng Imagen.
Chọn Imagen 4 Ultra cho các trường hợp sử dụng nâng cao hoặc khi bạn cần chất lượng hình ảnh tốt nhất (lưu ý rằng bạn chỉ có thể tạo một hình ảnh tại một thời điểm).

Một bức ảnh chân thực về một chú mèo lông xù màu gừng…
Dựa vào hình ảnh chú mèo của tôi, vui lòng thêm một chiếc mũ phù thuỷ nhỏ bằng len…
Cảnh quay rộng về một phòng khách hiện đại, đủ ánh sáng…
Dựa vào hình ảnh phòng khách được cung cấp, hãy chỉ thay đổi chiếc ghế sofa màu xanh dương thành chiếc ghế sofa bọc da màu nâu kiểu Chesterfield cổ điển…
Một bức ảnh chân thực, có độ phân giải cao về một con phố nhộn nhịp trong thành phố…
Biến đổi bức ảnh được cung cấp về một đường phố hiện đại trong thành phố vào ban đêm…
Ảnh chụp chuyên nghiệp về một chiếc váy mùa hè màu xanh dương có hoạ tiết hoa…
Cảnh quay toàn thân của một người phụ nữ búi tóc…
Tạo ảnh thời trang chuyên nghiệp cho thương mại điện tử…
Ảnh chân dung chuyên nghiệp của một phụ nữ có mái tóc nâu và đôi mắt xanh dương…
Một biểu trưng đơn giản, hiện đại có các chữ cái “G” và “A”…
Chụp ảnh đầu tiên về người phụ nữ có mái tóc nâu, mắt xanh và biểu cảm trung tính…





