Prompt Engineering Nâng cao (Part 3): 4 Kỹ thuật Đa Phương Thức
Image generation, vision analysis, OCR, voice mode - 4 kỹ thuật multimodal biến ChatGPT/Gemini/Claude thành công cụ xử lý hình ảnh, giọng nói, tài liệu

Bạn đã làm chủ [Foundation (Part 1)](/tu-dong-hoa/kien-thuc-nen-tang/prompt-engineering-nang-cao-21-ky-thuat-part-1) và [Advanced Reasoning (Part 2)](/tu-dong-hoa/kien-thuc-nen-tang/prompt-engineering-nang-cao-21-ky-thuat-part-2). Giờ là lúc break khỏi **text-only** prompting!
Thực tế là: Hầu hết người dùng AI chỉ dùng text input → text output. Họ bỏ lỡ 70% khả năng của ChatGPT/Gemini/Claude.
AI hiện đại là multimodal - xử lý được:
- 🖼️ Images (generate + analyze)
- 👁️ Vision (nhìn ảnh và hiểu context)
- 📄 Documents (OCR + extract data)
- 🎤 Voice (conversations tự nhiên)
Sau Part 3 này, bạn sẽ:
- Tạo professional images với negative prompting + style specificity
- Phân tích competitor strategies từ store photos
- Extract + analyze data từ receipts, invoices
- Luyện interview/language với voice mode
1. Làm chủ tạo ảnh
Platforms: DALL-E (ChatGPT), Imagen (Gemini), Claude không có
Tạo ảnh AI không chỉ là "viết mô tả và hy vọng". Để có professional results, bạn cần 3 techniques:
1.1. Negative Prompting
Khái niệm: Nói rõ những gì KHÔNG muốn (thường hiệu quả hơn nói những gì muốn)
❌ Không dùng nhắc lệnh phủ định:
"A modern office space, minimalist design"
Output: Office đẹp, nhưng có cả plants, artwork, cửa sổ (bạn không muốn)
✅ Có dùng nhắc lệnh phủ định:
"Không gian văn phòng hiện đại, thiết kế tối giản
--no (không có): cây cối, tranh nghệ thuật, cửa sổ, con người, sự bừa bộn"
Đầu ra: Chính xác là phong cách tối giản như bạn muốn - sạch sẽ, trống trải, tập trung.
1.2. Cụ thể hóa phong cách
Thay vì "professional photo", hãy specify:
- Style: Architectural photography, product shot, editorial
- Camera: Canon 5D Mark IV, iPhone 14 Pro, Drone aerial
- Lens: 24mm wide, 50mm portrait, 85mm telephoto
- Lighting: Natural light golden hour, studio softbox, neon cyberpunk
- Color: Neutral palette (white/gray/wood), vibrant (neon), monochrome B&W
- Mood: Professional calm, energetic dynamic, cozy warm
Template:
Subject: [What you want]
Style: [Photography style]
Camera: [Camera + lens + settings]
Lighting: [Light source + time of day]
Color: [Color palette]
Mood: [Emotional tone]
AVOID: [Negative prompts]
Ví dụ:
"Chân dung một nữ CEO công nghệ.
Phong cách:
- Nhiếp ảnh tạp chí (Editorial photography)
- Ánh sáng điện ảnh (Cinematic lighting), tương phản cao
- Chụp bằng ống kính 85mm f/1.8 (xóa phông)
- Phim Kodak Portra 400 (màu cổ điển)"
1.3. Tỉ lệ khung hình & Ứng dụng
| Tỉ lệ | Phù hợp nhất cho | Ví dụ |
|---|---|---|
| 1:1 (Vuông) | Bài đăng mạng xã hội | Instagram feed, LinkedIn |
| 16:9 (Ngang) | Ảnh bìa blog, thuyết trình | Ảnh bìa, slide |
| 9:16 (Dọc) | Stories, Reels, TikTok | Ảnh thu nhỏ video dọc |
| 4:5 | Bài đăng Instagram (tối ưu) | Ảnh sản phẩm |
💡 Mẹo chuyên nghiệp: Tạo 4 biến thể cùng lúc (mặc định của ChatGPT), chọn cái tốt nhất, rồi tinh chỉnh từ đó.
2. Phân tích thị giác
Platforms: ChatGPT (GPT-4V), Gemini Pro Vision, Claude 3 (Opus/Sonnet)
AI không chỉ tạo ảnh - nó còn phân tích ảnh như một expert. Use cases vô tận:
2.1. Phân tích đối thủ
Tình huống: Bạn chụp ảnh cửa hàng của đối thủ
**Prompt:** (Tải ảnh lên)
"Bạn là chuyên gia về Bán lẻ và Tâm lý học hành vi.
Phân tích cách bố trí cửa hàng này. Cụ thể:
1. Vị trí sản phẩm (Cái gì ở ngang tầm mắt?)
2. Chiến lược ánh sáng (Họ làm nổi bật cái gì?)
3. Tâm lý học màu sắc
4. Cơ hội cạnh tranh (Họ đang bỏ lỡ điều gì mà chúng tôi có thể làm tốt hơn?)"
AI Output Example:
═══ PHÂN TÍCH ĐỐI THỦ: Cửa hàng XYZ ═══
1. VỊ TRÍ SẢN PHẨM
Ngang tầm mắt (vị trí đắc địa):
- Các mặt hàng giá cao ($50+) được đặt bên phải (người mua thường nhìn sang phải trước).
- Hàng giảm giá bị giấu ở các kệ dưới cùng.
2. ÁNH SÁNG
- Sử dụng đèn rọi (spotlights) ấm vào các sản phẩm mới → Tạo cảm giác 'cao cấp'.
- Lối đi tối hơn → Hướng sự tập trung vào kệ hàng.
4. CƠ HỘI
- Họ thiếu biển chỉ dẫn kỹ thuật số (digital signage).
- Khu vực thanh toán rất lộn xộn, gây ma sát khi mua hàng.
→ Cơ hội: Chúng ta có thể thắng bằng công nghệ + dịch vụ nhanh gọn
2.2. Phản hồi thiết kế
Tình huống: Đánh giá bản thiết kế giao diện (UI mockup)
**Prompt:** (Tải ảnh lên)
"Đóng vai là Giám đốc Sáng tạo (Art Director) khó tính.
Phê bình thiết kế giao diện (UI) trang đích này.
Tập trung vào:
- Phân cấp thị giác (Mắt người xem nhìn vào đâu đầu tiên?)
- Khoảng trắng (White space)
- Độ rõ ràng của lời kêu gọi hành động (CTA)
- Cảm xúc tổng thể"
3. OCR và Trí tuệ tài liệu
Support: ChatGPT, Gemini, Claude (tất cả platforms tốt)
Ứng dụng: Trích xuất văn bản từ ảnh chụp (hóa đơn, chứng từ, danh thiếp, bảng trắng) + Phân tích ngay
3.1. Trích xuất + Phân loại chi phí
[Tải lên ảnh hóa đơn]
"Trích xuất tất cả các mục hàng từ hóa đơn này vào bảng.
Phân loại từng mục vào danh mục: [Ăn uống, Đi lại, Văn phòng phẩm, Khác].
Cuối cùng, tính tổng số tiền."
Output:
═══ CHI TIẾT CHI PHÍ ═══
| Item | Category | Amount |
|------|----------|--------|
| Figma Pro annual | R&D / Software | $144 |
| Adobe Creative Cloud | Marketing | $54.99 |
| Client lunch - Bistro X | Meals | $187.50 ⚠️ |
| Office chairs (3x) | Office Supplies | $597 ⚠️ |
| ...
FLAGGED ITEMS:
⚠️ Client lunch $187.50 - Above typical $50-100 range
⚠️ Office chairs $597 - Verify if budgeted
TOTALS BY CATEGORY:
- R&D: $144
- Marketing: $54.99
- Meals: $187.50
- Office: $597
───────
TOTAL: $983.49
3.2. Thông tin cạnh tranh
Tình huống: Bạn muốn đối chiếu giá và chiến lược của đối thủ.
Prompt:
"Tôi là Giám đốc Sản phẩm của ABC Corp. Đây là tờ rơi giá của đối thủ.
1. Trích xuất tất cả các gói giá (Gói, Giá, Tính năng) vào bảng.
2. Xác định cấu trúc giá của họ (Họ đang cố gắng bán thêm cái gì?).
3. Đề xuất 3 cách để định vị sản phẩm của chúng ta rẻ hơn hoặc giá trị cao hơn."
Mẹo
- Ảnh rõ nét - Không bị mờ, đủ sáng để AI đọc được
- Đúng chiều - Xoay ảnh để văn bản thẳng hàng
- Nhiều trang - Tải lên từng trang riêng (đừng gộp chung quá nhiều)
- Kiểm tra số liệu - Luôn đối chiếu lại các con số (AI có thể nhầm lẫn số '1' và chữ 'l')
4. Chế độ giọng nói
Platform: ChatGPT Advanced Voice Mode (ChatGPT Plus, $20/mo)
Chế độ Giọng nói = Trò chuyện thời gian thực với AI như đang gọi điện. Các tình huống sử dụng vượt xa việc "trò chuyện rảnh tay":
4.1. Interview Practice
Prompt giọng nói:
"Tôi sắp có buổi phỏng vấn vị trí Quản lý Dự án.
Hãy đóng vai người phỏng vấn khó tính.
Hỏi tôi 1 câu về 'Xử lý xung đột nhóm'.
Sau khi tôi trả lời, hãy chấm điểm câu trả lời của tôi (theo thang 1-10) và gợi ý cách cải thiện theo phương pháp STAR."
Tại sao hiệu quả:
- Áp lực thời gian thực = Giống phỏng vấn thật
- Phản hồi tức thì = Không phải tự ghi âm + xem lại sau
- Lặp lại nhanh = Luyện tập 5 cuộc phỏng vấn trong 1 giờ
4.2. Language Learning
"Bạn là người bản xứ nói tiếng Anh, giọng California.
Chúng ta hãy trò chuyện về 'Sở thích'.
Mỗi khi tôi mắc lỗi ngữ pháp, đừng ngắt lời.
Hãy đợi tôi nói xong, sau đó chỉ ra lỗi và sửa lại cho tự nhiên hơn."
Lợi ích:
- Chi phí thấp - $20/tháng so với $30+/giờ thuê gia sư
- Sẵn sàng 24/7 - Luyện tập lúc 2 giờ sáng nếu muốn
- Không phán xét - Không ngại mắc lỗi
4.3. Brainstorming (Động não)
"Hãy cùng động não ý tưởng chiến dịch cho [sản phẩm: Bình nước thân thiện môi trường].
Tôi muốn ý tưởng táo bạo, lan truyền (viral).
Tôi sẽ nói một ý tưởng, bạn hãy xây dựng thêm dựa trên đó (Yes, and...).
Bắt đầu nào: 'Chúng ta hãy làm một thử thách 30 ngày không dùng nhựa...'"
Tại sao dùng giọng nói để động não:
- Nhanh hơn gõ phím
- Tự nhiên hơn dòng chảy ý tưởng
- Ít tự biên tập (nói trước khi suy nghĩ quá nhiều)
Mẹo
- Môi trường yên tĩnh - Tiếng ồn nền làm giảm độ chính xác
- Nói rõ ràng - Không quá nhanh, phát âm tròn vành rõ chữ
- Ngừng để AI xử lý - Cho 1-2 giây để AI xử lý trước khi nói tiếp
- Dùng tai nghe - Tránh tiếng vang/lặp âm
5. Câu hỏi thường gặp
Tạo ảnh bằng AI có bị vấn đề bản quyền không?
Tóm tắt: Ảnh do AI tạo ra là của bạn (trong hầu hết trường hợp)
Chi tiết:
- DALL-E (ChatGPT): Bạn sở hữu quyền thương mại
- Imagen (Gemini): Tương tự, bạn sở hữu
- Midjourney: Có giấy phép thương mại (nếu trả phí)
Lưu ý:
- Không tạo ảnh người nổi tiếng/nhân vật có thương hiệu
- Không tự nhận là "nhiếp ảnh gia con người" nếu là ảnh do AI tạo
Platform nào tốt nhất cho vision analysis?
| Trường hợp sử dụng | Nền tảng tốt nhất |
|---|---|
| Phân tích chung | GPT-4V (ChatGPT) ⭐⭐⭐⭐⭐ |
| Tài liệu dài | Gemini Pro Vision ⭐⭐⭐⭐⭐ |
| Suy luận chi tiết | Claude 3 Opus ⭐⭐⭐⭐⭐ |
Khuyến nghị: Thử cả 3 với cùng 1 ảnh, so sánh kết quả.
Voice Mode có support tiếng Việt không?
Tình trạng hiện tại (Feb 2026):
- ChatGPT Voice: Chưa (English only)
- Gemini Voice: Beta (limited Vietnamese)
Workaround: Practice English với ChatGPT Voice → Improvement tốt hơn Vietnamese chatbots.
6. Kết luận
Bạn vừa unlock 4 kỹ thuật multimodal:
Điểm chính:
✅ Image Generation Mastery
→ Negative prompting + Style specificity
→ Control aspect ratio cho use case riêng✅ Vision Analysis
→ Competitor store analysis
→ UI/UX design feedback✅ OCR + Document Intelligence
→ Extract expenses từ receipts
→ Competitive pricing intelligence✅ Voice Mode
→ Interview practice with instant feedback
→ Language learning 24/7
Tác động so với text-only prompting:
| Khả năng | Chỉ dùng Văn bản | + Đa phương thức |
|---|---|---|
| Tốc độ | Cơ bản | Nhanh hơn 2-3 lần (giọng nói, OCR) |
| Ứng dụng | Hạn chế | Gấp 10 lần tình huống |
| Chất lượng | Tốt | Chuyên nghiệp (ảnh, phân tích sâu) |
🚀 Bước tiếp theo:
- Thử 1 kỹ thuật ngay - Upload 1 ảnh competitor/receipt, analyze
- Combine với Parts trước - VD: Chain of Thought + Vision Analysis = Deep competitive insights
- Đọc Part 4 - Chuyên Gia & Tự Động Hóa (Agent Mode, Study Mode, Template Systems)
Thử thách: Tuần này, dùng multimodal cho 1 task bạn thường làm manual. VD: Analyze competitor Instagram posts, extract data từ business cards, practice presentation với voice mode.
**Bài viết trong series:** - ✅ [Part 1: Kỹ thuật nền tảng](/tu-dong-hoa/kien-thuc-nen-tang/prompt-engineering-nang-cao-21-ky-thuat-part-1) - ✅ [Part 2: Tư duy nâng cao](/tu-dong-hoa/kien-thuc-nen-tang/prompt-engineering-nang-cao-21-ky-thuat-part-2) - ✅ Part 3: Đa phương thức (Bài này) - ➡️ [Part 4: Chuyên gia & Tự động hóa](/tu-dong-hoa/kien-thuc-nen-tang/prompt-engineering-nang-cao-21-ky-thuat-part-4)
Mẫu thực hành theo skill prompt engineering
Phần này biến nội dung của bài "Prompt Engineering Nâng cao (Part 3): 4 Kỹ thuật Đa Phương Thức" thành prompt có thể dùng ngay. Nguyên tắc chính là không yêu cầu AI đoán ý: hãy đưa vai trò, nhiệm vụ, bối cảnh, dữ liệu đầu vào, tiêu chí đánh giá và định dạng đầu ra.
Mẫu 1: RTF cho tác vụ nhanh
ext Vai trò: Bạn là [chuyên gia/biên tập viên/chiến lược gia] có kinh nghiệm trong [ngữ cảnh]. Nhiệm vụ: Hãy [việc cần làm] dựa trên dữ liệu tôi cung cấp. Định dạng: Trả kết quả theo [bảng/checklist/dàn ý/JSON], dùng tiếng Việt rõ ràng, không thêm thông tin chưa có nguồn. Dữ liệu đầu vào: [dán brief, sản phẩm, khách hàng, từ khóa hoặc nội dung gốc]. Tiêu chí đạt: Kết quả phải cụ thể, có thể hành động, nêu rủi ro và bước tiếp theo.
Mẫu 2: RISEN cho việc phức tạp
ext Role: Đóng vai [vai trò chuyên môn]. Instructions: Phân tích vấn đề, hỏi lại nếu thiếu dữ liệu quan trọng, rồi đề xuất phương án. Steps: 1) Tóm tắt mục tiêu 2) Nêu giả định 3) Đưa phương án 4) Chỉ ra rủi ro 5) Đề xuất bước triển khai. End goal: Tôi cần đầu ra có thể dùng để [xuất bản/chạy ads/xây workflow/ra quyết định]. Narrowing: Không viết chung chung, không phóng đại, không dùng thuật ngữ nếu không giải thích.
Checklist tự kiểm prompt
- Mục tiêu có đo được không?
- AI có đủ bối cảnh, dữ liệu và ràng buộc chưa?
- Đầu ra mong muốn đã rõ định dạng chưa?
- Có yêu cầu AI nêu giả định, rủi ro và điểm cần kiểm chứng không?
- Có ví dụ mẫu để AI bắt đúng giọng văn hoặc tiêu chuẩn chất lượng không?
Nên đọc tiếp trong cụm này
Để biến phần hướng dẫn trong bài này thành kỹ năng dùng được lâu dài, nên nối nó với các bài pillar sau:
- Dùng khung viết prompt ChatGPT thực hành khi bạn cần chuẩn hóa câu lệnh trước khi tạo nội dung hoặc workflow.
- Xem khung 5-Box để prompt rõ hơn nếu prompt hiện tại còn thiếu vai trò, bối cảnh, dữ liệu hoặc định dạng đầu ra.
- Nếu nội dung sau cùng cần xuất bản lên blog, áp dụng checklist biên tập bài SEO bằng AI để kiểm intent, outline và bước biên tập.
Câu hỏi thường gặp
Có nên tự động hóa toàn bộ quy trình bằng AI không?
Không nên tự động hóa toàn bộ ngay từ đầu. Hãy giữ bước kiểm duyệt con người ở các phần dễ sai như dữ kiện, giọng văn, claim về công cụ, thông tin giá và nội dung có thể ảnh hưởng tới quyết định mua hàng.
Người mới nên bắt đầu từ đâu?
Người mới nên bắt đầu bằng một nhiệm vụ nhỏ, có đầu vào rõ và kết quả dễ kiểm tra. Sau khi output ổn định, mới đóng gói thành prompt, checklist hoặc workflow để tái sử dụng.
Làm sao biết nội dung AI tạo ra đủ tốt?
Hãy kiểm tra intent tìm kiếm, độ chính xác, ví dụ thực tế, nguồn tham khảo, CTA và khả năng người đọc áp dụng được. Nếu bài chỉ đúng ngữ pháp nhưng không giúp ra quyết định, cần biên tập lại.