LLM Prompt 工程完全指南:從新手到專家的實戰之路

掌握 AI 對話的藝術

一份基於 2025 年最新研究的 Prompt 工程實戰指南

什麼是 Prompt 工程?

Prompt 工程 (Prompt Engineering) 是設計和優化提示詞 (prompts) 的技術,用來引導大型語言模型 (LLM) 產生高品質、準確且符合預期的輸出。這不僅是一門技術,更是一門藝術。

在 2025 年,Prompt 工程已經從簡單的「提問技巧」演化成包含格式化技術、推理架構、角色指派,甚至對抗性測試的完整學科。

核心概念

好的 prompt 不是告訴 AI「要做什麼」,而是引導它「如何思考」。就像優秀的導師不會直接給答案,而是提供正確的思考框架。

Prompt 工程的基本原則

根據 OpenAI、Anthropic 等機構的最佳實踐指南,有效的 prompt 設計遵循以下核心原則:

1. 明確性 (Specificity)

模糊的指令會導致模糊的結果。

糟糕的 Prompt

寫一篇文章

❌ 太過籠統,AI 不知道主題、長度、風格、受眾

優秀的 Prompt

撰寫一篇 800-1000 字的技術文章,主題是「React Hooks 最佳實踐」,
目標讀者是有 1-2 年經驗的前端工程師,語調專業但易懂,
包含至少 3 個實際程式碼範例,並在結尾總結 5 個關鍵要點。

✅ 明確指定長度、主題、受眾、風格、格式

2. 結構化 (Structure)

使用清晰的結構幫助 AI 理解不同部分的用途。

糟糕的 Prompt

幫我改這段話,要更專業,但別太正式,還要檢查文法,
這是訪談記錄: [一大段文字混在一起]

❌ 指令和內容混雜,AI 容易混淆

優秀的 Prompt (Claude XML 風格)

<instructions>
編輯以下訪談記錄:
1. 移除語氣詞 (嗯、啊、那個)
2. 修正文法錯誤
3. 保持口語化但專業的語調
</instructions>

<transcript>
[訪談內容放這裡]
</transcript>

<output_format>
直接輸出編輯後的文字,不需要額外說明
</output_format>

✅ 使用 XML 標籤清楚分隔指令、輸入、輸出格式

技術提示: XML 標籤的威力

Claude 經過特別訓練,能識別 XML 風格的標籤 (<instructions>、<context>、<example>)。這些標籤就像路標,幫助模型準確區分提示的不同部分,大幅降低誤解率。

其他模型 (如 GPT-4) 雖然沒有針對 XML 優化,但結構化分隔 (如 Markdown、JSON) 同樣有效。

3. 脈絡提供 (Context)

缺乏背景資訊會導致通用化的回答。

糟糕的 Prompt

寫一個市場區隔的文章

❌ 沒有產業、目標受眾、商業目標等背景

優秀的 Prompt

<context>
我們是一家 B2B SaaS 新創公司,產品是專案管理工具,
主要競爭對手是 Asana 和 Monday.com。
目標客戶是 50-200 人的科技公司。
</context>

<task>
基於以上背景,撰寫一份市場區隔分析,包含:
1. 3-5 個主要客戶族群 (persona)
2. 每個族群的痛點
3. 我們產品的差異化價值主張
4. 建議的行銷管道
</task>

✅ 提供產業、競爭態勢、目標客戶等關鍵脈絡

4. 迭代精進 (Iteration)

Prompt 工程是反覆測試和改進的過程,不是一次就完美。

初版 Prompt

快速寫出基本需求

測試結果

執行並檢視輸出

分析問題

找出不符預期的部分

改進 Prompt

增加細節或調整結構

進階技術: 從好到卓越

技術 1: Few-Shot Prompting (少樣本學習)

透過提供範例,讓 AI 理解期望的輸出模式。

實際案例: 產品文案風格統一

<task>
根據以下範例,為新產品撰寫相同風格的文案
</task>

<examples>
產品: 無線耳機
文案: 「音樂,隨心所欲。Pro Max 耳機,40 小時續航,
陪你從日出到星空。」

產品: 智慧手錶
文案: 「時間,由你定義。Fit 360 手錶,7 天續航,
見證每個重要時刻。」

產品: 行動電源
文案: 「能量,永不斷電。Power Go 行動電源,20000mAh,
支撐你的每一天冒險。」
</examples>

<new_product>
產品: 藍牙喇叭
特色: 防水 IPX7、360° 環繞音效、12 小時續航
</new_product>

AI 輸出:

「音樂,無處不在。Wave 360 喇叭,12 小時續航,在雨中也能盡情搖擺。」

最佳實踐

2-5 個範例最理想: GPT-5 研究顯示,超過 5 個範例後效能提升趨緩,但成本線性增加
範例要多樣化: 涵蓋不同情境,避免過度擬合單一模式
確保範例品質: 錯誤的範例會誤導模型

技術 2: Chain-of-Thought (思維鏈)

引導 AI 展示推理過程,提升複雜任務的準確度。

直接提問 (準確率較低)

這組奇數相加是偶數嗎? 15, 32, 7, 18, 3

AI 可能直接猜答案,容易出錯

思維鏈提示

這組奇數相加是偶數嗎? 15, 32, 7, 18, 3

請這樣思考:
1. 先找出所有奇數
2. 逐步計算加總
3. 判斷結果是奇數還是偶數

<thinking>
[讓 AI 在這裡展示推理過程]
</thinking>

<answer>
[最終答案]
</answer>

AI 輸出範例:

<thinking>
1. 找出奇數: 15, 7, 3
2. 加總: 15 + 7 = 22, 22 + 3 = 25
3. 25 是奇數
</thinking>

<answer>
否,這組奇數相加的結果是奇數 (25)
</answer>

研究發現

Google Research 在 2022 年的論文證實,思維鏈提示在數學推理、邏輯解題、常識推理等任務上,準確率提升 10-50%。

關鍵在於「強迫」模型展示中間步驟,而不是直接跳到答案。

技術 3: Role Prompting (角色扮演)

為 AI 指定特定角色,調整輸出的專業度和風格。

專家角色

你是資深 DevOps 工程師,擁有 10 年 Kubernetes 部署經驗。
請用專業但易懂的方式,解釋什麼是 Service Mesh,
並比較 Istio 和 Linkerd 的差異。
目標讀者是剛接觸容器化的後端工程師。

教育角色

你是耐心的程式語言導師,正在教一個 12 歲的學生學 Python。
請用簡單的比喻,解釋什麼是「變數」和「迴圈」,
並提供一個有趣的練習題 (不要太難)。

批判角色

你是經驗豐富的程式碼審查者,以嚴格但建設性的風格著稱。
請審查以下 Python 函式,指出:
1. 潛在的 bug 或邊界情況
2. 效能問題
3. 可讀性改善建議
4. 最佳實踐偏離

[程式碼]

重要警告: 角色不等於專業知識

當你要求 AI 扮演醫生或律師,它並不會真的具備專業訓練,只是模仿該領域的語言模式。

永遠不要將 AI 的專業角色輸出視為真實專業建議! 僅用於草稿、學習、腦力激盪。

技術 4: Task Decomposition (任務分解)

將複雜任務拆解成多個簡單步驟。

一次性複雜任務

幫我建立一個完整的成長行銷策略,包含 SEO、社群媒體、
內容行銷、電子郵件行銷、PPC、聯盟行銷,
重點放在 B2B 科技新創公司。

❌ 太過複雜,AI 容易產生泛泛之談或遺漏重點

分解成多個步驟

我們將分 4 個步驟建立成長行銷策略:

步驟 1: 客戶研究
- 定義目標客戶 (B2B 科技新創的決策者)
- 找出他們的主要痛點和資訊獲取管道

步驟 2: 管道選擇
- 基於步驟 1,從 SEO、社群、內容、郵件、PPC、聯盟中
  選出最適合的 3 個管道
- 說明為何選擇這些管道

步驟 3: 各管道策略
- 為每個選定管道制定具體執行計畫
- 包含關鍵指標 (KPI) 和資源需求

步驟 4: 整合與優先順序
- 整合各管道策略
- 建議前 90 天的執行優先順序

請先完成步驟 1,我確認後再進行下一步。

✅ 逐步推進,每步都可驗證和調整

常見錯誤與反模式

錯誤 1: 模糊與籠統

症狀

「幫我寫點東西」、「給我一些建議」、「分析這個」

為什麼這很糟?

AI 缺乏明確方向,只能產生通用、表面的回應。就像問餐廳服務生「給我一些食物」—— 技術上滿足要求,但肯定不是你想要的。

修正方法:

加入 5W1H: 誰 (受眾)、什麼 (主題/格式)、為什麼 (目的)、何時 (時間範圍)、何地 (脈絡/平台)、如何 (風格/方法)

錯誤 2: 過度複雜化

症狀

一個 prompt 塞入 10+ 個要求,多層巢狀條件,混雜不相關的指令

撰寫詳盡的成長行銷策略指南,包含 SEO (技術 SEO、內容 SEO、
外部連結)、社群媒體 (Facebook、Twitter、LinkedIn、Instagram,
每個平台都要有發文頻率和內容策略)、內容行銷 (部落格、影片、
Podcast、白皮書、案例研究)、郵件行銷 (歡迎序列、育成序列、
再互動序列)、PPC (Google Ads、Facebook Ads,包含預算分配
和 A/B 測試策略)、聯盟行銷 (夥伴招募和佣金結構),
針對 B2B 科技新創,特別是 SaaS 產品... (還有更多)

為什麼這很糟?

模型會被淹沒,可能產生混亂、遺漏重點,或輸出泛泛之談。認知負荷太高。

修正方法:

使用任務分解 —— 拆成 5-6 個獨立 prompt,每個專注一個子任務。

錯誤 3: 模糊的語言

症狀

使用「有點」、「可能」、「大概」、「類似這樣」等不明確詞彙

寫個大概 500-1500 字左右的文章,主題隨便你決定,
風格不要太正式但也別太隨便,用點比喻讓它有趣一些,
可能需要一些例子或這類的東西。

為什麼這很糟?

每個模糊點都是 AI 自由發揮的空間,結果可能偏離你的預期。

修正方法:

用精確的數字、明確的限制條件。「800-1000 字」比「大概 500-1500 字」好。「包含 3 個程式碼範例」比「可能需要一些例子」好。

錯誤 4: 指令矛盾

症狀

在 prompt 中給出互相衝突的要求

寫一份詳盡的技術文件,包含所有實作細節。
但保持簡潔,不超過 200 字。

生成一份正式的商業提案。
但使用輕鬆幽默的語調。

為什麼這很糟?

AI 必須選擇優先哪個指令,結果不可預測。在推理模型 (如 GPT-5) 上,矛盾指令會大幅降低效能和增加延遲。

修正方法:

使用 OpenAI Prompt Optimizer 等工具檢測矛盾。或手動審查,確保所有指令可以同時滿足。

錯誤 5: 超越 AI 能力

症狀

要求 AI 做它無法做到的事

預測 2025 年最賺錢的成長行銷管道

告訴我明天股市會漲還是跌

檢索我公司內部資料庫的客戶資料 (AI 沒有存取權)

為什麼這很糟?

即時資料: LLM 的知識有截止日期 (如 Claude 是 2025 年 1 月),無法存取即時資訊
主觀預測: AI 基於模式,不具備真實預測能力
私有資料: 沒有明確提供的資料,AI 無法存取

修正方法:

需要即時資料? 使用有網路搜尋功能的 AI (如 Perplexity、Bing Chat)
需要內部資料? 使用 RAG (Retrieval-Augmented Generation) 架構
需要預測? 改問「基於歷史趨勢,哪些因素可能影響...」

錯誤 6: 不迭代、不驗證

症狀

寫了一個 prompt,得到結果,直接使用,從不檢查或改進

為什麼這很糟?

AI 會產生幻覺 (hallucination) —— 編造不存在的事實、引用、統計數據。盲目信任會導致錯誤傳播。

修正方法:

永遠驗證事實性陳述,特別是統計數據、日期、人名、研究引用
迭代改進: 第一版通常不會完美,根據輸出調整 prompt
A/B 測試: 對關鍵 prompt,測試不同版本,比較結果

CO-STAR 框架: 結構化你的 Prompt

CO-STAR 是一個實用的記憶工具,幫助你確保 prompt 涵蓋所有關鍵元素:

Context (脈絡)

提供背景資訊,讓 AI 理解情境

範例: 「我們是教育科技新創,目標客戶是國中老師」

Objective (目標)

明確說明你想達成什麼

範例: 「設計一個 30 天的社群媒體內容行事曆」

Style (風格)

指定輸出的寫作風格

範例: 「使用 Seth Godin 式的簡潔有力風格」

Tone (語調)

設定情感基調

範例: 「專業但平易近人,避免行話」

Audience (受眾)

明確指出目標讀者

範例: 「針對非技術背景的產品經理」

Response (回應格式)

定義輸出的結構和格式

範例: 「Markdown 表格,包含日期、平台、內容主題、CTA」

CO-STAR 實戰範例

[C] Context:
我經營一個專注於 React 和 Next.js 的技術部落格,
目前月流量約 10,000 次訪問,主要來自 Google 搜尋。

[O] Objective:
規劃未來 30 天的內容策略,目標是提升自然搜尋流量 30%,
並增加電子報訂閱者 (目前 500 人)。

[S] Style:
使用資料導向的策略風格,參考 Backlinko 或 Ahrefs 部落格的方法論。

[T] Tone:
專業、自信,但不過度推銷。重視實用性和可執行性。

[A] Audience:
這份策略是給我自己 (部落格作者) 參考,我有中階 SEO 知識。

[R] Response:
請以 Markdown 格式輸出,包含:
1. 執行摘要 (3-5 個重點)
2. 內容主題建議 (至少 8 篇文章,附關鍵字和搜尋量估計)
3. 推廣策略 (針對每篇文章)
4. 關鍵指標追蹤建議
5. 每週行動清單

總長度 1500-2000 字。

實用工具與資源

自動化 Prompt 優化工具

OpenAI Prompt Optimizer

GPT-5 內建工具,自動偵測矛盾、模糊指令、格式問題

前往工具

Anthropic Interactive Tutorial

Claude 官方的 9 章節互動式 prompt 工程教學

前往教學

Prompt Engineering Guide

開源的 prompt 工程完整指南,涵蓋所有主流技術

前往指南

LangChain Prompt Optimizer

程式化優化 prompt,支援自動測試和版本管理

前往文件

學習資源

OpenAI Cookbook

官方範例集,涵蓋 GPT-4/GPT-5 的實際應用案例

cookbook.openai.com

Claude Docs - Prompt Engineering

Anthropic 官方文件,特別強調 XML 標籤和思維鏈技術

docs.claude.com

Learn Prompting

免費的互動式課程,從零基礎到進階技術

learnprompting.org

模型差異與選擇

不同 LLM 對 prompt 的反應不同,沒有萬用公式。以下是 2025 年主流模型的特性:

Claude (Anthropic)

強項:

XML 標籤結構化 prompt
長文本處理 (200K token 上下文)
遵循複雜多步驟指令

提示技巧:

大量使用 <instructions>、<context>、<examples> 標籤

GPT-4o / GPT-5 (OpenAI)

強項:

Few-shot learning 效率高
創意寫作和腦力激盪
程式碼生成和除錯

提示技巧:

使用 System Message 設定角色,User Message 給具體任務

Gemini 2.5 (Google)

強項:

多模態理解 (文字+圖片+影片)
搜尋整合,即時資訊存取
多語言處理

提示技巧:

需要即時資料或視覺分析時優先考慮

實驗建議

對於關鍵應用,在多個模型上測試相同 prompt,比較結果。有時同一個 prompt 在 Claude 表現優異,在 GPT-4 卻普通,反之亦然。

實戰檢查清單

在提交 prompt 前,用這份清單快速檢查:

明確性: 是否包含主題、長度、格式、風格?

脈絡: 是否提供足夠背景資訊 (受眾、目的、場景)?

結構: 是否使用標籤/分隔符清楚區分不同部分?

範例: 複雜任務是否提供 2-5 個 few-shot 範例?

推理: 需要邏輯推導的任務是否要求「逐步思考」?

輸出格式: 是否明確定義回應格式 (Markdown/JSON/表格)?

矛盾檢查: 是否存在互相衝突的指令?

能力匹配: 是否要求 AI 做它無法做到的事 (即時資料/主觀判斷)?

迭代計畫: 是否準備好根據初次結果調整 prompt?

最後的建議

Prompt 工程是一個實踐導向的技能,沒有捷徑,只有不斷嘗試。以下是我的核心建議:

從簡單開始,逐步增加細節

不要一開始就寫超級複雜的 prompt。先寫基本版本,看結果,再逐步加入約束條件。

建立你的 Prompt 範本庫

當你找到有效的 prompt 模式,保存下來。久而久之你會累積一個強大的工具箱。

永遠驗證事實

AI 會產生幻覺。任何事實性陳述 (統計、引用、日期) 都必須獨立驗證。

不同任務用不同模型

Claude 擅長長文本分析,GPT-4 擅長創意,Gemini 擅長即時資訊。根據任務選擇工具。

把 AI 當協作夥伴,不是魔法

最好的結果來自人類專業知識 + AI 效率。你負責判斷和策略,AI 負責執行和擴展。

下一步

現在你已經掌握了 prompt 工程的核心概念和技術。接下來:

立即實踐

選一個你常做的任務 (寫郵件、寫文章、程式碼審查),用今天學到的技術優化你的 prompt

實驗比較

同一個任務,寫 3 個不同版本的 prompt,記錄哪個效果最好,為什麼

深入學習

完成 Anthropic Interactive Tutorial,特別是 Chain of Thought 和 XML 標籤章節

分享與學習

加入 prompt 工程社群 (Reddit r/PromptEngineering、Discord 群組),觀摩高手技巧

參考資料

本文基於以下權威來源的研究與最佳實踐:

官方文件與指南

Anthropic - Prompt Engineering Overview https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

Claude 官方 prompt 工程指南,特別是 XML 標籤技術

OpenAI - Best Practices for Prompt Engineering https://help.openai.com/en/articles/6654000

GPT 系列模型的官方最佳實踐

OpenAI Cookbook - GPT-5 Prompt Optimization https://cookbook.openai.com/examples/gpt-5/prompt-optimization-cookbook

GPT-5 Prompt Optimizer 工具與使用指南

Microsoft Azure - Prompt Engineering Techniques https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/prompt-engineering

Azure OpenAI 的 prompt 工程技術文件

研究資源

Prompt Engineering Guide https://www.promptingguide.ai/

開源的全面 prompt 工程指南,涵蓋 Few-Shot、Chain-of-Thought 等技術

Lakera - The Ultimate Guide to Prompt Engineering in 2025 https://www.lakera.ai/blog/prompt-engineering-guide

2025 年 prompt 工程最新趨勢與最佳實踐

Palantir - Best Practices for LLM Prompt Engineering https://www.palantir.com/docs/foundry/aip/best-practices-prompt-engineering

企業級 LLM 應用的 prompt 工程指南

技術教學

Learn Prompting - Chain-of-Thought & Few-Shot https://learnprompting.org/

互動式 prompt 工程課程,涵蓋進階技術

AWS Machine Learning Blog - Prompt Engineering with Claude 3 AWS Blog

AWS 官方的 Claude 3 prompt 工程實戰教學

Anthropic Interactive Tutorial https://github.com/anthropics/prompt-eng-interactive-tutorial

Anthropic 官方的 9 章節互動式教學

常見錯誤與反模式

Common Mistakes in Prompt Engineering https://www.mxmoritz.com/article/common-mistakes-in-prompt-engineering

常見 prompt 工程錯誤與修正方法

PromptJesus - 7 Prompt Engineering Mistakes https://www.promptjesus.com/blog

新手常犯的 7 大錯誤

CO-STAR 框架

Dextralabs - Prompt Engineering for LLM https://dextralabs.com/blog/prompt-engineering-for-llm/

CO-STAR 框架詳細介紹

學術研究

Wei et al. (2022) - Chain-of-Thought Prompting

Google Research 關於思維鏈提示的原始論文,論文顯示 CoT 在推理任務上準確率提升 10-50%

資料檢索日期: 2025 年 10 月

Prompt 工程領域快速演化,建議定期查閱官方文件以獲取最新資訊。

這份指南基於 2025 年 OpenAI、Anthropic、Google 等機構的最新研究與最佳實踐。Prompt 工程仍在快速演化,持續學習是關鍵。

你最常用的 prompt 技巧是什麼? 歡迎在評論區分享!

掌握 AI 對話的藝術

什麼是 Prompt 工程?

核心概念

Prompt 工程的基本原則

1. 明確性 (Specificity)

2. 結構化 (Structure)

技術提示: XML 標籤的威力

3. 脈絡提供 (Context)

4. 迭代精進 (Iteration)

初版 Prompt

測試結果

分析問題

改進 Prompt

進階技術: 從好到卓越

技術 1: Few-Shot Prompting (少樣本學習)

實際案例: 產品文案風格統一

最佳實踐

技術 2: Chain-of-Thought (思維鏈)

研究發現

技術 3: Role Prompting (角色扮演)

專家角色

教育角色

批判角色

重要警告: 角色不等於專業知識

技術 4: Task Decomposition (任務分解)

常見錯誤與反模式

錯誤 1: 模糊與籠統

症狀

錯誤 2: 過度複雜化

症狀

錯誤 3: 模糊的語言

症狀

錯誤 4: 指令矛盾

症狀

錯誤 5: 超越 AI 能力

症狀

錯誤 6: 不迭代、不驗證

症狀

CO-STAR 框架: 結構化你的 Prompt

Context (脈絡)

Objective (目標)

Style (風格)

Tone (語調)

Audience (受眾)

Response (回應格式)

CO-STAR 實戰範例

實用工具與資源

自動化 Prompt 優化工具

OpenAI Prompt Optimizer

Anthropic Interactive Tutorial

Prompt Engineering Guide

LangChain Prompt Optimizer

學習資源

模型差異與選擇

實驗建議

實戰檢查清單

最後的建議

從簡單開始,逐步增加細節

建立你的 Prompt 範本庫

永遠驗證事實

不同任務用不同模型

把 AI 當協作夥伴,不是魔法

下一步

立即實踐

實驗比較

深入學習

分享與學習

參考資料

官方文件與指南

研究資源

技術教學

常見錯誤與反模式

CO-STAR 框架

學術研究

📜 喜歡這篇文章嗎？