同樣用 AI，為什麼別人花得比你少？10 個立刻能做的「省 token」習慣

2026.06.15 省 token・AI 成本・token 詞元・AI 工作流

你以為 AI 越來越便宜？單看價目表是——模型的 token 單價兩三年來掉了約 9 成（據科技媒體 TheNextWeb，2026/6）。但弔詭的是，企業的 AI 帳單不減反增、估計漲了約 3 倍：連 Uber 都被 TechCrunch 報導（2026/6），4 個月就燒光了整年的 AI 預算。

為什麼越便宜、花越多？因為大家把 AI 從「聊個兩句」用成「放著它自己狂跑的 AI 代理（agent）」，用量整個爆掉。便宜，不代表你花得少——真正決定你花多少的，是你怎麼用。

而且這筆帳每個人都在付，只是形式不同：用 API 按量計費的人，token 是真金白銀的帳單；用吃到飽訂閱的人，token 換成的是你的時間、等待、和用量上限。對話拖得越長、來回改得越多次，兩種人都在多付——一個付錢、一個付命。

上一篇我們講過「把任務定義清楚」，那其實就是最根本的省 token 招：一次到位，不用改個五六次。這篇把剩下的招數一次補齊——10 個立刻能做的習慣，每招都附「之前 vs 之後」的對照。

先搞懂 token 是什麼，你才知道錢花在哪

**token（詞元）**是 AI 計費和運算的最小單位，可粗略想成「字的小片段」（中文大約 1 個字等於 1.5 到 2 個 token）。有三個地方同時在燒 token：你輸入的字、AI 輸出的字、還有它內部「思考」的字（如果你開了思考模式）。

最關鍵的一點：**你跟 AI 每多聊一輪，它都得把前面整段對話重讀一遍當作輸入。**所以對話拖得越長，後面每一句的成本就越貴。換句話說，「管好 token」其實就是「管好你跟 AI 的對話習慣」。

舉個例子你就有感：把一份 5,000 字的報告整段貼給 AI、只為問一個問題，光輸入就可能吃掉上萬 token；只貼相關的那兩段，往往幾百 token 就夠——同一個答案，成本可以差上幾十倍。下面這 10 招，分成四群。

《省 token 的四群習慣》框架圖：第一群餵料（給得精準）、第二群對話（別讓脈絡滾雪球）、第三群輸出（先設限再生成）、第四群選擇（對的任務配對的引擎），共 10 個立刻能做的省 token 習慣。

第一群「餵料」：給得精準，不要給得多

1. 砍掉客套與贅詞 ❌「哈囉，可以麻煩你幫我把這段文字摘要一下嗎？先謝謝你囉！」 ✅「摘要以下文字，限 100 字。」 → 省在哪：客套和語助詞對 AI 理解任務沒幫助，卻照樣計費。把提示當成對同事交辦。

2. 只貼相關段落，別把整份檔案倒進去 ❌ 把 20 頁的月報整份貼上，只為問「供應鏈為什麼延遲？」 ✅ 只複製「供應鏈狀態」那一段，再問「根據這段，延遲原因是什麼？」 → 省在哪：輸入 token 隨字數線性增加；無關內容又貴、又會讓 AI 抓錯重點。

3. 固定背景放進「自訂指令／系統提示」 ❌ 每次新對話都重打：「你是資深行銷，語氣專業溫暖，用繁體中文回答……」 ✅ 在 ChatGPT 的「自訂指令（Custom Instructions）」或 Claude 的專案系統提示（system prompt）裡設定一次，之後直接問。 → 省在哪：每輪不必重貼幾十字背景；對話次數越多越划算。

第二群「對話」：別讓脈絡滾雪球

4. 換主題就開新對話 ❌ 剛跟 AI 討論完整份行銷企劃，下一句突然問「幫我寫一個 Excel 公式」。 ✅ 開一個新對話，第一句就問那個 Excel 問題。 → 省在哪：舊對話的歷史會一直被重讀、一直計費，還會讓 AI 分心、開始答非所問。

5. 長討論定期請它「摘要接力」 ❌ 來回 25 輪討論完一場活動，繼續追問細節，整串歷史每輪都被重讀。 ✅「用 100 字摘要我們目前的重點，之後我只貼這段給你。」拿到摘要後開新對話貼上續問。 → 省在哪：用一段 100 字的摘要，取代三千字的對話歷史。

第三群「輸出」：先設限，再讓它生成

6. 先要框架、再讓它展開 ❌「幫我寫一份完整的新人手冊，每個部分都要很詳細。」（一次噴出超長內容） ✅「先給我大綱五項，確認後我再請你逐項展開。」 → 省在哪：分段生成，不一次產出巨量；某段不滿意也只改那段，不必整份重跑。

7. 限制長度與格式（極端版＝「穴居人模式」） ❌「解釋一下 SWOT 分析。」（回你一段 500 字作文） ✅「用 4 個重點解釋 SWOT，每點 15 字內。」更極端的省法叫「穴居人模式（caveman mode）」：加一句「用電報式回答、去掉所有贅詞，只留關鍵字」。同一個問題，輸出能從 100 字砍到 25 字，適合你要快速掃讀重點時。 → 省在哪：輸出的字一樣要錢，也一樣要你花時間讀。

8. 直接要結構化輸出（structured output） ❌「列出這三位講者的名字、職稱、主題。」→ AI 回「第一位是王大明，他是……第二位是……」 ✅「用表格輸出，欄位為：姓名、職稱、主題。」 → 省在哪：去掉「第一位是」這種介紹語，結果直接能貼進 Excel／簡報，還省掉「再幫我整理成表格」那一輪。

第四群「選擇」：對的任務，配對的引擎

9. 簡單任務用輕量模型 ❌ 用最貴的旗艦模型問「『會議延期』的英文怎麼說？」 ✅ 切換到輕量版（各家的 Haiku／mini 等級）問同一句。 → 省在哪：輕量模型每百萬 token 的成本，可能只有旗艦的幾十分之一；把貴的留給真的需要深思的工作。

10. 非必要別開「思考模式」 ❌ 用推理模型（reasoning／thinking）問「中午開會訂什麼便當好？」 ✅ 切回一般模型、或關掉思考，再問同一題。 → 省在哪：思考模式會在背後生成大量你看不到、卻照樣計費的字，簡單任務開了只是讓它「假裝很忙」。

三個讓你多花冤枉錢的誤解

「對話開很多輪沒差，反正它記得」：它不是記得，是每一輪把全部重讀一次。聊到第 100 輪，最後一句的輸入成本可能是第 1 輪的幾十倍。
「開思考模式答案一定比較好」：思考模式是把剁骨刀，不是切水果都得用。簡單任務開了，多花錢、多等待，品質卻差不多。
「資料全部貼進去比較保險」：雜訊會稀釋重點，還可能讓它在無關內容上瞎掰。提煉過的少量資訊，比把整個垃圾桶倒給它更聰明。

不用一次做到位，今天先挑 3 招

把這些變成習慣，用 API 的人總 token 消耗大概能少三到五成，用訂閱的人來回次數和等待大概能少四到六成（經驗估計，非實測）。最有感的是單一任務：原本把 10 頁 PDF 全貼、追問五輪，改成只貼關鍵兩段、再要求結構化輸出，常常一輪就搞定。

別想著一次全改。今天先挑三個最不費力的：砍客套、限制輸出字數、簡單任務關掉思考——做一週你就有感。

對了——平台本身其實還有幾個官方省錢機制（選模型、Projects、提示快取（prompt caching）、批次（Batch）……），但能不能用要看你是「網頁版」還是「API」，這點很多文章講錯。這部分我之後會另外整理成一張《AI 省錢機制速查表》，把「哪些機制你用得到、怎麼開」一次講清楚——做好會在這裡分享。

（這套的地基，還是上一篇〈不用會寫 prompt，也能讓 AI 給得準〉；想要《AI 交辦 brief》模板，文章末尾就有。）

我是 Ray Kuo（raykuo.aiflow）——一個人 × 一套 AI 工作流的實踐者。我們下一篇見。

本文方法與案例為本人實作，草稿由 AI 協助整理。