同樣用 AI,為什麼別人花得比你少?10 個立刻能做的「省 token」習慣
你以為 AI 越來越便宜?單看價目表是——模型的 token 單價兩三年來掉了約 9 成(據科技媒體 TheNextWeb,2026/6)。但弔詭的是,企業的 AI 帳單不減反增、估計漲了約 3 倍:連 Uber 都被 TechCrunch 報導(2026/6),4 個月就燒光了整年的 AI 預算。
為什麼越便宜、花越多?因為大家把 AI 從「聊個兩句」用成「放著它自己狂跑的 AI 代理(agent)」,用量整個爆掉。便宜,不代表你花得少——真正決定你花多少的,是你怎麼用。
而且這筆帳每個人都在付,只是形式不同:用 API 按量計費的人,token 是真金白銀的帳單;用吃到飽訂閱的人,token 換成的是你的時間、等待、和用量上限。對話拖得越長、來回改得越多次,兩種人都在多付——一個付錢、一個付命。
上一篇我們講過「把任務定義清楚」,那其實就是最根本的省 token 招:一次到位,不用改個五六次。這篇把剩下的招數一次補齊——10 個立刻能做的習慣,每招都附「之前 vs 之後」的對照。
先搞懂 token 是什麼,你才知道錢花在哪
**token(詞元)**是 AI 計費和運算的最小單位,可粗略想成「字的小片段」(中文大約 1 個字等於 1.5 到 2 個 token)。有三個地方同時在燒 token:你輸入的字、AI 輸出的字、還有它內部「思考」的字(如果你開了思考模式)。
最關鍵的一點:**你跟 AI 每多聊一輪,它都得把前面整段對話重讀一遍當作輸入。**所以對話拖得越長,後面每一句的成本就越貴。換句話說,「管好 token」其實就是「管好你跟 AI 的對話習慣」。
舉個例子你就有感:把一份 5,000 字的報告整段貼給 AI、只為問一個問題,光輸入就可能吃掉上萬 token;只貼相關的那兩段,往往幾百 token 就夠——同一個答案,成本可以差上幾十倍。下面這 10 招,分成四群。

第一群「餵料」:給得精準,不要給得多
1. 砍掉客套與贅詞 ❌「哈囉,可以麻煩你幫我把這段文字摘要一下嗎?先謝謝你囉!」 ✅「摘要以下文字,限 100 字。」 → 省在哪:客套和語助詞對 AI 理解任務沒幫助,卻照樣計費。把提示當成對同事交辦。
2. 只貼相關段落,別把整份檔案倒進去 ❌ 把 20 頁的月報整份貼上,只為問「供應鏈為什麼延遲?」 ✅ 只複製「供應鏈狀態」那一段,再問「根據這段,延遲原因是什麼?」 → 省在哪:輸入 token 隨字數線性增加;無關內容又貴、又會讓 AI 抓錯重點。
3. 固定背景放進「自訂指令/系統提示」 ❌ 每次新對話都重打:「你是資深行銷,語氣專業溫暖,用繁體中文回答……」 ✅ 在 ChatGPT 的「自訂指令(Custom Instructions)」或 Claude 的專案系統提示(system prompt)裡設定一次,之後直接問。 → 省在哪:每輪不必重貼幾十字背景;對話次數越多越划算。
第二群「對話」:別讓脈絡滾雪球
4. 換主題就開新對話 ❌ 剛跟 AI 討論完整份行銷企劃,下一句突然問「幫我寫一個 Excel 公式」。 ✅ 開一個新對話,第一句就問那個 Excel 問題。 → 省在哪:舊對話的歷史會一直被重讀、一直計費,還會讓 AI 分心、開始答非所問。
5. 長討論定期請它「摘要接力」 ❌ 來回 25 輪討論完一場活動,繼續追問細節,整串歷史每輪都被重讀。 ✅「用 100 字摘要我們目前的重點,之後我只貼這段給你。」拿到摘要後開新對話貼上續問。 → 省在哪:用一段 100 字的摘要,取代三千字的對話歷史。
第三群「輸出」:先設限,再讓它生成
6. 先要框架、再讓它展開 ❌「幫我寫一份完整的新人手冊,每個部分都要很詳細。」(一次噴出超長內容) ✅「先給我大綱五項,確認後我再請你逐項展開。」 → 省在哪:分段生成,不一次產出巨量;某段不滿意也只改那段,不必整份重跑。
7. 限制長度與格式(極端版=「穴居人模式」) ❌「解釋一下 SWOT 分析。」(回你一段 500 字作文) ✅「用 4 個重點解釋 SWOT,每點 15 字內。」 更極端的省法叫「穴居人模式(caveman mode)」:加一句「用電報式回答、去掉所有贅詞,只留關鍵字」。同一個問題,輸出能從 100 字砍到 25 字,適合你要快速掃讀重點時。 → 省在哪:輸出的字一樣要錢,也一樣要你花時間讀。
8. 直接要結構化輸出(structured output) ❌「列出這三位講者的名字、職稱、主題。」→ AI 回「第一位是王大明,他是……第二位是……」 ✅「用表格輸出,欄位為:姓名、職稱、主題。」 → 省在哪:去掉「第一位是」這種介紹語,結果直接能貼進 Excel/簡報,還省掉「再幫我整理成表格」那一輪。
第四群「選擇」:對的任務,配對的引擎
9. 簡單任務用輕量模型 ❌ 用最貴的旗艦模型問「『會議延期』的英文怎麼說?」 ✅ 切換到輕量版(各家的 Haiku/mini 等級)問同一句。 → 省在哪:輕量模型每百萬 token 的成本,可能只有旗艦的幾十分之一;把貴的留給真的需要深思的工作。
10. 非必要別開「思考模式」 ❌ 用推理模型(reasoning/thinking)問「中午開會訂什麼便當好?」 ✅ 切回一般模型、或關掉思考,再問同一題。 → 省在哪:思考模式會在背後生成大量你看不到、卻照樣計費的字,簡單任務開了只是讓它「假裝很忙」。
三個讓你多花冤枉錢的誤解
- 「對話開很多輪沒差,反正它記得」:它不是記得,是每一輪把全部重讀一次。聊到第 100 輪,最後一句的輸入成本可能是第 1 輪的幾十倍。
- 「開思考模式答案一定比較好」:思考模式是把剁骨刀,不是切水果都得用。簡單任務開了,多花錢、多等待,品質卻差不多。
- 「資料全部貼進去比較保險」:雜訊會稀釋重點,還可能讓它在無關內容上瞎掰。提煉過的少量資訊,比把整個垃圾桶倒給它更聰明。
不用一次做到位,今天先挑 3 招
把這些變成習慣,用 API 的人總 token 消耗大概能少三到五成,用訂閱的人來回次數和等待大概能少四到六成(經驗估計,非實測)。最有感的是單一任務:原本把 10 頁 PDF 全貼、追問五輪,改成只貼關鍵兩段、再要求結構化輸出,常常一輪就搞定。
別想著一次全改。今天先挑三個最不費力的:砍客套、限制輸出字數、簡單任務關掉思考——做一週你就有感。
對了——平台本身其實還有幾個官方省錢機制(選模型、Projects、提示快取(prompt caching)、批次(Batch)……),但能不能用要看你是「網頁版」還是「API」,這點很多文章講錯。這部分我之後會另外整理成一張《AI 省錢機制速查表》,把「哪些機制你用得到、怎麼開」一次講清楚——做好會在這裡分享。
(這套的地基,還是上一篇〈不用會寫 prompt,也能讓 AI 給得準〉;想要《AI 交辦 brief》模板,文章末尾就有。)
我是 Ray Kuo(raykuo.aiflow)——一個人 × 一套 AI 工作流的實踐者。我們下一篇見。
本文方法與案例為本人實作,草稿由 AI 協助整理。