如何讓 ChatGPT 摘要大量內容：不同方法的優缺點

讓 AI 做摘要是現在很常見的 AI 應用，但現在就算都使用 OpenAI，各家摘要的品質參差不齊。主要原因有兩個：

AI 摘要結果不如預期的兩個原因

1. Prompt

這可能是最關鍵的問題。「摘要」這件事不如大家想得這麼單純，它要考慮的東西不少。

舉例來說，同樣一則台積電新聞，一般大眾和投資人關注的重點就不同。如果站在一般大眾的角度摘要重點，對投資人來說無用資訊太多，該講的重點沒講；如果站在投資人角度摘要，對一般大眾來說又省略太多前提，看不懂，也不了解為什麼這是重點。

「重點」是什麼，這很因人而異。一個人認為的重點，可能是另一個人眼中的廢話。所以你不能單純用「幫我摘要重點」作為 prompt。而要針對不同情境、不同使用者，特製該情境下的 prompt。

這也是為什麼大家會讓 ChatGPT 在做廣泛閱讀時做摘要，但回到自己專業領域，通常不會信任 ChatGPT 的摘要。因為前者就算是泛泛之論仍會有點收獲，但後者對摘要的品質要求變得很高。

2. 技術選擇

這邊要先了解一下目前技術的限制。現在最強的語言模型還是 OpenAI 的 GPT-4 和 GPT-3.5。

GPT-3.5 目前在摘要上最大的問題是一次能塞的內容少。他的限制是 4096 token，如果是寫滿字的 pdf，大概就是一頁半，而且理解能力較差。

GPT-4 的優點是理解能力強，但它的速度慢，如果閱讀長一點的文章，甚至會花到 2 分鐘以上。試想，你叫 AI 幫你摘要一篇文章，結果在那邊乾等 2 分鐘，顯然並不是很愉快的閱讀體驗。更別說 GPT-4 目前價格是 GPT-3.5 的 15 倍。就算你有錢有閒，基本的 GPT-4 token 上限是 8k (三頁 pdf)，更貴的可以到 32k (12 頁 pdf)，針對真的需要摘要的大量內容，這都是杯水車薪。

所以，針對超過字數限制的文件，有哪些摘要方法呢？

如何摘要大量內容

為了解決字數上限的問題，網路上有各式各樣的應對方法，這邊是我目前看到的幾種：

只拿開頭

有一款很紅的瀏覽器擴充功能——「YouTube & Article Summary powered by ChatGPT」，之前叫做「YouTube Summary with ChatGPT」，就是用這個方法。

簡單來說，我只拿開頭能拿的字數。舉例來說，一篇文章 10,000 字，但我 GPT-3.5 只能拿 4,000 字，那我就只拿前面 4,000 字丟給 GPT 摘要。

這感覺很簡單粗暴，但後面 6,000 字不就完全沒讓 GPT 看到了嗎？這樣摘要出來的東西不就沒有結尾的結論嗎？

對，所以他還有另一種變形，也是這個擴充功能預設的方法：

先平均切分段落，然後拿每一段的開頭合起來做摘要。舉例來說，一個 YouTube 影片逐字稿 10,000 字，那我就先平分成 10 段，每段 1,000 字。接著拿每一段的開頭 400 字，加起來一樣是 4,000 字丟給 GPT 摘要。

跟上一個這個方法相比，好處是他可以比較均衡地看到整篇文章，比較有可能更全面的知道講了哪些東西。但缺點一樣就是會很有多東西沒看到，畢竟他一樣少看了 6,000 字。

總結來說，只拿開頭這個方法，不管是拿整篇文章的開頭，或是切段後拿每一段的開頭，他都忽略了很多內容。在越長的文本，這個問題會越嚴重。這是最大的缺點。

那他的優點是什麼？便宜、快。因為他只丟一次 GPT，所以要花的錢很少，速度也相對快很多。

切段後每一段都全部看，摘要後再摘要

剛剛提到切段的概念，但在上面的作法中，如果切 10 段，為了滿足一次摘要最多 4,000 字的上限，只拿每一段的開頭 400 字 (4000/10=400)。

但如果我們多摘要幾次呢？這個方法叫做 map reduce。作法是將每一段都個別摘要一次，然後最後把每一段的摘要再放在一起摘要。

聽起來蠻單純，主要要注意的是：

如何切段？如果單純用空行切段，萬一有一段字還是超過怎麼辦？(用遞迴切段)
如果每一段的摘要加起來超過字數怎麼辦？(摘兩輪不夠，不會摘三輪嗎？)

這個做法可以有很不錯的效果，但也不是沒有缺點。主要缺點是單純把每一段拿出來摘要，它會缺乏上下文。例如，當其中一段的開頭是「她接著說」，這時候 AI 因為缺乏上下文，它很可能會沒辦法給出正確的摘要，甚至是誤解文意。

給他前情提要

為了解決上面缺乏上下文的問題，又產生了另一種方法，就是給他前情提要。在 LangChain 裡，這方法叫 refine。

簡單來說，我先摘要第一段。然後把第一段的摘要 (摘要 1)，以及第二段的原文放在一起給 GPT，請他再摘要一次。接著，把這個新產生的摘要 (摘要 2) 再跟第三段放在一起給 GPT，再產生一個新的摘要 (摘要 3)。

透過這個方法，GPT 比較有機會在理解原本文章脈絡的情況下，盡可能幫你找出摘要出這篇文章的重點。

缺點呢？第一個是慢。非常慢。前面 map reduce 的方法你可以每一段摘要平行處理，但這個方法你一定要等上一段摘要完，才可以接下一段的摘要。結果就是非常慢。

第二個缺點是這種方法會讓第一段的重要性被大幅重視，如果開頭是開場或是題外話，這個方法也不ㄕㄨ適用。

分群摘要

不管是 map reduce 還是 refine，都會讓 GPT 閱讀每一個字。以我的經驗來看，一本書大概會花費 60-100 塊台幣。如果再更大量，可能對一些人來說就有點貴了，怎麼辦呢？

最近看到一個另闢蹊徑的方法，那就是帶入分群 (cluster) 的概念。

首先，一樣將長文本切成很多段落。
接著，將這些文本進行分群 (cluster)，它會將類似的段落放在一起。舉例來說，如果一本 10 萬字，共 300 頁的書，然後把每一頁切成一個段落，總共 300 個段落。接著請他分成十群，他會整理這 300 個段落，段落內容相近的擺一起，最後給你十群結果，每一群都會有很多段落。
接著，找出每一群最具代表性的段落。(與分群中心最近的向量)
最後，將這十群各自最具代表性的段落擺在一起，請 AI 摘要。

簡單說，有點像是把一本 300 頁的書先給 AI 大致看過一次，了解有哪些內容。接著，選出最具代表性的 10 頁，將這 10 頁的內容丟給 GPT 請他摘要。

比起前面 map reduce 和 refine 兩個方法，這種分群方法的好處就是便宜很多。同樣使用 OpenAI 的 API，分群用到的 embedding API，價格是 gpt-3.5-turbo 的 1/5。而且速度也快很多。

小結

重點摘要是現在最常見的 ChatGPT 應用之一。但這不只要考慮到讀者的知識背景，不同技術選擇也會有很大的不同。

如果大家還有看到其他我沒看的的方法，或是自己有一些應用的經驗，歡迎跟我分享。

AI 摘要結果不如預期的兩個原因#

1. Prompt#

2. 技術選擇#

如何摘要大量內容#

只拿開頭#

切段後每一段都全部看，摘要後再摘要#

給他前情提要#

分群摘要#

小結#