PTT
Submit
Submit
選擇語言
正體中文
简体中文
PTT
Stock
[新聞] GPT-5.2正式亮相!長文件推理逼近滿分、
作者:
jeff0025
2025-12-12 08:33:50
原文標題: GPT-5.2正式亮相!長文件推理逼近滿分、企業應用大進化
原文連結: https://ai.ettoday.net/news/3082692
發布時間: 2025年12月12日 06:09
記者署名: 吳立言
原文內容:
OpenAI 今(12日)正式推出全新一代模型 GPT-5.2,主打專業知識工作、長任務代理(
agentic workflows)與複雜專案處理能力。OpenAI 表示,GPT-5.2 是目前最強大的模型
系列,包含 Instant、Thinking 與 Pro 三種版本,將率先於 ChatGPT 付費用戶陸續開
放,本日同步於 API 全面上線。
OpenAI 指出,GPT-5.2 的設計目標是協助專業人士提升效率,從製作試算表、簡報、撰
寫程式碼,到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據,一般
企業戶平均每天可節省 40~60 分鐘,重度用戶甚至可省下每周10 小時以上。
GPT-5.2 Thinking 在多項專業與推理評測創下新高,其中包含:
GDPval(知識工作評測):在 44 種職業任務測試中,GPT-5.2 Thinking 與產業專家相
比 70.9% 達到平手或勝出,首次達到「整體專家級表現」。
程式能力:在 SWE-Bench Pro 實際軟體工程測試中達到 55.6% 正確率,刷新既有紀錄。
SWE-bench Verified(Python):提升至 80%。
高難度數學 FrontierMath(Tier 1–3):提升至 40.3%,為新 SOTA(state of the
art)。
AIME 2025(競賽數學):達到罕見的 100%。
這代表該模型在真實世界的工作流程中,更能自主偵錯、完成功能開發、重構大型程式碼
庫及協助工程團隊提升開發速度。
GPT-5.2 在多項核心能力上也明顯提升。首先,長上下文推理表現突破新高,在 OpenAI
MRCRv2 測試中,模型於 256k tokens 的 4-needle 任務中接近 100% 準確率,特別是在
128k~256k 範圍仍維持高度穩定,意味著能更可靠處理動輒數十萬字的合約、研究論文
與大型專案文件。
視覺理解方面同樣強化,GPT-5.2 Thinking 在科學圖表辨識(CharXiv)中的錯誤率約減
半,在專業介面理解(ScreenSpot-Pro)更大幅領先前代,使其更適用於金融、營運、工
程與設計等高度依賴視覺資訊的領域。工具調用能力則刷新紀錄,在 τ2-bench
Telecom 多輪任務中成功率達 98.7%,能更完整處理跨步驟流程,例如客服案件、資料擷
取與一條龍分析生成。
至於科研能力,GPT-5.2 在 GPQA Diamond 高難度理科題目中也取得 92~93% 的高分,
OpenAI 稱已有研究團隊在其協助下於統計學問題上產生具研究價值的證明,並經外部專
家驗證,展現其在科學與數學研究上的實質潛力。
API 定價部分,GPT-5.2 為每百萬字元 1.75 美元(輸入)與 14 美元(輸出),
GPT-5.2 Pro 則為每百萬字元 21 美元(輸入)與 168 美元(輸出)。OpenAI 表示,雖
然 GPT-5.2 單位成本較高,但由於模型在推理效率與生成品質上更精準,實際完成同等
品質任務所需的總成本反而有機會降低。GPT-5.2 提供三個版本:
Instant:快速、涵蓋大多數日常任務
Thinking:適合深度推理、文件分析、程式碼與大專案
Pro:最強版本,適合困難領域與最高品質需求
OpenAI 表示 GPT-5.2 整體輸出更一致、有條理,並針對敏感內容(心理健康、自傷訊息
等)加強安全應答。ChatGPT Plus/Pro/Business/Enterprise 今日起陸續開放,
GPT-5.1 將在三個月後從 ChatGPT 中下架(API 不受影響)。
心得/評論:
已反應? 這次發布後好像沒啥人在意 AI真的要泡沫化了嗎?
感覺OpenAI一直強調多強好像對一般使用者來說根本無感
Gemini有完整生態系 還送2TB雲端空間 又能一個人購買多人共享
然後生成圖片又強
作者:
zzzzzzzzzzzy
(zz)
2025-12-12 08:36:00
沒用了,永遠被gemini踩在腳下摩擦
作者:
jinxinmypant
(吉茵珂絲在我的褲子裡)
2025-12-12 08:49:00
晚了就不要了
作者:
elvaismylove
(艾小娃)
2025-12-12 09:32:00
這連擠牙膏都不算
作者:
redbeanbread
(尋找)
2025-12-12 09:37:00
雷曼殺到ai叫媽媽
作者:
tsubasawolfy
(悠久の翼)
2025-12-12 10:12:00
5.2付費用戶已經上了
作者:
SapiensChang
(Sapiens~)
2025-12-12 11:12:00
gemini絕對屌打gpt啦 不管寫coding和資料正確性 有google搜尋結果比對 正確性遠大於gpt
作者:
DrowningPool
(My broken dreams)
2025-12-12 11:14:00
推理還是GPT贏 gemini光記憶力就跟智障一樣
作者:
SapiensChang
(Sapiens~)
2025-12-12 11:15:00
gpt到底有什麼強項?每項測試下來gpt都被碾壓 你說grok還有強項 gpt coding跑出來八成根本還要再debug就claude和gemini幾乎都很正確gemini每個對話的token是gpt的10倍 記憶力正確但都答不對的ai 和能撐超久的短時記憶 gemini還是好用很多 我每天都在用gpt plus和gemini pro 前面那個才是很常給出智障答案…很受不了Gemini都很正確啊 前陣子才把公司的EDA驗證flow靠gemini和claude建立起來 chatgpt只會產出很多資訊垃圾生活上就出國排行程 搜索期刊 gpt只會給你一些不存在的期刊 不存在的景點自從gemini pro 3.0幾乎就沒看它犯蠢過 頂多送了跳針一下
作者:
DrowningPool
(My broken dreams)
2025-12-12 11:28:00
某人的使用心得怎麼都跟我完全相反 ccc
作者:
SapiensChang
(Sapiens~)
2025-12-12 11:32:00
可能真的是領域不同 我是科技業啦
作者:
tsubasawolfy
(悠久の翼)
2025-12-12 11:43:00
哪個年代GPT還會給你不存在的期刊...指定文獻資料庫跟peer review打下去就解決真要說缺點就是一篇可以拿來廢話很多段
作者:
verydolungbe
(小小邦)
2025-12-12 12:00:00
生態系?不就小網民乖乖付錢,是能賺多少?賺得贏微軟?
作者: salvationist ( salvationist)
2025-12-12 12:21:00
說好的開放色色的呢?在那?
作者:
beavertail97
(奏音璃)
2025-12-12 12:32:00
https://i.mopix.cc/n893d7.jpg
GPT這功能超好用,不會刪記憶,隨時開開新對話問它,都記得也有買GEMINI, NOTEBOOKLM實在太好用
作者: WSY000000000
2025-12-12 12:40:00
一樣吸金中
作者: enjoythegame (~書讀不完了#o#~)
2025-12-12 14:39:00
再不出招就沒人要了!畢竟g工具太多了
作者:
airforce1101
(我不宅)
2025-12-12 14:42:00
都買就好兩個直接買一年也才16K左右但依鄉民的能力絕對可以產出10x產值g還是有不擅長之處但目前c跟g幾乎可以處理我所有問題了
繼續閱讀
[閒聊] 2025/12/12 盤中閒聊
laptic
[新聞] 台灣無人機大突破 銘旺科獲邀烏克蘭「戰
brbear
Re: [請益] 如果有1300萬是當包租公還是買台積電
operatorm
Re: [新聞] 台灣貧富差距全球前段班!10%富人握61%財
huang19898
Re: [標的] 6696 TW 仁新 挑戰生技股之Topline Results
judy0092
[新聞] 台灣貧富差距全球前段班!10%富人握61%財
Sinreigensou
Re: [新聞] 台達電營運 大摩按讚
Kostolany
[新聞] 甲骨文財報不如預期 美股早盤大多下跌
qazxc1156892
[新聞] 麻吉大哥「爆倉模式」啟動?他週虧上億沒
enlong777
[請益] 輝達最近為什麼這麼積弱不振?
kawhiHarden
Links
booklink
Contact Us: admin [ a t ] ucptt.com