Re: [請益] 軟體失業是遲早的事吧

作者: SkankHunt42 (me so horny)   2025-10-15 11:19:56
推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數?10/15 09:36
→ yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36
→ yamakazi: 才奇怪吧10/15 09:36
沒有要ㄉ一ㄤ誰的意思
就是這benchmark到底存不存在
小弟我相信 這一定是有論文的
找了一下
還真的有
https://arxiv.org/html/2501.16857v1
以下為AI翻譯 並由我這個人腦節錄:
1. 在本研究中,我們使用 GPT-4(OpenAI 於 2024 年 4 月前兩週提供的版本)作為代表
性 LLM,針對 LLM 與人類生成的 Python 程式碼,在各項效能指標上進行比較。
2. 該研究採用包含 72 項 Python 編碼任務的基準數據集,這些任務涵蓋了來自先前研究
[7]的各種軟體工程問題。一位具有軟體開發經驗的計算機專業大四學生(人類程式設計
師)為這 72 項編碼任務開發了程式碼,同時使用 GPT-4(即 2024 年 4 月可用版本)
生成程式碼樣本,以產生對等的 LLM 輸出。
3. 在編碼標準評估中,Pylint 和 Radon 分析顯示,雖然 LLM 生成與人工編寫的程式碼都
存在缺陷,但 LLM 更可能犯下可透過嚴格遵守編碼標準來避免的錯誤。儘管程度較輕,
但研究中的 LLM(以及人類)有時會忽略編碼風格和標準程序中的重要細節,這些細節對
於維護可讀性和程式碼品質至關重要。
4. 與人工生成的程式碼相比,LLM 通常會產生具有更高循環複雜度的程式碼。我們的結果表
明,LLM 傾向過度設計解決方案,這可能導致程式碼更難維護,且在軟體開發後期階段更
容易出現錯誤。
5. LLM 生成的程式碼在功能正確性測試中經常表現良好,證明了 LLMs 在自動化執行簡單且
定義明確的編碼任務上的實用性。相反地,在需要深厚領域專業知識或複雜問題解決能力
的任務中,人類程式設計師往往比 LLMs 表現更出色。
(編註:人類編寫的程式碼通過率為 54.9%,而 LLM 生成的程式碼通過率達 87.3%)
要說這篇論文缺點是什麼的話
就是他只有一個大四學生當作人類基準
所以樣本數非常不足 另外用的模型也是稍舊
歡迎質疑paper的人花錢花精力自己去做一次benchmark
學術界本來就是這樣
總之結論大概就是: 就該文獻的場景與數據來看 人類與LLM擅長的不同 優缺點不同
不過當手裡只有錘子時,在某些人看起來,所有東西都像是釘子
作者: yamakazi (大安吳彥祖)   2024-10-15 09:36:00
人類方也沒提數據啊,人類有SWE bench可以看分數?人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好才奇怪吧
作者: zyxx (321)   2025-10-15 12:02:00
作者: SuGK (GK)   2025-10-15 12:10:00
推最後一句
作者: oopFoo (3d)   2025-10-15 13:44:00
https://github.com/SWE-bench/SWE-bench/issues/465swe是蠻有參考性的。但還是有各種作弊方式,像上面就是某個漏洞,被claude,qwen跟其它llms利用來獲取更高分數。但設計者說,分數其實不要互比,要自己比自己,互比參考意義不大。因為....(原因太多,我懶的打了)
作者: DrTech (竹科管理處網軍研發人員)   2025-10-15 16:05:00
你是在反串搞笑嗎,這篇論文又不是 swe-bench verified
作者: yamakazi (大安吳彥祖)   2025-10-15 17:29:00
XD
作者: viper9709 (阿達)   2025-10-16 01:07:00
最後一句XD
作者: DrTech (竹科管理處網軍研發人員)   2025-10-16 08:36:00
論文就是拿一個沒有參考價值不知名的題目,測一個大四學生,連研討會都投不上。結果你把這種學生報告當成寶。會引用這種爛論文的人也只是出張嘴而已。外行人。第一句:沒有要ㄉ一ㄤ誰的意思,結果推文拼命ㄉ一ㄤ。果然你手裡有錘子的你,看到誰都在捶。拿出正常一點的論文,再來討論啦,外行人又愛ㄉ一ㄤ別人。不知道原PO堅持發引用一篇,連研討會都沒上的低品質論文,是要強調或能證明什麼?還是純粹故意引戰ㄉ一ㄤ人?
作者: angusyu (〒△〒)   2025-10-16 09:58:00
我聽到玻璃碎掉的聲音,不知道怎麼回事
作者: jack0204 (Jarbar王朝)   2025-10-16 10:12:00
我有點看不懂在吵什麼?感覺主題歪了
作者: Romulus (Säubern Mode)   2025-10-16 10:59:00
人類沒辦法copy而且方差太大 測benchmark就沒啥意義這樣把可以複製並且表現都差不多的工具和不具備重現性的人類用同一種評估方式就沒啥實用價值 俗稱做身體健康的本質應該和試證明理科生已墜入情網差不多一本正經講幹話 但是其實也沒那麼幹話那種感覺(
作者: cc2006 (cfc)   2025-10-16 12:56:00
原po找一個沒什麼參考價值的論文來說服別人,別人提出反對意見也很合理吧
作者: Romulus (Säubern Mode)   2025-10-16 14:24:00
就研究沒啥問題 只是沒辦法應用而已DrTech什麼時候會給你具體的批評了
作者: yamakazi (大安吳彥祖)   2025-10-16 16:58:00
推,我的論點也是差不多這樣,人類方提不出分數,目前唯一的論文看起來又是AI勝,然後人類方一直糾結你分數只有82沒到99不能用笑死就跟圍棋一樣吧,搞不好Kaggle leetcode周賽已經偷偷有AI在打了,之後再學圍棋辦一個大獎賽,公開挑戰leetcode排名前十的人類,獎金一高自然有人參賽那三百題給本科新人寫一天搞不好都沒辦法完成一題以前沒AI時,難一點的功能或蟲我都要好幾天了,現在變成五到十分鐘而且我後來看那個bench,看起來沒有人類介入,我的經驗是,一邊看他改扣一邊跟他對話,有問題指出來他幾乎可以馬上改好,甚至有時候只要跟他講遇到的問題,他自己會找到原因那個82分要是有人類介入對話,說不定可以更高
作者: abraxas (Abr.)   2025-10-16 18:44:00
「我的論點也是差不多這樣」XDD
作者: yamakazi (大安吳彥祖)   2025-10-16 19:16:00
樓上你也可以提出你關於使用AI的感想或論點
作者: viper9709 (阿達)   2025-10-16 21:00:00
推抽禮券都沒人要寫了+1 XD
作者: ripple0129 (perry tsai)   2025-10-17 03:06:00
不要激動,在這版po文沒被酸過的都不算老
作者: DrTech (竹科管理處網軍研發人員)   2025-10-17 08:38:00
原PO好愛ㄉ一ㄤ人喔。果然手裡拿著錘子的人,就是愛捶人。內文與推文,,只看到原PO一堆人身攻擊,不讓別人發表不同看法。沒看到AI到底能不能贏人類。就事論事,我欣賞原PO有自己獨立想法,為自己論點持續討論的態度,但一直人身攻擊可以省下來。原來賣顯卡公司收了這種,到處人身攻擊的員工喔,笑死。
作者: SkankHunt42 (me so horny)   2025-10-17 13:37:00
所以DrTech你可以回答一下,在你於本文中第一則推文前,我有任何攻擊你的地方嗎?
作者: DrTech (竹科管理處網軍研發人員)   2025-10-17 13:39:00
贏一個大四生=有些地方贏人類?全人類都算大四生喔。那麼不專業的邏輯,真的是賣顯卡公司該有的水準嗎。
作者: SkankHunt42 (me so horny)   2025-10-17 13:41:00
所以我一直問你輸贏到底怎麼算阿XD那這樣講,生成一個leetcode medium題目程式碼的速度人類可以贏LLM嗎?你如果需要,我很樂意找數據給你那我找到了你會承認LLM有些地方贏人類嗎?還是你要繼續找其他漏洞?還有澄清一下,我可沒說你是流氓,我寫的是我相信你該不是。還是你覺得自己是那種只准自己動手不准別人還手的人?只會索求跟無理取鬧的人就是巨嬰,我好像也只是在做事實陳述而已
作者: Suleika (Suleika)   2025-10-17 15:36:00
幫推 軟工板就得貢貢人互錘才精彩
作者: dream1124 (全新開始)   2025-10-17 23:50:00
推最後一句

Links booklink

Contact Us: admin [ a t ] ucptt.com