Re: [請益] 軟體失業是遲早的事吧

作者: oopFoo (3d)   2025-10-17 08:01:49
※ 引述《SkankHunt42 (凱子爸)》之銘言:
: 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36
: → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36
: → yamakazi: 才奇怪吧 10/15 09:36
: 沒有要ㄉ一ㄤ誰的意思
: 就是這benchmark到底存不存在
現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。
https://github.com/SWE-bench/SWE-bench
swe-bench是拿github已解決的issues來作為測試。
https://openai.com/index/introducing-swe-bench-verified/
swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。
測試的題目,大部分都非常簡單。15分鐘內解決
例如variable referenced before assignment
或者parameter ignored。deprecation warning
普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。
例如
有些matrix的問題,你如果不熟,那不會做是正常的。
老實說,連東西的內容都不了解,就大談特談,我無話可講
作者: DrTech (竹科管理處網軍研發人員)   2025-10-17 08:34:00
專業。swe-bench就是人先做過的issue。swe-bench verified就是人再過濾一次,認為適合公平測試AI能力的工作。
作者: yamakazi (大安吳彥祖)   2025-10-17 08:40:00
本來就是拿有人做過的沒問題啊,不然要怎麼對答案?問題是沒有拿來測人類平均解題水平我當然知道這是有人做過的XD你知道就連大學聯考題目,也是給大一生做過才拿來考的嗎XD然後那個考的大一生,還要待在圍場裡等聯考結束才跟出題老師一起出闈
作者: DrTech (竹科管理處網軍研發人員)   2025-10-17 08:49:00
yamakazi說的對。問題在於swe-bench verified沒看過單一測試者人類的解題成績。不過好笑的又來了,swe-bench verified 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認定人解得一定比較差? 自打嘴巴。
作者: yamakazi (大安吳彥祖)   2025-10-17 09:15:00
因為我用過ai工作跟我之前自己工作比較。之前比較難的功能或蟲都好幾天才解完,現在有AI真的五到十分鐘搞定單算行數的話,我2018年左右平均一年進扣九千行,今年九月我用claude 4 sonnet一個月進扣五萬行如果我下去跟AI比benchmark,我覺得我會慘敗我自己以前一年如果進超過一萬五千行扣,就覺得蠻操的了,現在一個月進口五萬行還不覺得累就像是你各位在高中大學時期,班上就是有那種強者,你從日常跟他上課考試就知道這個人很強,我跟他比完全慘敗,不用等到比完聯考你就知道他一定上台大醫學系一樣那五萬行我幾乎每行都有review,幾乎沒有太大問題,光review code比自己手刻輕鬆多了而且他會自己make run,自己檢查log完後出報告,很多時候只要看他下個指令,看完他準備要下的指令後沒問題按yes就可以了
作者: brucetu (sec)   2025-10-17 10:07:00
能像你的專案一個月進扣五萬行的應該不多,照你這速度五個人一個月異動二十萬行 怎麼維護?你只是無腦用大量程式碼把功能做過去 自己看不到問題就說AI沒問題,老闆會很喜歡你這種 因為你交差快,反正爆掉的時候你就知道,希望半年後你還有辦法維護六個月前的那幾十顆commit
作者: Suleika (Suleika)   2025-10-17 10:11:00
y說llm進code很快沒說錯阿,但這版很少提到真正會遇到問題的一直是全局trade off,效能調教,安全性檢查......
作者: brucetu (sec)   2025-10-17 10:15:00
哦 而且我的sonnet 4.5每次任務都會犯三四個奇怪的邏輯錯誤 所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒有問題的程式碼,我感覺你要不是下指令之神應該出來開課,不然就是你真的看不到程式碼裡面的問題
作者: Suleika (Suleika)   2025-10-17 10:16:00
只要llm沒有fine-tune過,不能靠reasoning解題,就還是工具還有他說的是一年5萬...反駁都沒看清楚
作者: richardz (卍罪愛卍)   2025-10-17 10:20:00
他明明說一個月五萬...到底誰沒看清楚...
作者: Suleika (Suleika)   2025-10-17 10:21:00
拍謝我沒看清楚第二行,一個月5萬是有點誇張就是了要看寫的是啥
作者: brucetu (sec)   2025-10-17 10:27:00
我就是看到一個月五萬 怕是我看錯,反覆看了三五次他的留言,確定他是說本來一年九千現在一個月五萬,如果他是寫錯了 我會更懷疑他有好好地看AI產出的扣嗎?還是瞄一眼好像沒大問題而且功能可以動就commit了
作者: yamakazi (大安吳彥祖)   2025-10-17 10:29:00
寫systemC,就是要拼多啊,而且也沒什麼安全性問題我們有給他MD檔,md 檔裡面有範例程式,你光下prompt當然沒那麼精準我們各種md檔加起來可能也快萬行了,你prompt不可能講那麼詳細如果你發現AI常犯的錯誤,或是這次試錯了好幾次才正確,你要叫他學起來就是叫他把這次的經驗寫進去md 檔,大部分md內容也是叫AI寫不是我自己寫
作者: selfvalue (ime)   2025-10-17 10:57:00
這串我關注很久 你跟Skaut大大討論的內容都很不錯 有興趣可以來我們網站發lesswrong.comjaan tallinn(skype聯合創辦人)跟eliezer yudkowsky都有在網站寫過相關的討論串 可以註冊後開一個討論 很多人會回上來看看
作者: yamakazi (大安吳彥祖)   2025-10-17 11:14:00
一個月五萬沒錯,不過把md檔也算進去了,沒特別分開算舉個例子,他以前常常忘了先make all就直接跑程式,可能以為自己寫的是python,我就叫他寫在自己的md檔裡,以後他改完扣就會自己make all and run了,不用特別再下prompt
作者: selfvalue (ime)   2025-10-17 11:34:00
我們網站科技公司的老闆(航太 耳機等等)跟頂尖科學家工程師很多 但網站人數很少 歡迎來發言
作者: MoonCode (MoonCode)   2025-10-17 12:00:00
lesswrong 相比 reddit hackernews 有什麼特別的?
作者: selfvalue (ime)   2025-10-17 12:19:00
lesswrong跟許多機構有直接的關係 像是miri/ open philanthropy
作者: MoonCode (MoonCode)   2025-10-17 12:19:00
有關係能幹嘛 不太懂
作者: selfvalue (ime)   2025-10-17 12:20:00
像是我們網站的成員Vitalik Buterin(大家應該都知道他是誰)就有直接資持這些機構他在上面叫vbuterin 可以看我們的排行榜https://www.lesswrong.com/leaderboardhttps://en.wikipedia.org/wiki/Vitalik_ButerinArtificial intelligenceeditIn May 2021, Buterin donated $665 million to the Future of Life Institute, a nonprofit which, amongst other things, seeks to mitigate the existentialrisk from artificial intelligence. Buterin worriesthat AI could become the new dominant species onEarth, and may "end humanity for good".[45]Future of Life InstituteLogo of the Future of Life InstituteAbbreviationFLIFormationMarch 2014; 11 years agoFoundersJaan Tallinnvitalik捐了六億多美金的機構 founders 可以看看 第一個也是lw活躍用戶就是skype創辦人之一的jaan他在網站上面叫jaan在科技工作上的影響比較直接我也很喜歡hackernews 那邊也不錯上面討論的比較傾向數學 可以看看網站介紹 比較奇怪一點https://www.lesswrong.com/w/bayes-theoremhttps://www.lesswrong.com/posts/KN3BYDkWei9ADXnBy/e-t-jaynes-probability-theory-the-logic-of-science-i我們網站歡迎數學好的朋友上面的文章都很樸實 也有比較普通的人上去聊數學跟科技不要看上面用戶有人捐了幾百億台幣那些 話題跟用戶本身沒有什麼關係 大家都在聊數學相關話題vitalik是比較出色的網站成員之一數學才是最重要的
作者: MoonCode (MoonCode)   2025-10-17 13:48:00
xD 好吧 我沒有被說服 謝啦
作者: selfvalue (ime)   2025-10-17 13:57:00
上面有定期的聊天聚會 如果你是在歐美日本 可以上去看日期 去聊天一個Nasa的工作人員很愛辦 可以去吃東西 帶小狗過去玩聊數學比較小的 溫馨的我去過幾次 看過不少同行 jaan, 火箭公司的老闆 那些人 比較溫馨hackernews比較大可以上去聊數學模型 論文那些
作者: viper9709 (阿達)   2025-10-17 17:56:00
一個月五萬行@@
作者: selfvalue (ime)   2025-10-17 18:35:00
上這網站我覺不錯上去寫怎麼想 還有你怎麼用專業知識然後在去見面會這網站成員很多公司的外部專家== openai, Microsoft那些在上面答題也滿有趣的專業非常強可以去玩^tesla也有十年前網站討論的事情 不少都陸陸續續被網站成員解決/實現這一串很像上面會討論的 很多人答的不錯
作者: Romulus (Säubern Mode)   2025-10-17 23:45:00
我家的Claude 4.5才一週進四千行 我大概要手動修五批眾所皆知 一定是我prompt下太爛……XD我怎麼下prompt Claude都無法正確使用AWS SDK 想必我全責
作者: SkankHunt42 (me so horny)   2025-10-17 23:58:00
Claude 我已經棄了 聽說現在其他工具更好用而且Claude 訂價偏貴就算了還不誠實 高級模型也是用一下就沒了
作者: Romulus (Säubern Mode)   2025-10-18 00:00:00
都差不多啊 Gemini 2.5 Pro, GPT-5 都那樣從來不覺得各主流模型間有什麼很本質上的差異頂多就偶而這題A解的比較好 那題只有B解的出來 之類的
作者: art1 (人,原來不是人)   2025-10-18 00:44:00
高見龍下班後用 AI 兩個月產出十八萬行程式碼,一個月五萬好像也還好,AI 產程式碼的速度跟人比起來真是天上飛比地上爬
作者: quickey (色肥宅)   2025-10-18 07:20:00
產歸產,還是要review啊XD
作者: CRPKT (crpkt)   2025-10-19 09:33:00
領域不一樣,硬比行數沒有太大意義啦
作者: NDark (溺於黑暗)   2025-10-19 12:10:00
樓樓上 我覺得測試與審查都會終將推到AI.但是最終的問題還是回到 需求有沒有被滿足問題的最後一定是有一個核心的問題 而不是只是炫技如果只是炫技那麼市場上現在就是滿滿的AI影片
作者: newhandfun (新手方)   2025-10-21 11:20:00
等AI可以幫工程師扛責任再叫我

Links booklink

Contact Us: admin [ a t ] ucptt.com