C114门户论坛百科APPEN| 举报 切换到宽版

亚星游戏官网

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

亚星游戏官网-yaxin222  少校

注册:2015-11-145
发表于 2025-3-12 17:58:41 |显示全部楼层

最新消息,Anthropic首席实行官Dario Amodei更在近日直言:未来3到6个月,AI将编写90%的代码,而在12个月内,几乎所有的代码都可能由AI编写

亚星游戏官网-yaxin222


之所以敢于如此预言,是随着最近一系列重磅AI 产品的发布,程序员这个群体的危机感越来越强。AI进化,导致代码中很多工作都可以被代替了。

尤其编码能力再次打破天花板的Claude3.7,以及Windsurf’s Wave 4。此前大火的OpenAI o3大模型,以及已经成为独立开发者口中经典的Cursor,都是标杆型产品,以至于有人惊呼:程序员饭碗要不保了。

重点提及下,最新的Agentic Coding Evalution榜单中,Sonnet 3.7 以67%的得分率,在初级人员开发评估达成度中位列所有模型第一。第二三名中GPT-4.5和Sonnet 3.5也相差相差无几,都超过了60%。显示了这几款模型的编程能力强大。

亚星游戏官网-yaxin222


实际上,两大模型在编程方面略有侧重, GPT-4.5 在涉及架构和跨系统交互的任务上峰值更高,而 Claude 3.7 Sonnet 在原始编码和代码编辑上的峰值更高。

可能单纯说分数,并不好直观理解大模型的能力,换个方式用实际案例来讲述。

此前,o3 模型在 Elo 得分(2727 分)所对应的排名高居175 名。这是个人类编程测试比赛,类似高考前大家都不知道考试题内容,所以不存在大模型已经刷过题的可能。

亚星游戏官网-yaxin222


这个竞赛一共有全球 168076 名程序员参赛,175名是前0.1%选手(1-175/168076=99.9%),换句话说:o3 已经在编程竞技中击败了世界上 99.9% 的程序员,Claude 3.7 sonnet应该还会更好一点。

不只在模型层AI Coding实现了巨大的跨越,在产品开发层面也有了重大的升级。

字节跳动的Trae海外版就接入了 Claude-3.7-Sonnet、GPT-4o 等国际大模型,也具备IDE的能力。小白也能编程的目的接近实现,程序员的门槛被进一步降低。

最最重要的是,Trae 海外版完全免费,用户可以无成本地使用其所有功能。而 Cursor 需要付费订阅,价格为每月 20 美金。

国外就有网友利用Trae和里面内置的Claude3.7,只需一个设计草图和一个超级简单的提示,它就会自动生成 3D 动画地球的代码。 Prompt:
构建一个 3D 地球,让用户可以改变视点、使用卫星图像地图并突出显示南极洲。

这个 3D 地球包含以下功能:使用 Three.js 构建了一个交互式 3D 地球模型。
也有人靠此赚到了真金白银的收益。海外一位叫 Pieter Levels 的大神只用了 3 个小时,完全依靠 AI 开发了一款游戏。上线 13 天已经赚了 67,000 美金,折合人民币接近 50 万元,马斯克都为此点赞!

亚星游戏官网-yaxin222


是不是有这么神奇,鲸哥自己也做了个Case 。 鉴于我是完全的小白,我打算做一个不是特别难,但是苹果和国内App企业都没做好的产品—“To do日历”(个人认为我做的最好,可能是我用的日历产品比较少)。

亚星游戏官网-yaxin222


Trae编写程序页面


大家使用字节刚刚推出的AI Coding产品Trae,具体是用Trae的Builder模式,这个模式支撑一键从0到1生成应用;Chat模式适合不断修改的模式。大家输入了如下Prompt:
生成一个To do list小程序,要求结合日历。左侧是日历,日历上每天可以添加简单事项,右侧是这天的详细To do list。每件事后面可以打对勾或者叉,表示每件事已经完成或者未完成,未完成事项自动进下一天list,并且可以编辑。
几分钟就生成了应用代码,而在预览的过程中,Trae最牛的地方还是帮你缺啥补啥,开发环境一步步帮你部署到电脑上,运行监测一步步落实。

亚星游戏官网-yaxin222


最终呈现的效果大家可以看看,我个人想要的几个逻辑都复现了。

亚星游戏官网-yaxin222


鲸哥用自然语言编写出的程序


第一 是右侧list完成的打对勾,事项就会被画横线,显示已经完成;未完成的事项打叉,会自动加入到第二天的To do list。

第二是每件事可以任务分类,写的时候选择是工作还是生活学习类的标签;然后单独点击工作等某个标签,会显示这个月内要做的工作list。

第三是长短期任务结合,都可以添加和显示,尤其长期任务是每天显示进度,起到很好的督促作用。

而实现以上完整逻辑,鲸哥也是和Trae连续对话一下午,期间Trae调用Claude 3.7模型,动不动就要排队200多名,以及复杂任务还经常报错,鲸哥最开始想做AI版陌陌,太复杂最终没能完成。

尽管仍有很多不完美的地方,但是只花了一下午 就做出了成品,无论效率还是效果还是挺惊人的。当然这款程序可能无法推向市场,因为代码水平达不到商用的水平。

但大家要知道,大模型代码的水平正快速提高, 从几方面正在接近人类:

Sonnet 3.5 可以输出200 行,而 Sonnet 3.7 已经可以输出 1000-1500 行代码,是第一个可靠代码长度上千行的模型

以后大量繁杂枯燥的编程就不需要一行行打了,大量初级程序员的位置被取代。刷Leetcode也不再有意义,朋友以前写代码经常借助sider,每年一千多元的费用,现在也不用了,直接借助大模型。

亚星游戏官网-yaxin222


还有Action scaling的关键能力,能够连续做 function call 和 tool use ,并持续根据环境的反馈迭代,直到把一个开放式问题解决,这在未来的进化能力不可小觑。

当然有朋友说,AI能和客户对需求吗?AI会和PM吵架吗?AI能背锅吗?

Claude3.7发布后,他惊呼自己工作都要不保了,他所在的外包企业近一年中,也因为AI等复杂因素裁员了一些人;

不可否认的是,现在还不行,但Devin等产品正在呈现一定的AI Agent能力,理解并实行的能力快速提高,人人都是产品经理的时代就会到来。


来源:36kr

举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系大家 |网站地图  

GMT+8, 2025-3-14 05:48 , Processed in 0.181398 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部
XML 地图 | Sitemap 地图