关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元89人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

图达通拟借壳赴港上市:盈利能力略显不足, 与蔚来深度绑定

博望财经 浏览 3574

有偶像包袱别演戏!《沉默的荣耀》于和伟干饭,打脸多少假吃演员

娱乐圈笔娱君 浏览 89

福建舰未来还会搭载哪些新型舰载机 专家解析

北京日报客户端 浏览 89

中国第三艘航空母舰福建舰入列

新华社客户端 浏览 37

媒体:高市早苗疯言台湾问题 中方对她没什么好客气的

新民晚报 浏览 33

首次披露 我军新型潜艇执行远航任务画面曝光

国际在线 浏览 91

早秋第一件薄外套!跪求你买这4件,太好看了!

Yuki女人故事 浏览 97

47岁刘烨老来俏,让儿子诺一尴尬了?

草莓解说体育 浏览 65

最强充电宝国标将至,英集芯推出蓝牙智能方案引领行业升级

时代周报 浏览 35

消费大变革来了,抓住红利期!

米筐投资 浏览 94

足球报:阿奇姆彭有望成为中超“头球王”,基莱斯将夺得左脚金靴

直播吧 浏览 77

日本民众举行集会 抗议高市政权扩军修宪

国际在线 浏览 9

前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?

新智元 浏览 95

沃尔沃全新XC60与宝马X3详细比拼,豪华中型SUV怎么选才合理?

二师兄玩车 浏览 124

意大利诺:因莫比莱状态非常好,他有着20岁年轻人的特质

懂球帝 浏览 84

机器人,又杀出了第一股

投资家 浏览 27

小米汽车超级工厂供应商,斯坦德机器人赴港IPO|港E声

时代周报 浏览 33

电车销量涨不动?油车打响“销量保卫战”

少数派报告Report 浏览 31

杨采钰生子后首公开露面!35度高温穿毛衣好敬业

丁丁鲤史纪 浏览 82

山东舰“近万架次”舰载机起降透露什么信号

环球网资讯 浏览 100

唐一军16年敛财1.37亿获无期 曾通过妻子大搞权钱交易

界面新闻 浏览 23
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12