关闭广告

从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!

新智元79人阅读


新智元报道

编辑:LRST

【新智元导读】大语言模型正加速重塑软件工程领域的各个环节,从需求分析到代码生成,再到自动化测试,几乎无所不能,但衡量这些模型到底「好不好用」、「好在哪里」、「还有哪些短板」,一直缺乏系统、权威的评估工具。浙江大学、新加坡管理大学、加拿大渥太华大学等机构的研究团队,首次对291个用于评估LLMs在软件工程任务中的Benchmark进行了系统综述,为AI4SE社区绘制了一份详尽的「基准地图」与方法指南。

近年来,ChatGPT、Llama等大语言模型在软件工程领域的能力突飞猛进,从需求分析、代码生成到测试与维护几乎无所不能。但一个核心问题是:我们如何客观评估这些模型在不同软件工程任务中的表现?

在SE领域,Benchmark既是分数卡,让不同模型在同一标准下比拼;也是方向盘,引导技术改进与未来研究方向。

上一页 下一页
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

领英平台新型钓鱼骗术瞄准高净值人士,微软账号安全受威胁

IT之家 浏览 30

李亚鹏海哈金喜离婚早有预兆!女方无意说漏嘴,婚姻不能只有爱情

萌神木木 浏览 497

罗马2-0维罗纳,多夫比克破门,苏莱锁定胜局

懂球帝 浏览 69

韩国称朝鲜有2吨高浓缩铀 中方回应

北京日报 浏览 72

苹果发完M5芯片,最开心的是M1钉子户

机器之心Pro 浏览 75

青创人才说 | 柒色莲生物汪会兵:当好iPSC细胞疗域“铺路人”

上观新闻 浏览 21

2026年国家补贴来了,只需三步,收好这份省钱指南!

贝壳财经 浏览 19

科学家刊文称:发现影响癌症进展的关键细胞

新华社 浏览 19

乌克兰:大量哥伦比亚人参与对俄作战

每日经济新闻 浏览 35

斯基拉:尤文正在关注摩纳哥20岁的法国中卫马维萨

懂球帝 浏览 19

美前驻华大使驳斥"解放军40多年没打过仗":我见过他们

澎湃新闻 浏览 80

又一起券业并购获批!证监会核准国信证券成为万和证券主要股东

红星资本局 浏览 76

官方:西班牙人与22岁边锋安东尼乌-罗卡续约至2028年

直播吧 浏览 73

参加阅兵一级军士长受访:我们的受阅装备是打仗的装备

政知新媒体 浏览 78

德国15人“大军”突然撤离格陵兰 原因公布

澎湃新闻 浏览 17

部分铅中毒幼儿出院 多名家长就幼儿园附近铅矿表态

中国新闻周刊 浏览 115

俄罗斯将对多艘核潜艇进行改造

国际在线 浏览 79

第五届意大利繁花电影节片单暨日程发布!

幕味儿 浏览 531

超微电脑Q1财季营收大幅下滑15%,毛利率暴跌至9%,盘后股价重挫10%

华尔街见闻官方 浏览 47

和任正非聊一聊,会有新品牌?

道哥说车 浏览 72

美国中央司令部透露对伊朗动武全部武器装备清单

参考消息 浏览 9
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-12