人工智能聚合站,更专业的AI资源平台
Ctrl + D 收藏本站

Devin是什么?

Devin 是由AI初创公司 Cognition 开发的全球首个全自主 AI 软件工程师,具备自主学习新技术、端到端构建和部署应用、自主查找和修复代码 Bug、训练和微调 AI 模型的能力。在 SWE-bench 基准测试中,Devin 展现出超越其他 AI 模型的性能,正确解决了实际编程问题。

Devin:Cognition推出的全自主AI软件工程师智能体

Devin的主要功能

  • 具备长期推理与规划能力,可以规划和执行需要数千个决策的复杂工程任务。在处理这些任务时,能够清晰记忆每一步的相关上下文,并具备随时间演进的学习能力,还能及时修复过程中出现的错误。
  • 在开发者工具的使用上,配备了包括shell、代码编辑器和浏览器在内的常见工具,能够在一个沙盒化的计算环境中熟练工作。
  • 它拥有主动协作的能力,可以实时报告工作进度,并接受反馈意见,根据用户需求进行设计选择。
  • 能够通过阅读博客文章等资料自主学习新技术,掌握使用方法。
  • 在端到端应用构建和部署方面,可以从零开始构建并部署应用程序,比如模拟生命游戏的交互式网站,并将其部署到Netlify平台。
  • 能够自主查找并修复代码库中的Bug,协助维护和调试开源竞赛编程书籍。
  • 可以设置大型语言模型的微调,只需提供一个GitHub研究仓库的链接,即可完成相关工作。
  • 能够处理开源仓库的问题,只需要提供GitHub问题的链接,Devin便能完成所有设置和上下文收集工作。
  • 它还对成熟的生产仓库做出贡献,作为SWE-bench基准测试的一部分,Devin解决了sympy Python代数系统中的对数计算错误。
  • 具备执行实际工作的能力,在Upwork上完成编程工作,编写并调试运行计算机视觉模型的代码,最终编译报告。
Devin

Devin的评测结果

  • Devin在颇具挑战性的SWE-bench基准测试中展现出了极为卓越的表现。该测试要求参与者解决源自开源项目(如Django和scikit-learn)的实际GitHub问题。Devin成功解决了其中的13.86%,这一成绩显著优于其先前的技术水平,后者仅能解决1.96%的问题。即便在仅被告知需要编辑的确切文件的情况下,以往最佳的模型也仅能解决4.80%的问题。值得注意的是,Devin在评估过程中是独立完成的,而其他模型则获得了辅助(即明确告知需编辑哪些文件)。这一结果充分彰显了Devin在理解和解决实际编程问题方面的巨大优势。
Devin的评测结果

如何使用Devin?

  • Devin已开放使用,访问Devin官网地址即刻。
0已收藏
©版权声明:如无特殊说明,本站所有内容均为Amassai.net原创发布和所有。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。否则,我站将依法保留追究相关法律责任的权利。

评论 ( 0 )

商务微信

qrcode

商务QQ:944844479

回顶部