Devin是什么?
Devin 是由AI初创公司 Cognition 开发的全球首个全自主 AI 软件工程师,具备自主学习新技术、端到端构建和部署应用、自主查找和修复代码 Bug、训练和微调 AI 模型的能力。在 SWE-bench 基准测试中,Devin 展现出超越其他 AI 模型的性能,正确解决了实际编程问题。
Devin的主要功能
- 具备长期推理与规划能力,可以规划和执行需要数千个决策的复杂工程任务。在处理这些任务时,能够清晰记忆每一步的相关上下文,并具备随时间演进的学习能力,还能及时修复过程中出现的错误。
- 在开发者工具的使用上,配备了包括shell、代码编辑器和浏览器在内的常见工具,能够在一个沙盒化的计算环境中熟练工作。
- 它拥有主动协作的能力,可以实时报告工作进度,并接受反馈意见,根据用户需求进行设计选择。
- 能够通过阅读博客文章等资料自主学习新技术,掌握使用方法。
- 在端到端应用构建和部署方面,可以从零开始构建并部署应用程序,比如模拟生命游戏的交互式网站,并将其部署到Netlify平台。
- 能够自主查找并修复代码库中的Bug,协助维护和调试开源竞赛编程书籍。
- 可以设置大型语言模型的微调,只需提供一个GitHub研究仓库的链接,即可完成相关工作。
- 能够处理开源仓库的问题,只需要提供GitHub问题的链接,Devin便能完成所有设置和上下文收集工作。
- 它还对成熟的生产仓库做出贡献,作为SWE-bench基准测试的一部分,Devin解决了sympy Python代数系统中的对数计算错误。
- 具备执行实际工作的能力,在Upwork上完成编程工作,编写并调试运行计算机视觉模型的代码,最终编译报告。

Devin的评测结果
- Devin在颇具挑战性的SWE-bench基准测试中展现出了极为卓越的表现。该测试要求参与者解决源自开源项目(如Django和scikit-learn)的实际GitHub问题。Devin成功解决了其中的13.86%,这一成绩显著优于其先前的技术水平,后者仅能解决1.96%的问题。即便在仅被告知需要编辑的确切文件的情况下,以往最佳的模型也仅能解决4.80%的问题。值得注意的是,Devin在评估过程中是独立完成的,而其他模型则获得了辅助(即明确告知需编辑哪些文件)。这一结果充分彰显了Devin在理解和解决实际编程问题方面的巨大优势。

如何使用Devin?
- Devin已开放使用,访问Devin官网地址即刻。
评论 ( 0 )