筷筷月报#15 - AI 驱动的浏览器自动化工具

Mon, January 20, 2025 - 12 min read

开源动态

1  Vue.js Nation Conference 2025

简介:Vue.js Nation 是你在 Vue 生态系统中保持领先地位的终极线上活动,展示突破性的更新、工具以及来自框架创建者、Vue.js 核心团队和社区领袖的独家见解。

届时会有 Vue.js 3.6 预览版的发布,并介绍“蒸汽模式”(Vapor Mode),以及分享 Pinia Colada 等内容。

2 Rspack v1.2.0-alpha.0

Rspack v1.2 引入了一个实验性的缓存配置,支持持久化缓存,这可以显著提高热启动速度;Rspack v1.2 默认不再监视 node_modules 目录。这可以大大减少要监视的文件数量并提高性能。

3 2024 JavaScript Rising Stars

可以用来了解 2024 年 JavaScript 生态各个方向(例如前端框架、组件库)的趋势,网站记录了各个方向上 24 年获得 GitHub Star 数 Top n 的项目。

image.png


工具推荐

1 browser-use

AI 驱动的浏览器自动化工具

Browser Use 可将 AI Agents 与浏览器进行连接。它通过为浏览器自动化提供强大而简单的界面,使 AI Agents 能够访问网站。

它有以下这些特点:

  • 结合视觉理解 + HTML 结构提取,使网页交互更精准
  • 多标签管理,自动管理多个浏览器标签
  • 元素追踪,提取点击过的元素 XPaths 并重复精确的 LLM 操作,以实现一致的自动化
  • 自定义操作,可添加自定义的操作,如保存文件、数据库处理等
  • 自我纠正,智能错误处理和自动恢复,确保自动化工作流程的稳健性
  • 兼容所有 LangChain LLMs,包括 GPT-4、Claude 3 和 Llama 2。

项目从 2024.11.06 至今已收获 13k+ star,是近期热门的项目:

image.png

2 Midscene

image.png

跟 browser use 一样也是 AI 驱动的浏览器自动化工具,由字节基建团队维护。

与其他同类产品相比,Midscene 的独特点是有浏览器扩展可视化报告,浏览器扩展可以立即使用,探索时无需编写代码;通过可视化报告文件,可以轻松理解和调试整个流程。

report

市面上还有一些同类产品,详细对比可以看「视频.4」AI 浏览器自动化测评👏

3 Trae

字节推出的 AI IDE,对标 Cursor 和 Windsurf。

banner-img


视频

1 vlog #86|新年大扫除之后的晚间学习记录|还在开发时间管理 APP|读《荒原狼》《消失的多巴胺》|在学「哲学导论」,超级有意思✌️|尝试练习无氧的第一周

image.png

2 让编程再次伟大系列

为什么程序员都应该学用容器技术【让编程再次伟大#26】

前端技术的未来,正在回归本源【让编程再次伟大#27】

3 全站首发!别再问哪找网页灵感了,AW保姆级教程

创意工程师(Creative Engineer)必看✍,视频推荐并介绍了Awwwards的用法。

image.png

4 ⭐AI 浏览器自动化测评 | midscene VS stagehand VS shortest

近期出现很多在浏览器自动化测试领域结合 AI 的开源项目,目前还处于早期探索阶段,可以持续关注。

5 【前端路线】可能是最全最科学的前端学习路线,从入门到专业。

Showcase:前端就像一座冰山,你能看见的只是上面的一角,但是它下面涉及到的领域比你想象的要大得多。因此前端不是一天两天就能速通,也不是人工智能可以完全取代的。 所以不要焦虑,现在路线已经帮你画好了,一步一个脚印总没错,希望你能找到自己感兴趣的方向并为此而努力。

可以去博主的网站 FontTalk 查看学习路线

image.png


文章

1 2024:无为而治|polebug

polebug 的 2024 年终总结。

印象深刻的点:

顺应自我和外界,遵从自己内心和生活带给自己的所有。去打开自己,多一个看待世界的角度,去发现生活的美好。

对事情进行及时的反思和复盘,问问自己哪里做对了?哪里做错了?哪里可以改进?不断成长。

2 AI 没有体验世界的能力|Airing

3 2024: 在夜海中观望浪潮丨Randy Lu

播客代码之外作者之一 Randy 的 2024 年终总结。

4 我们在 2024 年了解到的关于 LLMs 的事情(英)

作者对过去十二个月里 LLMs 领域相关重大事件的回顾,以及对关键主题和重要时刻的梳理。

5 每个开发者都应该了解的关于离线优先应用程序的知识(英)

离线优先应用将离线状态视为默认状态,而将在线连接视为一种增强功能。这与传统的网络开发模式完全相反,在传统模式中,我们假定网络连接始终可用,并将离线状态视为错误情况。

在项目初期,就应考虑应用是否以离线优先。那么在哪些场景下比较适合离线优先应用呢,文章给出以下场景:

  • 用户经常遇到连接变化的移动应用程序
  • 数据丢失不可接受的专业工具
  • 针对互联网基础设施不可靠地区的应用程序
  • 渐进式网络应用程序(PWA)旨在提供类似原生应用的体验
  • 任何用户生产力不应依赖网络状态的应用程序(例如 excalidraw)

6 产品管理出问题了,工程师可以解决这个问题。(英)

PostHog 公司重新定义了产品经理(PM)与工程师的合作方式,强调工程师应是「产品工程师」,在产品决策中具有主导地位,而产品经理提供背景支持,提升团队的迭代速度和自主性,充分发挥工程师的创造力和责任感。

这篇文章是对产品经理(PM)与工程师合作方式的探索性分享与实践案例分析。

7 哔哩哔哩技术丨新活动平台建设历程与架构演进

本文介绍 B 站构建活动页的低代码架构建设和演进,讲述了在整个开发过程中的设计理念、建设规划和架构思考。通过分阶段渐进式迭代,最终完成了整个架构的升级。


播客

最近听了很多 AI 相关的播客、文章。总结下,25 年将是 AI 持续发力的一年,随着 AI 的发展,Cursor 和 Devin 等 Coding-Agent 会越来越好用,前端的开发范式也会持续改变,未来属于那些拥抱 AI 和持续学习的人

1 代码之外 | 2024 年终总结

2 硬地骇客丨对话 Saga:20 万字文档让 ChatGPT 开发出翻译产品,实现200%按月增长

这期节目我们邀请到 Saga,聊聊他如何从追漫的痛苦经历中获得 idea,最终利用 AI 技术开发出超酷的漫画翻译工具: aimangatranslator!从手写 20 万字的需求文档到克服技术难题,从产品迭代到用户反馈,Saga 将毫无保留地分享他的创业历程和宝贵经验。他还分享了 AI 工具对产品经理和程序员的影响,以及如何利用 AI 写作技巧提升内容质量。干货满满。

印象深刻的点:

Saga 是产品经理,他主要借助 AI 编写代码,完成产品迭代。借助 AI 和 SEO,编写用户故事、产品体验分享、产品推荐文章等,引流和推荐自家的产品。这还只是他的副业。在 AI 时代,有想法就可以做出应用

3 此话当真丨与 Koji 的 2025 开年对谈:AI 关键之年,Agent 开启元年

4 ⭐此话当真丨Coding-Agent 进化论:深度对话中美 Agent 创业者、阿里研究员和投资人

5 代码时光机丨世界的算法定义我们的活法

6 WebWorker丨和几位主播总结播客和自己的2024

7 42章经丨为什么我们对 25 年 AI 极度乐观丨AI 年终复盘

8 硅谷101丨“没有AI我会难受至极”:与大学生聊聊智能工具的依赖与适应

AI 的普及正在从生产工具延伸到生活每个角落,甚至重塑人与工具的关系。

9 硬地骇客丨Podwise App 上线啦!从网页到App,我们都经历了什么?


句子

1

迷茫的时候多看书,准没错。

——不知道谁说的,就鲁迅吧

2

没有正确的选择和错误的选择,你要尝试把你的选择变得正确。

——鲁迅(嗯)