项目地址
https://github.com/datawhalechina/hello-agents/tree/main
https://datawhalechina.github.io/hello-agents/#/./chapter1/第一章 初识智能体【电子书地址】
https://github.com/0xPabloxx/hello-agents【我自己的代码和笔记地址】
第一章 初始智能体
- 人工智能领域智能体的定义:任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过**执行器(Actuators)采取行动(Action)**以达成特定目标的实体
- 智能体"智能"在于其自主性(Autonomy)
- 智能体的环境


Agent Loop
-
Agent是个RL中很早就有的概念,需要理解清楚的是LLM时代的RL的具体概念是怎么落实的。比如说RL中的轨迹的概念,在LLM时代就是把输出的每个token当作t0、t1…..tn-1的输出,而不在乎LLM中间的Decoder layer的输出,比如说状态(State):当前prompt + 已生成的token序列,再比如说动作(Action):从词表中选择下一个token。简而言之怎么正确的用RL的视角去理解LLM时代的Agent,应该是每个学习Agent的人都需要的搞清楚的。
-
Agent Loop vs Human in the Loop
- Agent Loop:Agent自主执行"感知→推理→行动→反馈"闭环,可多轮迭代(如ReAct、自我纠错)
- Human in the Loop:在关键节点引入人类干预(审核、标注、决策),打破纯自动化流程
核心区别:自主性。前者是Agent内部自动循环,后者是人机协同决策。

- 这个部分的Thought一些论文或者实践一般叫Reasoning
- 1.3实践作业

- 通过断点调试理解了如何通过system prompt要求LLM对任务做分解,并且通过给LLM prompt history的方式使LLM明白了当前已经完成了什么任务,后面需要做什么任务,并且通过thought可视化这一过程和action展示要调用什么工具
- 通过re.search来做多个thought、action对的截断、捕获tool name并对LLM产生的action做tool name匹配,而不是通过tool calls。通过re.findall 来捕获tool的参数
- 通过tool的dict来对捕获到的参数执行tool 函数