项目地址

https://github.com/datawhalechina/hello-agents/tree/main

https://datawhalechina.github.io/hello-agents/#/./chapter1/第一章初识智能体【电子书地址】

https://github.com/0xPabloxx/hello-agents【我自己的代码和笔记地址】

第一章初始智能体

人工智能领域智能体的定义：任何能够通过传感器（Sensors）感知其所处环境（Environment），并自主地通过**执行器（Actuators）采取行动（Action）**以达成特定目标的实体
智能体"智能"在于其自主性（Autonomy）
智能体的环境

Agent Loop

Agent Loop

Agent是个RL中很早就有的概念，需要理解清楚的是LLM时代的RL的具体概念是怎么落实的。比如说RL中的轨迹的概念，在LLM时代就是把输出的每个token当作t0、t1…..tn-1的输出，而不在乎LLM中间的Decoder layer的输出，比如说状态(State)：当前prompt + 已生成的token序列，再比如说动作(Action)：从词表中选择下一个token。简而言之怎么正确的用RL的视角去理解LLM时代的Agent，应该是每个学习Agent的人都需要的搞清楚的。
Agent Loop vs Human in the Loop
- Agent Loop：Agent自主执行"感知→推理→行动→反馈"闭环，可多轮迭代（如ReAct、自我纠错）
- Human in the Loop：在关键节点引入人类干预（审核、标注、决策），打破纯自动化流程
核心区别：自主性。前者是Agent内部自动循环，后者是人机协同决策。

这个部分的Thought一些论文或者实践一般叫Reasoning
1.3实践作业

通过断点调试理解了如何通过system prompt要求LLM对任务做分解，并且通过给LLM prompt history的方式使LLM明白了当前已经完成了什么任务，后面需要做什么任务，并且通过thought可视化这一过程和action展示要调用什么工具
通过re.search来做多个thought、action对的截断、捕获tool name并对LLM产生的action做tool name匹配，而不是通过tool calls。通过re.findall 来捕获tool的参数
通过tool的dict来对捕获到的参数执行tool 函数