LaERC-S:Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics

LaERC-S 模型的具体流程如下：

1. 整体框架

LaERC-S 主要用于对话中的情感识别（Emotion Recognition in Conversation, ERC），核心思想是结合 大语言模型（LLMs） 和 说话人特征（Speaker Characteristics），以更精准地预测对话中每个话语的情感状态。模型采用 两阶段学习（Two-Stage Learning），分为：

第一阶段：说话人特征提取与注入
第二阶段：情感识别

2. 模型流程

LaERC-S 由以下几个关键步骤组成：

(1) Vanilla ERC Model（基础 ERC 任务）

输入：对话数据 $D = {(C_i, Y_i)}_{i=1}^{N} $，其中 $C_i$ 是第 $i$ 个对话， $Y_i$ 是对应的情感标签。
每个对话 $C_i$ 由一系列话语 $U = {u_j}_{j=1}^{S}$ 组成，每个话语 $u_j$ 具有一个真实情感标签 $y_j$ （如快乐、愤怒等）。
目标：让 ERC 模型 $M$ 从 LLMs 进行学习，输出话语 $u_j$ 的情感类别 $r_{j,i}$ ：
$r_{j,i} = M(u_{<j}, u_j, E)$
其中， $u_{<j}$ 表示当前话语 $u_j$ 之前的历史话语， $E$ 为所有可能的情感类别集合。

(2) 说话人特征提取（Speaker Characteristic Extraction）

核心思想：使用 提示学习（Prompt Engineering） 提取 LLMs 的世界知识，生成对话参与者的说话人特征。
说话人特征包含三个部分：
- 心理状态（Mental State）：描述说话人的情感状态（如 xIntent, xReact, oReact）。
- 行为（Behavior）：描述对事件的行为反应（如 xWant, oWant, xEffect, oEffect, xNeed）。
- 个性（Persona）：描述说话人的属性（如 xAttr）。
处理方式：
1. 设计查询模板（Query Templates），向 LLMs 提问获取说话人特征信息。
2. 通过手动验证提高信息质量（实验中选择了 “oReact” 作为最佳特征）。
3. 以结构化方式存储和使用这些特征信息。

(3) 说话人特征注入（Speaker Characteristic Injection）

目的：将提取的说话人特征注入 LLMs，以增强模型对对话情感动态的理解能力。
方法：
1. 设计 指令调优（Instruction Tuning） 模板，引导 LLMs 学习对话情感线索。
2. 模板包含：
  - 标题（Title）：设定 LLMs 在情感分析任务中的角色（如“你是一位擅长情感分析的专家”）。
  - 特定标记（Specific Token）：区分不同部分的内容（如对话文本、任务目标）。
  - 目标描述（Objective）：简要描述任务（如“请预测该话语的情感”）。
  - 约束（Constraint）：限制输出范围（如情感标签集合）。
3. 通过微调 LLMs，确保它能够感知这些情感特征，并在后续任务中使用。

(4) 情感识别（Emotion Recognition）

目的：利用前述步骤中的信息，提高对话情感预测的准确性。
方法：
1. 再一次指令调优，让 LLMs 通过对话上下文推断最终的情感标签。
2. 目标函数（Loss Function）：
  $L_k = \sum_{i'} -\log P(\mu(k,i') | x_k, \theta_k)$
  其中：
  - $k$ 表示不同任务阶段（如特征注入、情感识别）。
  - $x_k$ 代表不同阶段输入的指令模板，用于指导LLMs进行情感分析。
  - $\mu(k, i')$ 是生成的输出 token，即模型输出的情感类别。
  - $\theta_k$ 是 LLMs 的可训练参数。

3. 实验结果

数据集：
- IEMOCAP（6 类情感）
- MELD（7 类情感）
- EmoryNLP（7 类情感）
对比方法：
- 传统 ERC 方法（如 COSMIC、SKAIG）
- LLMs-based 方法（如 InstructERC、BiosERC）
性能表现：
- LaERC-S 在所有数据集上均取得最佳效果。
- 在 IEMOCAP 数据集上，相较于 InstructERC 提升 1.01%。
- 采用 “oReact” 作为特征，性能最佳。

4. 关键影响因素分析

不同说话人特征的影响：
- “oReact” 带来最佳性能提升，因为它描述了听众的情感反应，能更好地捕捉对话动态。
不同 LLMs 影响：
- LLaMA2-7B 提取的特征效果最佳。
不同模板的影响：
- 经过实验选择了 “the reaction of potential listeners” 这一描述，能够最准确地提取特征。

5. 总结

LaERC-S:Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics

LaERC-S:Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics

LaERC-S 模型的具体流程如下：

1. 整体框架

2. 模型流程

(1) Vanilla ERC Model（基础 ERC 任务）

(2) 说话人特征提取（Speaker Characteristic Extraction）

(3) 说话人特征注入（Speaker Characteristic Injection）

(4) 情感识别（Emotion Recognition）

3. 实验结果

4. 关键影响因素分析

5. 总结

Pipline

LaERC-S Model 的作用

Figure 2 中 LaERC-S Model 与 LLM 的作用