感谢作者和问题请教

#11
by rookieaca - opened

感谢作者,在我的召回场景下确实比ada-002要好很多。 想再请教一下, 随着文档长度的增加,排序结果不太理想(我的场景下ada-002也有这个问题), 请问这种情况下有必要对召回结果进行rerank吗?如果进行rerank 采用什么方案比较好?

Moka HR SaSS org

是的,M3E 开源这段时间,收到最多的负向反馈就是这两点,一个是上下文长度不够长,另一个是 ReRank 的效果不够好。

  1. 上下文长度,目前没有好的办法解决这个问题,只能多个上下文拼接或者平均。M3E 之后可能会自己训练一个更现代版本的 Encoder 来解决这个问题。
  2. ReRank 的效果不够好,这是由于 M3E 使用句对进行训练,导致采样到的负例不够难,所以只能很好地分辨主题,但不能很好地区分细节。这个问题可以通过在你自己的数据集上进行针对性的微调来解决(通过 GPT 自己造个1000条左右的数据差不多就够了)。

Sign up or log in to comment