神经搜索公司Jina AI宣布推出jina-ColBERT-v1-en,这是支持8K长文本的ColBERT模型,据了解,jina-ColBERT-v1-en效果可以比肩SOTA的ColBERTv2。目前,colbert和RAGatouille集成已上线。据悉,Jina AI于2020年2月成立,创始人肖涵曾就职于腾讯AI Lab,负责基于深度学习搜索项目研发。
官网地址:https://jina.ai
模型地址:https://huggingface.co/jinaai/jina-colbert-v1-en
Jina-ColBERT 是一款基于 JinaBERT 构建的 ColBERT 类型模型,因此它既支持高达 8000 字符的上下文长度,又能实现快速且精确的检索。JinaBERT 采用了 BERT 架构,并支持 ALiBi 的对称双向变体,以适应更长的序列长度。Jina-ColBERT 模型在 MSMARCO 文档片段排名数据集上进行训练,其训练流程与 ColBERTv2 非常相似。两者之间的唯一区别在于,Jina-ColBERT 使用的是 jina-bert-v2-base-en 作为基础模型,而不是 bert-base-uncased。
0条评论