您的位置:首页 > 房产 > 家装 > 长沙平面设计公司都有哪些_装修公司最怕三种人_seo指搜索引擎_网站开发框架

长沙平面设计公司都有哪些_装修公司最怕三种人_seo指搜索引擎_网站开发框架

2025/5/24 2:22:32 来源:https://blog.csdn.net/2201_75600005/article/details/145674630  浏览:    关键词:长沙平面设计公司都有哪些_装修公司最怕三种人_seo指搜索引擎_网站开发框架
长沙平面设计公司都有哪些_装修公司最怕三种人_seo指搜索引擎_网站开发框架

 这是前置工作

向量数据构建完成 

开始进行处理

因为我们要对上面构建的数据集添加一些内容,比如检索出来的数据,评分指标等,所以我们把他封装在一个自定义item类中进行操作,然后把item放进自己构建的dataset类中

ef get_dataset(config):"""从配置加载数据集。"""# 从配置中获取数据集的路径,这个是我们数据集的路径dataset_path = config['dataset_path']# 获取要加载的数据集的分割名称,如'train'、'test'等all_split = config['split']# 创建一个字典,用于存储每个分割的数据集对象split_dict = {split: None for split in all_split}# 遍历每个分割for split in all_split:# 构建该分割对应的文件路径,这个步骤就是组成完整的文件路径split_path = os.path.join(dataset_path, f'{split}.jsonl')# 检查文件是否存在if not os.path.exists(split_path):print(f"{split} file not exists!")  # 如果文件不存在,打印提示信息continue# 如果分割是'test', 'val', 'dev'之一,初始化Dataset类的实例if split in ['test', 'val', 'dev']:split_dict[split] = Dataset(config,split_path,sample_num=config['test_sample_num'],random_sample=config['random_sample'])else:# 对于其它分割,直接初始化Dataset类的实例split_dict[split] = Dataset(config, split_path)# 返回包含所有分割数据集的字典return split_dict

 加载数据

如果没有传递data,那么根据路径进行加载,一行一样的进行读取 ,最后data列表中是一个个的item对象

 此时我们已经拿到所有的数据

all_split是个字典,通过key可以拿到dataset对象,并且在方法上加了@property注解,可以通过书想的方式调用方法 

 然后构建提示模版,根据传递的模型类型判断是生成chat类还是instruct类的提示模版

 然后运行pipeline

 pipeline里面获取检索器,生成器

 获取生成器实例

 

获取检索器

检索器分为两种,这里我们使用的是密集的

 encoder 是用来将query转换为向量的

 

 然后执行run方法

预测完之后,把预测完之后的值放入dataset中 

评估

评估就是拿到预测的值和金标准进行比较

评估的基类

这是子类方法写的一个评估的实例,首先肯定是拿到 生成的答案和金标准答案,然后通过自己写的计算方式进行评估

 f1计算得分的细节,把单词切分为token然后计算交集,或者进行正则

 最终生成的数据

 

re-ranking 

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com