DEAP数据集介绍
- 0. 数据集摘要
- 1. 文件列表
- 2. 文件详细信息
- 2.1 Online_ratings
- 2.2 Video_list
- 2.3 Participant_ratings
- 2.4 Participant_questionnaire
- 2.5 Face_video.zip
- 2.6 Data_original.zip
- 2.7 Data_preprocessed_matlab.zip 和 Data_preprocessed_python.zip
- 3. References
- 欢迎来稿
官方介绍地址:http://www.eecs.qmul.ac.uk/mmv/datasets/deap/readme.html
只使用DEAP特征描述
或特征对应的通道查阅
可以直接跳转到2.7节。
0. 数据集摘要
DEAP 数据集由两部分组成:
- 来自在线自我评估的评级,其中 120 个一分钟的音乐视频摘录由 14-16 名志愿者根据唤醒、效价和优势进行评分。
- 参与者评分、生理记录和面部视频 32 名志愿者观看了上述 40 个音乐视频的子集。记录了脑电图和生理信号,每个参与者还按上述方式对视频进行了评分。对于 22 名参与者,还录制了正面视频。
1. 文件列表
以下文件可用(每个文件将在下面更详细地解释):
2. 文件详细信息
2.1 Online_ratings
此文件包含在在线自我评估期间收集的所有单个视频评级。该文件以 Open-Office Calc (online_ratings.ods)、Microsoft Excel (online_ratings.xls) 和逗号分隔值 (online_ratings.csv) 格式提供。
使用 [1] 中描述的在线自我评估工具收集评级。参与者使用 SAM 人体模型以离散的 9 分制对唤醒、效价和优势进行评分。此外,参与者还使用情绪轮对感受到的情绪进行评分(见 [2])。
文件中的表格每个评级有一行,其中包含以下列:
2.2 Video_list
此文件以表格形式列出了在线自我评估和实验中使用的所有视频。该文件以 Open-Office Calc (video_list.ods)、Microsoft Excel (video_list.xls) 和逗号分隔值 (video_list.csv) 格式提供。
该表的每个视频有一行,包含以下列:
2.3 Participant_ratings
此文件包含在实验期间收集的所有参与者视频评分。该文件以 Open-Office Calc (participant_ratings.ods)、Microsoft Excel (participant_ratings.xls) 和逗号分隔值 (participant_ratings.csv) 格式提供。
start_time值由演示软件记录。每次试验后,使用标准小鼠以连续 9 分制直接对效价、唤醒、优势和喜欢进行评分。SAM 人体模型用于可视化效价、唤醒和优势的评级。为了点赞(即你有多喜欢这个视频?),使用了竖起大拇指和竖起大拇指的图标。实验结束后,以 5 分整数等级对熟悉度进行评分(从 “以前从未听说过 ”到 “经常听”)。遗憾的是,参与者 2、15 和 23 的熟悉度评分缺失。
文件中的表格包含每个参加者视频评分的一行和以下列:
2.4 Participant_questionnaire
此文件包含参与者对实验前填写的调查问卷的回答。该文件以 Open-Office Calc (participant_questionnaire.ods)、Microsoft Excel (participant_questionnaire.xls) 和逗号分隔值 (participant_questionnaire.csv) 格式提供。
问卷中的大多数问题都是多项选择题,几乎不言自明。不幸的是,参与者 26 未能填写问卷。该问卷还包含同意书上问题的答案(数据可以用于研究吗,您的图像可以发布吗?
2.5 Face_video.zip
Face_video.zip 包含实验中为前 22 名参与者录制的正面视频,这些视频被分割成试验。在 zip 文件中,sXX/sXX_trial_YY.avi 对应对象 XX 的试用 YY 的视频。
对于参与者 3、5、11 和 14,由于技术问题(即磁带用完)而缺少一项或多项最后的试验。请注意,这些视频是按演示顺序排列的,因此试用编号与video_list文件中的Experiment_id列不对应。试验编号和 Experiment_id之间的映射可以在 participant_ratings 文件中找到。
使用 SONY DCR-HC27E 摄录一体机从放置在屏幕后面的三脚架上以 DV PAL 格式录制视频。然后根据试验对视频进行分割,并使用
h264 编解码器转码为 50 fps 的去隔行扫描视频。转码是使用 mencoder 软件通过以下命令完成的:
mencoder sXX.dv -ss trialYY_start_second -endpos 59.05 -nosound -of avi -ovc x264-fps 50 -vf yadif=1:1,hqdn3d -x264encopts bitrate=50:subq=5:8x8dct:frameref=2:bframes=3 -noskip -ofps 50 -o sXX_trialYY.avi
视频同步精确到大约 1/25 秒(除非人为错误)。通过在实验前后显示红屏以及发送到脑电图记录 PC 的标记来实现同步。然后在视频录制中手动标记此屏幕的起始帧。然后根据脑电图记录中的试验开始标记计算个体试验开始时间。
2.6 Data_original.zip
这些是原始数据记录。有 32 个 .bdf 文件(由 Actiview 记录软件生成的 BioSemi 数据格式),每个文件有 48 个 512Hz 的记录通道。(32 个 EEG 通道、12 个外围通道、3 个未使用的通道和 1 个状态通道)。.bdf 文件可以由各种软件工具包读取,包括 EEGLAB for Matlab 和 BIOSIG 工具包。
数据记录在两个不同的位置。参与者 1-22 在特温特记录,参与者 23-32 在日内瓦记录。由于硬件的修订版不同,格式上存在一些细微的差异。首先,两个位置的 EEG 通道顺序不同。其次,每个位置的 GSR 度量采用不同的格式。
下表给出了两个位置的 EEG 通道名称(根据 10/20 系统)以及可用于将一种排序转换为另一种排序的索引:
两个位置的其余频道编号相同。但是,请注意,两个地点的 GSR 测量单位不同。 Twente GSR 测量值是以纳米西门子为单位的皮肤电阻,而 Geneva GSR 测量值是以欧姆为单位的皮肤电导。转换结果为:
G S R G e n e v a = 109 / G S R T w e n t e GSRGeneva = 109 / GSRTwente GSRGeneva=109/GSRTwente
下表给出了其余通道的含义:
状态通道包含从刺激物演示 PC 发送的标记,指示试验何时开始和结束。采用了以下状态标记:
2.7 Data_preprocessed_matlab.zip 和 Data_preprocessed_python.zip
这些文件包含 Matlab (data_preprocessed_matlab.zip) 和腌制 python/numpy (data_preprocessed_python.zip) 格式的下采样(至 128Hz)
、预处理和分割版本的数据。此版本的数据非常适合那些希望快速测试分类或回归技术而无需先处理所有数据的用户。每个 zip 文件包含 32 个 .dat (python) 或 .mat (matlab) 文件,每个参与者一个。加载 python 数据文件的一些示例代码如下:
import cPickle
x = cPickle.load(open('s01.dat', 'rb'))
每个参与者文件包含两个数组:
视频是按Experiment_id的顺序排列的,所以不是按照演示的顺序排列的。这意味着每个参与者的第一个视频都是相同的。下表显示了通道布局和执行的预处理:
3. References
- “DEAP: A Database for Emotion Analysis using Physiological Signals (PDF)”, S. Koelstra, C. M\ uehl, M. Soleymani, J.-S. Lee, A. Yazdani, T. Ebrahimi, T. Pun, A. Nijholt, I. Patras, EEE Transactions on Affective Computing, vol. 3, no. 1, pp. 18-31, 2012
- “What are emotions? And how can they be measured”, K.R. Scherer, Social Science Information,vol. 44, no. 4, pp. 695-729, 2005.
如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。
欢迎来稿
欢迎投稿合作,投稿请遵循科学严谨、内容清晰明了的原则!!!! 有意者可以后台私信!!