1.1 项目总览
港式粤语短音频语音采集,总需求400人,每人1000句,分成两个任务批次领取数据。不做补采。
2.1 采集设备
本项目要求 Native 在安静室内环境中录音,底噪45db以下,语音50-70db,SNR>20,无回声、低环境底噪,无突发噪声。采集设备为手机,音频要求 求 16k 16bit,未压缩 wav, 单声道。采用手机采集,要求【Iphone 手机+安卓高品质手机】采集量占手机总采集量的 80%以上, iphone 至少是 iphone8 以上(含 iphone8)。【安卓高品质手机】定义为【上市定价等同于 3000+RMB的型号】;
2.2 采集文本
1.采集query覆盖多个领域,包括:车控、导航、电话、媒体音乐,90%的文本是【纯目标小语种】,10%的文本是【目标小语种+英语混说】。我司提供全量的采集文本
2.各语种单词发音规则
采集文本中的存在一些缩写词或车载专用词汇,让录音人用自己熟悉的方式朗读即可,既可以按照单个字母读;也可以按单词拼读(无法拼读的单词除外),不限制朗读方式。如文本为eco,则既可以按字母读为e/c/o,又可以按单词读 /eko/。
2.3 采集要求
1.录音人声音清晰,口音符合标准,保持语句通顺,无读错无重复或磕巴,否则视为无效;
2.录音人语速适中,不可过快过慢,语调自然,使用正常放松的语气,不可有朗读的痕迹;
3.若录音人语句不通顺、不连贯,字与字之间停顿或拖音超过400ms,该条视为无效
4.音频完整,首尾无切断现象,若首尾切断导致语句录制不全则视为无效音频;
6.波形及频谱正常,无截幅、无丢帧、无失真,频谱连续无干扰及信号丢失等现象;
7.不可出现规定外噪声(如其他人说话声等),否则视为无效音频。
2.5 录音人要求
采集前请与录音人签订采集确认协议,保证本次采集的合规性。采集前需将待录文本给录音人进行熟悉与练习,保证语句通畅。
2.5.1 口音要求
采集者必须为采集目标国家的native居民(本国生活18年以上),能流利地说目标国家的【标准语言】(部分文本中还包括英文),无论小语种还是英语采集,仅接受轻口音,不接受重口音(重口音定义:大部分单词的发音和正常发音差别大,即便看到文本也无法听出对应关系),另:不接受他国的移民参与本次采集。