自然对话标注规范.docx自然对话标注规范看完之后找我要语音,价格150元一个小时1、标注之前需要进行的工作1) 确定你所拿到的语音是否为电话录音(而不是两个人而对而聊天录音),是电话录音才进行标注,不是电话录音的此语音作废。2) 不能是讲故事、说相声或者念课文等等3) 确定所要标注语音的近端音(一般会在文件夹中的txt文档中显示)。4) 关于什么是近端音,用一个例子解释:甲和乙进行手机通话,甲的手机安装了录音软件,在通话过程中将语音录了下来,那生成的录音小甲说的话就是近端音,乙说的话是远端音。5) 1、语音是否合格问题。标注员在标注的过程中要注意一下语音是不是合格,避免口做工。语咅核查标准有三:格式上,语咅的比特率是256kbps;类型:媒体文件位速:t56kb»大小:,第一,双人电话录音;第二,自然聊天对话。2、是否标注需要标注的是近端音,不需要标注远端音,远端音切掉即可。3、是否有效(此条规则针对近端音,近端音又分为有效音和无效音):无效的不用管,什么也不用标注判断是否为有效或无效语音的原则:1) 语音重叠问题。远端音和近端音说话重叠时(也就是两个人说话重叠的部分)切掉,标为无效。2) 如果一句话声音极小,小到几乎听不到,则标注为无效。3) 如果一句中只含有噪声或者静音,则标注为无效。4) 如果只有一个“嗯”、“啊”、“哇曝”、“喂”等,则标注为无效。一句话有听不清楚的部分,写不出止确结杲的情况下,切掉标为无效即可,注意尽量不要截再波峰上。4、 语音内容及切分:•一句话尽量切为10-15个字左右,长句子要从停顿的位置切分开,并尽量保证句意完整。句了首尾尽量留200-300ms静咅段,如本身没有这么长静音的情况下不强求。2、静音处截断问题。在切分语音的时候保证切分点在静音段上,也就是说不要切在音节上。标注时不需要加标点符号,有断句处用空格隔开即可.•两个人先后说话没有重叠的要切分开。・语咅内容必须和听到的语咅完全一致,不能多字、少字、错字。・阿拉伯数字要写成汉字形式,如“一二三”,I何不是“123”。注意区分“一”和“幺”。“二”和“两”・标注屮只能含有屮文、英文以及英文屮特殊符号,如rm屮的,。如果符号被读出,则根据发音需写成相应汉字或英文。例如“0'读“at”时要写为“AT”,“.com”读成“点com”时要写成“点COM”•语气词:音频中说话人清楚地讲出的语气词,如“呃啊嗯哦唉呐”等,要按照正确发音进行转写。语气词除了“了不”没有口字旁,其他基木上都有口字旁。・标注内容的完整性要与实际发音一•致,不得删减。・说话人发咅不标准的时候,要按这个咅的标准发咅来标。•网络用语,huiji,要写成灰机,jiangzi要写成酱紫,网络用语按照网络用语写12)・有的咅找不到对应的汉字,标成无效。(特殊情况,“duang〃这个音没有对总结,只要口己听不懂的就切掉,只标注听得懂的。5、 文字内容中的噪音标记(有效近端音中出现噪音才标记出来,其他情况不用标记噪音):<SPK>:表示说话人的各种非文木内容的噪声信息,包括唇咂嘴,咳嗽,
自然对话标注规范 来自淘豆网m.daumloan.com转载请标明出处.