设为首页 - 加入收藏  
您的当前位置:首页 >休闲 >揭秘背后故事:谁能成为闽南话发音人?有声语料库到底做啥? (资料图)除录音外 正文

揭秘背后故事:谁能成为闽南话发音人?有声语料库到底做啥? (资料图)除录音外

来源:陈善闭邪网编辑:休闲时间:2024-05-15 00:30:34

  ●厦大团队参与开发的揭秘“闽南方言智能语音”项目招募发音人,采集晋江地区有声语料

  ●该语料库已积累数百小时的背后厦门腔闽南话素材

厦大团队进行闽南话发音人录音 。(资料图)

  除录音外 ,故事金龙国际【Aurl:www.8233066.com】送888元采集过程还要全程录像。成南话(资料图)

  厦门网讯(文/厦门日报记者 罗子泓 图/受访者 提供)既得说一口流利的为闽闽南话 ,还要“过关斩将”参与选拔……尽管如此,发音许多人仍不计报酬地报名,声语想要成为“闽南话发音人” 。料库近日,到底一则有关“闽南方言智能语音”项目有声语料库的做啥招募帖火了。

  据悉,揭秘该项目由世界晋江青年联谊会(以下简称“世晋青”)和厦门大学智能语音实验室科研团队(以下简称“厦大团队”)共同开发。背后有声语料库到底做啥 ?“闽南话发音人”选拔有啥标准  ?记者为您揭秘背后故事。故事

  招募发音人

  扩充有声语料库 训练AI变得更智能

  按住麦克风说闽南话  ,成南话它能被翻译成文字;相应地,为闽输入文字,它就能变为有声闽南话……打开由世晋青推出的“说咱闽南话”App,便可以在其中的闽南话智能语音转换工具中 ,收获这样的体验 。

  熟悉闽南话的人或许能听出 ,转换工具在语音合成(即输入文字,转换闽南话读音)时 ,大多是厦门腔  。这基于厦大团队过去10年的研究成果——现有有声语料库中 ,已积累了数百小时的厦门腔闽南话素材。目前 ,金龙国际【Aurl:www.8233066.com】送888元厦门地铁报站、中国女足世界杯小组赛闽南话视频解说等 ,都使用了厦大智能语音实验室团队的识别和合成技术。

  根据最新统计 ,全世界约有7000万人使用闽南话  。今年8月,厦大团队与世晋青联手,开始下一盘“更大的棋” 。“签订“闽南方言智能语音”项目后,我们将通过招募发音人的方式 ,更为系统 、集中地扩充有声语料库 。也希望这一项目,能带动拓展到更广泛的闽南话使用区域 。”世晋青副秘书长丁雅丽介绍。11月 ,项目团队开始招募首批晋江地区发音人 。

  有人不解 :语料库已有那么多素材,为啥还要扩充 ?对此,项目负责人之一、厦门大学中文系助理教授许彬彬解释,一方面,语料库越丰富 ,负责智能语音转换的AI就能被训练得越熟练 、越智能;另一方面  ,闽南话所涵盖的腔调 、内容广,能为未来应用提供更多便利。此外 ,语言是文化的载体 ,扩充有声语料库的过程 ,也是保护、传承、推广闽南话乃至闽南文化的过程 。

  五百多人报名

  年龄横跨7岁到82岁 有学生医生和司机等

  世晋青“说咱闽南话”运营团队负责本次发音人的招募工作。“11月上旬  ,各平台发出招募帖 。一天之内 ,吸引了200多人报名 。报名截止时 ,共招募到500多人。大家对闽南话的热爱与支持 ,大大超出了我们的预期 。”运营团队工作人员叶兴雄说。

  据悉,本次发音人共招募4个年龄层的人员  ,分别是10-18岁,19-30岁 ,31-50岁和51-65岁 ,每个年龄层需男女各3-5名 。多元化的参与者构成 ,有助于构建语料库,能更准确地反映闽南话在不同群体中的使用情况。

  后台数据显示 :报名者之中,女性占比约80% ,男性约20%;他们的年龄跨度很大 ,既有7岁孩童,也有82岁的阿公 ,19岁至59岁是“主力军”;人员职业方面 ,涵盖学生、教师 、网约车司机、外贸从业者、医生等。

  叶兴雄回忆起通过电话报名的八旬老人,“他操着一口‘地瓜腔’普通话告诉我,‘我今年82岁了 ,不知道符不符合招募条件 。我的很多孙辈不会说闽南话 ,很遗憾  。但我希望留下自己的声音 ,为方言保护做贡献’ 。”还有身在新加坡的闽南华侨 ,看到招募帖后第一时间给小编留言 :“虽然人在新加坡 ,但我非常热爱母语 。我先报名 ,表示支持 !”

  三轮严格筛选

  要了解本地文化 还不能戴活动假牙

  成为“闽南话发音人”需要具备什么条件?招募帖上明确 :能熟练使用闽南话进行日常交流是基础条件 。再进一步,闽南话讲得地道 ,语言表达清晰 ,无口吃 、嘶哑、鼻音等问题,对本地文化 、风俗有深厚情感和了解。

  招募条件言简意赅,可实操起来却严谨复杂 。据介绍,入选最终发音人 ,至少要经过三轮筛选 。第一轮是地区——报名者是否在晋江地区成长、生活或工作过 。第二轮,根据厦大团队提供的文字内容 ,录制1分钟音频小样  。

  “文字内容包含单音字 、词语、句子和短篇等 。”许彬彬说 ,他们会“花点小心思” ,在其中加入部分能区分地域口音的东西,比如 ,“上午”“猪”“骄傲”这些词语 。而后  ,由团队专家根据音频情况 ,再淘汰掉一部分报名者 ,“专家凭借调查研究经验 ,用耳朵判断发音人的闽南话能否代表晋江地区。”

  第三轮,“闽南方言智能语音”项目团队将派出专家学者及闽南话传承人  ,组成“智囊团”和入选报名者面对面,考察他们的发音面貌 ,包括口齿清晰度  、声线清晰度 、门牙完整度等。考虑到语料库的多样化,报名者的知识面 、行业背景、家庭语言环境等也会被纳入考量。有意思的是 ,发音人还不能戴活动假牙,“假牙磕碰有声音 ,会影响录音 。”许彬彬说 。

  【揭秘】

  采集标准高

  全程录音录像 开口度大小也记录

  过五关斩六将后 ,发音人将正式进入语音录制环节。除了读出特定的词 、句、短文外,发音人还得根据不同主题 ,进行“即兴讲述”,说说当地的民俗 、经济 、教育 、旅游等 。有时,需观看闽南话宣传片,再复述  。

  为确保发音人在自然状态下录音 ,项目团队会使尽浑身解数 。许彬彬举了个例子 :此前厦门腔发音人的录制中,有人看着黄瓜鱼 、黄花鱼 、黄翅鱼等字眼,犯了难  。“发音人认得实物,但不一定弄得清学名 。”许彬彬说 ,因此 ,团队将对应的实物带到现场。有时,同样的词语会出现不同的闽南话读音,团队人员也不会对发音人进行干涉 。

  目前 ,已有270多位报名者进入第二轮筛选。今天开始面试;12月初,正式录制。除录音外 ,采集过程还要全程录像,以便观察发音人的表情,记录元音开口度的大小等。

  处理难度大

  处理5分钟录音 要花一周时间

  许彬彬坦言,语料采集最难的不是录制,而是后续工作。届时,厦大团队将会对素材进行语素标注等处理,将晋江腔闽南话的声调、韵律等规则交由技术人员,进行模型建立和大数据训练 ,服务应用。处理素材有多难 ?两组数据可说明——一位经验和技术都相对成熟的项目人员,处理5分钟录音,花了一周时间;目前已入库的数百小时以上的厦门腔闽南话材料 ,则耗费了近10年 。

  【名片】

  闽南话发音人

  通俗来讲,参与专业闽南话发音语料采集工作的人,他们“说”的闽南话,会被用于闽南话研究、闽南话智能语音转换、闽南方言学习和推广等方面。

  说咱闽南话App

  “说咱闽南话”是由世晋青推出的闽南话主题公益性App ,具备有声字词典、智能转换工具 、独立问答专区、场景对话点读等实用功能,还有音频 、视频、图文等媒体形式 。目前 ,已收录闽南话词条近20000个,闽南话AI智能语音转换功能累计被使用265万次,17万注册用户来源地遍布全球六大洲 。

  【链接】

  一乡一腔

  闽南话有“一乡一腔”之说。不仅是不同城市 ,不同县区 ,就连不同镇街 ,发音都可能存在差异。对此 ,专家解释 ,闽南话属于汉语中七大方言之一 ,它的支系皆源于泉州和漳州音系,但依分化时间的早晚 、地理隔阂  、漳泉音演变等因素 ,出现了不等的差异和变化 。

  据介绍,闽南话难学的原因,与其声母、声调 、韵母的复杂程度有关 。闽南话,声母有15~17个(普通话中声母23个),韵母有65~86个(普通话中韵母24个),声调5~8个(普通话中声调4个) 。同一个字,同样的意思 ,同样的音韵地位 ,可以出现两个读音 ,有些字 ,甚至有四个以上读音 。

1.8414s , 13486.8671875 kb

Copyright © 2024 Powered by 揭秘背后故事:谁能成为闽南话发音人?有声语料库到底做啥? (资料图)除录音外,陈善闭邪网  

sitemap

Top