数据简介
Hindi (印地语),是印度的主要官方语言之一。据统计,印度国内以Hindi为母语的人数超过1.8亿,以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地,使用Hindi的人数也高达数百万。随着印度的国际地位日益提升,Hindi的影响力也在逐渐增大。为了提高语音识别引擎对Hindi的识别准确度,我公司制作了印地语语音识别数据库。
该数据库是采集印度新闻完成。总共15个小时,7000多句,每句9秒以内,语音对应文本数据,以女性发音为主。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。我们选择了人们在日常交流中涉及最多的领域,包括新闻、工作、运动、购物、新闻、食物、电影等25个最常见的话题。在可选的25个话题中自由挑选自己感兴趣的话题,共7.6G文件。该数据库由Hindi的母语使用者进行人工转写和标注,并经过了严格的质量检验。该数据库包含一个SAMPA印地语发音词典,并由我们的印地语语言学家进行了校对。