首页 > 数据集 > 语音数据集 > 15个小时印地语语音语料数据集
15个小时印地语语音语料数据集

15个小时印地语语音语料数据集

  • 15小时录音
  • 7000句文本
  • 女性发音人
获取样例

已通过ISO27001信息安全管理体系、ISO9001质量管理体系认证。

数据简介

Hindi (印地语),是印度的主要官方语言之一。据统计,印度国内以Hindi为母语的人数超过1.8亿,以其作为日常交流主要语言的人口接近8亿。在美国、南非、新加坡等地,使用Hindi的人数也高达数百万。随着印度的国际地位日益提升,Hindi的影响力也在逐渐增大。为了提高语音识别引擎对Hindi的识别准确度,我公司制作了印地语语音识别数据库。
 
该数据库是采集印度新闻完成。总共15个小时,7000多句,每句9秒以内,语音对应文本数据,以女性发音为主。发音人主要来自于以Hindi为主要官方语言的印度西部和东部地区。我们选择了人们在日常交流中涉及最多的领域,包括新闻、工作、运动、购物、新闻、食物、电影等25个最常见的话题。在可选的25个话题中自由挑选自己感兴趣的话题,共7.6G文件。该数据库由Hindi的母语使用者进行人工转写和标注,并经过了严格的质量检验。该数据库包含一个SAMPA印地语发音词典,并由我们的印地语语言学家进行了校对。

样例展示

  • आंध्र प्रदेश के तिरुमाला स्थित भगवान वेंकटेश्वर के प्रसिद्ध तिरुपति बालाजी मंदिर को

    इतिहास में पहली बार बंद करने का फैसला लिया गया है।

    अब सभी शिक्षण संस्थानों और होटलों को

    विदेशियों के बारे में चौबीस घंटे के भीतर सरकार को जानकारी देनी होगी।

更多样例

没找到满意的数据? 填写表单立刻定制吧!

填写您的详细信息,以便于联系您

详细需求描述