IT之家 5 月 1 日消息,本周早些时候,Mozilla 宣布其 Common Voice 数据集现在包含超过 20000 小时的内容,世界各地的任何人都可以使用这些内容来改进他们的语音识别软件,几乎是一年前的两倍。

mozilla书签在哪里(开源语音数据集已拥有两万小时内容)(1)

IT之家了解到,最新的英语数据集有 71 GB,支持的语言也比以往任何时候都多,增加了蒂格雷语、闽南语、Meadow Mari、孟加拉语、道本语和粤语。

mozilla书签在哪里(开源语音数据集已拥有两万小时内容)(2)

根据 Mozilla 的说法,Common Voice 项目允许任何人为项目贡献自己的声音,从而让虚拟助手能够理解更多的口音。此外,Common Voice 项目是开源的,可确保大型科技公司无法独占,为小型开发商和公司提供了构建竞争产品和服务的机会。

mozilla书签在哪里(开源语音数据集已拥有两万小时内容)(3)

Mozilla 在最新数据集版本中指出的亮点如下:

,