首页 POWER4EDU 微软和Project Gutenberg合作,将用AI制作5000多本免费有声书籍
微软和Project Gutenberg合作,将用AI制作5000多本免费有声书籍

微软和Project Gutenberg合作,将用AI制作5000多本免费有声书籍

  近日,据海外媒体报道,微软公司和“免费数字图书馆计划”Project Gutenberg合作,将利用人工智能技术制作了5000多本高质量合成声音的免费有声书。

  在这个项目中,研究人员结合了机器学习、自动文本选择(哪些文本可以大声朗读,哪些不可以)和自然语音合成系统等多项技术。

  首先,研究人员开发了一种算法,可以理解基于HTML的电子书的结构,并区分主要文本和不重要的元素,如脚注、页码或表格。在完成这些解析工作之后是文本到语音的实际转换(文本到语音,TTS)。在这个项目中,研究人员特别使用了WaveNet、Tacotron和FastSpeech,它们能够产生自然的和类似真人的语音输出。

  此外,研究团队开发了一个能够区分叙述者和对话的系统,在这里甚至可以区分单个角色和他们的情绪,并相应地调整生成的声音。

  整个流程链条运行在机器学习框架SynapseML上,该框架旨在分解各种任务并进行并行处理。研究团队表示,我们相信这项工作有潜力极大地提高有声读物的可访问性和可用性。

  在会议演示中,研究团队还开发了一种zero-shot文本到语音的方法,可以从几个录制的句子中捕捉用户自己的声音特征,并将其转换为有声书的叙述。

  这使得用户可以从Project Gutenberg中选择一本书,然后用自己的声音为他们朗读。如果他们有音频文件,也可以用自己选择的声音。目前还不清楚这项服务是否会在之后提供,但考虑到潜在的成本,似乎不太可能。

  到目前为止,该项目总共收集了超过3.5万小时的包括了古典文学、戏剧、传记等方面的音频数据。这个数据集本身可能对进一步的人工智能项目有用。研究团队打算将所有音频数据开放,不受任何限制。目前,这些有声读物可以在Spotify、苹果播客(Apple Podcasts)或谷歌播客(Google Podcasts)上获得。

  及时了解最新的全球教育科技投资,请关注我们的Edtracker栏目(知识星球),查阅全球教育科技周报和月报。关于Edtracker,可以查阅我们之前的介绍(点击这里)。

Powered by Froala Editor