第1906章平衡的艺术2_重生87：开局截胡港岛女神

第1906章平衡的艺术2 (第1/2页)
　　
　　贾瀞雯看着那份测试报告，眉头皱起来。
　　
　　百分之六十二，意味着每三句话里就有一句识别错误。
　　
　　这样的产品，根本没法用。
　　
　　“瓶颈在哪儿？”她问。
　　
　　“数据。”张涛说，“语音识别需要大量标注好的语音数据。
　　
　　我们没有这方面的积累，要从零开始收集。
　　
　　还有算法，现有模型对噪声、口音的适应性很差。”
　　
　　贾瀞雯记下这些，当晚就汇报给了陈浩。
　　
　　陈浩听完，沉默了一会儿。
　　
　　“百分之六十二，比我预期的好一点。”他说，“我本来以为会更差。”
　　
　　“那怎么办？”贾瀞雯问。
　　
　　“别急。”陈浩说，“语音识别是长期工程。
　　
　　先收集数据，优化模型。
　　
　　我把手头一些资料发给你，可能有用。”
　　
　　几天后，贾瀞雯收到一个压缩包。
　　
　　里面是几十篇论文和技术文档，都是关于语音识别的最新研究。
　　
　　有些是英文的，有些是中文的，还有一些是手写的笔记——陈浩的字迹。
　　
　　她把这些资料转给张涛。
　　
　　张涛看了之后，兴奋地打电话来：“贾总，这些资料太及时了！有几篇论文正好解决了我们遇到的问题。”
　　
　　接下来的几个月，语音搜索团队边学边做。
　　
　　数据从几万条积累到几十万条，模型从简单到复杂。
　　
　　准确率从百分之六十二慢慢爬到百分之六十七、六十九。
　　
　　但到了百分之七十，又卡住了。
　　
　　“七十是个坎。”张涛在评审会上说，“再往上，需要的计算量和数据量成倍增加。
　　
　　我们现有的算力不够，数据也不够。”
　　
　　“需要什么？”贾瀞雯问。
　　
　　“至少再翻一倍的服务器，还要更多的标注数据。”张涛说，“投入可能要翻番。”
　　
　　贾瀞雯算了一下。
　　
　　翻番意味着把移动广告联盟的全部盈余都投进去，甚至还要从其他项目抽资源。
　　
　　她犹豫了。
　　
　　当晚的视频，她把这个难题抛给陈浩。
　　
　　陈浩听完，没马上回答。
　　
　　他拿起笔，在纸上画着什么。
　　
　　“瀞雯，我想到一个思路。”他说，“传统的语音识别，是把声音转成文字，再用搜索去匹配。
　　
　　但有没有可能，跳过一个环节？”
　　
　　“什么意思？”
　　
　　“直接建立声音特征和搜索结果之间的关联。”陈浩说，“比如用户说‘天气预报’，系统不是先识别成‘天气预报’这几个字，再搜天气。
　　
　　而是直接从声音特征匹配到天气这个意图。”
　　
　　贾瀞雯想了想：“听起来很抽象。
　　
　　技术上能实现吗？”
　　
　　“需要算法创新。”陈浩说，“我写个框架发给你，让团队看看。”
　　
　　
　　
　　（本章未完，请点击下一页继续阅读）

零点看书

第1906章 平衡的艺术2

第1906章平衡的艺术2