当美国科技巨头们仍在探索生成式AI的各种可能性时,中国的字节跳动也在这一领域取得了显著进展。这些进展可能最终会让TikTok在AI应用层面获得竞争优势,并通过AI工具驱动用户产生新的行为模式。
正如大多数社交应用所发现的挑战一样,生成式AI在社交应用中目前缺乏真正有价值、能即时落地的应用场景。当然,你可以加入聊天机器人,但用户本质上更希望与他人连接(这也是“社交”一词的核心)。图像生成工具的新奇感似乎有限,而生成式AI内容创作工具也可能削弱真实的人际互动。
在我看来,TikTok正采取一种更符合逻辑且更具价值的策略:推出那些真正能提升用户参与度的功能。不过,其最新的实验项目在这方面似乎有些令人存疑。
据《商业内幕》报道,字节跳动开发了一款新的AI模型,能够基于极少的输入,以足够逼真的准确度复制任何人的声音。字节跳动的“StreamVoice”系统仅需几句语音样本,即可实时复刻一个人的声音,让你几乎能模拟任何人的讲话(可以在此处收听StreamVoice的输出示例)。
分析人士已经指出了其被滥用的潜在风险,诈骗者可能利用此类系统进行欺诈和其他欺骗行为。但值得注意的是,mate(facebook)也在开发类似技术,其“AudioBox”软件目前已可在网页上进行实时测试。
那么,为什么要开发能够复制人声的工具呢?
在mate(facebook)的AudioBox研究论文中,提到该工具将“降低音频创作的门槛”,为更多人创作音频内容提供机会。“创作者可以使用Audiobox这类模型为视频或播客生成音景,为游戏定制音效,或用于许多其他用例。”虽然不确定这与直接录制音频有本质区别,但从概念上讲,它能为你的项目提供更多语音文本的变体,从而可能实现更广泛的创意表达。
字节跳动显然也着眼于同样的方向。考虑到TikTok机器人语音元素已经颇受欢迎,该技术可能为用户提供更多增强视频音频效果的方式。
这是TikTok不断演进的AI工具集的又一步。该工具集还包括生成式AI个人资料图片、改进的上下文搜索,以及流内的AI音乐生成功能。同时,TikTok也在测试不同能力的文本生成视频工具和AI聊天机器人。
不仅如此。根据彭博社的一份新报告,TikTok正在扩大一项自动化功能的测试范围。该功能可能通过识别每个视频中的物体,提示观众“在TikTok商城寻找相似商品”,从而使应用内的所有帖子都具备可购物性。
这项测试已进行了一段时间。《内幕》网站在去年11月关于该项目的报道中发布了上图。此外,自2019年起,其中国版本抖音也一直在测试此功能。因此,在向更广泛的TikTok用户推出之前,字节跳动有充足的时间来修改和完善这一功能。
更智能的AI整合将有助于使其成为一个更有价值的购物工具,向更多用户展示更多产品,并根据偏好匹配结果。考虑到TikTok已经是许多年轻用户的关键发现渠道,应用在此基础上进行建设,鼓励与其更广泛的电商推动相一致的新使用行为,是合乎逻辑的。
本质上,TikTok正以最明智的方式推进AI的融合,将其作为一种补充手段来增强其核心用例,而不是为了追赶最新技术趋势而生硬地附加功能。
正如前文所述,这是其他平台仍在努力应对的问题。随着时间的推移,观察TikTok如何整合更多AI功能,以及这些功能是否真的能引导应用内的新使用行为,将会非常有趣。



