加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_泰州站长网 (http://www.0523zz.com/)- 视觉智能、AI应用、CDN、行业物联网、智能数字人!
当前位置: 首页 > 运营中心 > 产品 > 正文

算法架构师曹欢欢:给你看下,被调教得很成熟的今日头条 app 长什么样

发布时间:2016-12-09 15:11:28 所属栏目:产品 来源:极客公园
导读:副标题#e# 「我们搞算法的,不喜欢 social……」面对围上来要跟他加微信的媒体同仁们,曹欢欢显出些负担感。 作为今日头条的算法架构师,曹欢欢与一支约百人的算法团队一起工作。在人工智能做资讯推荐的时代,算法对信息把关起到决定性作用。 在这个用户日

图片 5.png

它的问题在哪?这个也不算是问题,算是壁垒,它的壁垒在于数据,你需要很多数据你这个模型才能变得很聪明,这个决定了行业的比较高的门槛。今日头条赶上了互联网的红利,迅速积累了很多用户。很多传统媒体甚至都找过我,我们能不能也做一个类似的?我很不好意思说,抱歉,这个事真的不能复制,你现在要去做你数据劣势很明显,你很难短时间内有相同的效果。

刚才说了很多今日头条,中国有一句老话叫做一枝独秀不是春。除了头条以外这个行业其他的伙伴或者这些竞争对手怎么做的?他们也都在纷纷拥抱智能算法,拥抱人工智能。无论是百度还是 UC,只要跟信息分发沾边的工具它都会做算法推荐,这个东西已经成为行业的大势。我们看一下国外,国外这两幅图,其实 Twitter 和 Facebook 这两年股价变动的趋势。我们看到很有意思的两个新闻,一个是 2013 年的,Facebook 2013 年开始尝试用算法帮你排序,而不止是用时间帮助你整理这些数据流。Twitter 比较保守,在 2016 年尝试用算法改变你时间流,原来一直严格按照时间排序的。对应这两个事情看这两个公司股价变化,一个公司对智能算法拥抱的程度,对于投入到技术变革中紧迫性和公司走势有一定关系的。

图片 6.png

前面介绍了很多背景,接下来我们分享一点干货。

首先,最重要的,智能算法去做智能分发的核心逻辑是什么?这个因为今天一个是时间所限,咱们不是技术论坛,我会尽量减少技术细节的介绍,介绍基本的逻辑。

信息分发利用智能算法来做基本逻辑就是打分器。输入用户的兴趣标签,你是对数码感兴趣还是科技,你是对某一款数码相机感兴趣,你喜欢奔驰还是宝马,这是兴趣标签。

第二个维度情景维度环境特征。你在办公室,还是在家,是休息日还是工作日,是早晨还是晚上,还是说去了一个你从来没有去过的地方,你可能在出差还是旅游,这对于找到你当时兴趣都是有帮助的,这一类我们归为情景维度。

第三类维度是打分器的输入,最重要是内容维度。推荐给你的内容候选,它讲的是什么,主题是什么?热度怎么样?哪些人群比较受欢迎,是财新网发的,还是 21 世纪经济报道发的,这些都是有用的。这三种数据进去最后输出一个数,你喜欢这个内容的概率。这个最简单的函数,这个函数的工程实现非常复杂,但是它的逻辑可以很简单用这样一个函数概括,有这样一个函数任何人来了我们知道他的情景信息,我们可以把几百万的内容库看一遍,哪些分比较高,分高的就给你,机器逻辑非常简单。

图片 7.png

我们有这样一个打分器,输入怎么来,人的内容怎么来?假设我们了解一个内容的语义标签,这个人经常看这类东西,这个标签就有分;你老给他推荐,他不看,这个分就是负分。这是快速的工程实现,稳定性,数据积累的速度。

但是这个基石其实是内容标签怎么来?我们分别讲一下怎么用人工算法帮助我们提取内容的标签,这块分成文本内容的分析和图片的分析,文本内容也是函数,你给它一串字符串,机器你就是一串字符串,来了之后第一个提取关键词,第二个把它分类,分类在大的内容推荐引擎里面,内容分类很复杂,可能有几百个、上千个,一层一层的。顶层可能是科技、财经,在财经里面有股票、宏观经济,在股票里面有美股、港股。我们还要抽取实体,这个实体对推荐人很重要。

(编辑:云计算网_泰州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读