《新闻实验室》访谈稿

本文是接受新闻实验室会员计划访谈的文字稿。一直以来,关于算法在社会学领域中的讨论都想写一点东西,这次正好主题相关,所以将文稿稍作整理,也放一份到这里。原文可访问新闻实验室微信公众号

原文引言

发起“新闻实验室会员计划”快一年了,加入计划的有许许多多有趣的人,在线上和线下的会员活动中,逐渐拥有了一个很好的社群。

于是我想把平台提供给他们,倾听他们的故事,分享他们的智慧,让更多朋友认识这些有趣的人。——方可成

采访/黄佶滢

Q:你是算法工程师。能否简单介绍一下什么是算法?

A: 简单理解,通常谈论的算法是指以计算机为工具,利用数学模型来解决各种实际问题。既可以是逻辑确定的一系列步骤;也可以是根据数据来自我学习、优化。

比如常见的搜索引擎;比如根据你的历史行为和当前状态推荐你想看的文章、视频;比如自动翻译;比如识别图片中的物品画面,帮助盲人;比如 AlphaGo 下围棋等等。这些都是算法的实际应用。

Q: 平时和算法机器打交道,有没有什么人机间印象深刻的事情?是爱机器人还是爱人更多?

A: 爱机器还是爱人更多,哈哈,这个问题好哲学。现阶段的 AI 还远远没有达到强人工智能的水平,虽然有一些很厉害的结果,但目前为止还没有特别出乎意料的事情。

的确,跟机器打交道要更舒服一些,因为听话。我可以明白到底发生了什么,动手写代码去修改和调整完善。人则不同,更复杂,更难把握,比如猜女孩子情绪比找程序 bug 难多了。人有更多的不完美,更多的不确定性,而这些恰恰是可爱的地方。另一方面人脑在很多领域的奥秘还远远没有揭开,这些仍然是机器暂时无法企及的地方。我最近也在看一些认知科学的东西,很有意思。

Q: 你的专业是数学,现在从事算法工作。同时也对政治、法律、新媒体领域感兴趣,是什么促使你对这些领域感兴趣的呢?有没有这方面对你影响大的人或事?

A: 应当说并没有特别的人或事来影响这种兴趣。对于公共规则、程序正义的兴趣是天生的。如果要说有的话,2008年可能会是一个节点——那一年发生了很多事情,奥运火炬传递过程中东西方媒体的差异,汶川地震中各种谣言假新闻。我当时人在成都,亲身经历了很多事情。这种公共空间的讨论就发生在身边,对于之后也有些影响。

作为80后,我也算见证了 BBS 讨论时代的末期,挺怀念那个没有表情包,大家真诚码字、认真讨论的空间。此外就是大学精神的影响,虽然被很多人批评现在的大学生研究生是一群精致的利己主义者,但我认为理想主义的精神在社会中仍然存在。这种说起来可能有些矫情,但我们的确应该关心更大范围内的一些事情。

就像淡豹所说的:「我们这代人经常陷在虚无中,表现形式之一是:保卫或珍惜自己的精神生活,放弃公共生活,用职业上的生活给自己提供物质保障,私人生活里有朋友和快感。它实际上割裂了个人与社会、工作与内心。这既是很多知识青年对现实失望的后果,同时也是中国现代化的一个结果。」

Q: 你在入会邮件中提到:不喜欢微信公众号的封闭生态环境,能否具体说说?

A: 关于微信公众号的封闭生态环境这点很多人提到过,写了不少文章,我的观点也大致相同。但是你看,如果我想在这里引用这些文章,就是一件非常困难的事情,因为一般的公众号是无法添加链接的1

我自认为是数字时代的原住民,认为能够平等无障碍地访问网络内容是一种基本权利。超链接是互联网最本质的东西,阉割掉了这个,只在微信自己的生态圈里打转。整个风气是鼓励把所有内容都圈在自己的地盘,最终的结果是劣币驱逐良币。具体来说有这样一些问题:

  • 外部链接不方便,变相鼓励抄袭,打击原创。
  • 文章的质量、可信度一个重要的判断技巧就是看是否有给出消息来源链接,这是判断假新闻谣言的重要办法,同时也是判断作者是否有「做足功课」的方法。封闭生态实际上助长了谣言。
  • 每天数字世界产生的优质内容中,英文的比例远远大于中文,但现在国人被圈养在微信公众号里,加之微信群的泛滥,容易造成信息孤岛。
  • 文章应该是能被搜索引擎检索,被 RSS feed 订阅的,对于个人作者,一篇文章的生命力应该更长,很多十年前的博客文章现在依然可以被搜索到,被阅读和引用。但现在公众号的文章生命力太短了,大部分不超过一周。

另外多说一点的是,移动互联网时代,随着微信公众号的泛滥,很多人已经丧失了基本的信息素养,比如读不懂 url 的基本规则(公众号链接的丑陋简直难以想象)。

Q: 张一鸣创办的今日头条注重的是信息分发效率,你觉得当算法被用于传播,是否需要具有价值观?

A: 某种意义上说,算法模型的原理的确是客观的。但实际中,一个真实产品的算法一定是有价值判断在的。这体现在几个方面

  • 模型假设:所有算法模型都是对现实世界的简化,数学模型成立一般是有前提假设的。但是针对实际人群,你的假设是什么,这本身就是有价值倾向在。
  • 算法的优化目标最终都是商业利益:既然最终目的指向的是商业利益,那么这种利益本身同一般意义的公众价值判断就有可能产生矛盾。
  • 数据的偏差:机器学习算法一般都会根据收集到的数据进行自我学习,但如果机器见到的数据本身就是严重有偏的,那么最终学出来的模型也就带有了「偏见」。

就好像可成老师发起的媒体食谱计划中说的那样,你每天接触的信息就跟吃的饭一样,长久下去会直接塑造这个人的很多方面,包括其怎样看到这个世界,怎样在公共空间与人打交道。当一个算法影响的是亿万人每天能接触到什么时,我想背后的公司决策者,算法背后设计它的工程师应该保有一点敬畏之心。

Q: 现在的算法是在迎合人们还是指导人们?

A: 可能都是,也可能都不是。

商业公司在设计算法时,并不是从被动迎合人们还是主动指导人们出发的。公司的商业利益才是最终考量。于是两种情况都会出现。

有些算法会专门利用人性弱点。又比如现在很多碎片化、多图流的设计,也是迎合了人背后的信息焦虑感的,吸引你不停地刷新,从而取得更长的停留时间。

所以,「指导」这种说法太理想化,并不现实。用户是不会按照上层设计走的。而且我并不相信商业公司会把社会责任摆到商业利益前面,这里永远有博弈。有时涉及到公众利益,就可能需要公权力的介入,需要媒体的舆论监督。当然,本质要靠普通人提升信息素养。

Q: 传播学理论中有“媒介即信息”这一说法,你觉得在算法加入传播后,多大程度上改变了我们的传播方式?

A: 之前其实大部分人获取信息的方式也是中心化的,有限的,被动的。比如收看统一的电视新闻,读同样的报纸。现在互联网算法加速后,有好的一面,也有不好的一面。

好处:

  • 之前高高在上的话语权,现在更亲民;
  • 从中心化到分布式,普通人有了更多机会;
  • 更好的监督和验证,信息被检验的速度加快;
  • 信息总量增加,有限到丰富,有助于长尾内容被发掘。

坏处:

  • 噪音和谣言也同时被放大了,而且似乎更懂得利用算法传播(标题党,多图流,SEO,ASO);
  • 在被动性上并没有本质的改变,比如依赖算法推送。

Q: 算法通过技术帮人建立起了一个过滤气泡,滤除了与我们意见不符的信息。你觉得算法一定会导致过滤气泡吗?

A: 不一定。

过滤气泡往往意味着接触到的始终是类似的内容,愿意看的(潜台词是与自己意见相符的)内容。

通常理解,最原始的推荐算法有两种基本形式,一种是根据相似的物,一种是根据相似的人。前者导致过滤气泡比较容易理解。但后者其实是不一定的。因为人的兴趣品味是多样的,跟你在某方面相似人可能有其他兴趣是你所不知道的。但我们日常接触到的,可能更多是不那么智能的例子。因为靠人来推荐也未必靠谱,毕竟大部分人的数据是很稀疏的,并不足以产生迁移。结果就是,当大多数人都只有很小范围内的数据时,单纯的相似推荐会强化这种结果,于是更容易出现过滤气泡。

但这一点也是可以解决的。虽然从商业角度看,很多场景下只用相似性就可以达到不错的效果,但相似性只是推荐算法的一个方面,而推荐算法技术本身涵盖的方面有很多。

Recommender System Handbook一书中对于推荐系统衡量指标的列举:

  • User preference 用户喜好
  • Prediction Accuracy 预测精度
  • Coverage 覆盖面
  • Confidence 置信度
  • Trust 信任
  • Novelty 新鲜感
  • Serendipity 惊喜度
  • Diversity 多样性
  • Utility 效用
  • Risk 风险
  • Robustness 稳健性
  • Privacy 隐私
  • Adaptivity 自适应性
  • Scability 可扩展性

通俗的说,这些算法往往最后会归结到一个数学上的优化问题,那么关键在于这个算法背后的优化目标是什么。如果通过一定的建模手段,把多样性,新鲜度等指标形式化成数学度量,放入模型中,机器算法会自动去寻找能优化这些指标的方案,最终看到的推送内容就有可能走出过滤气泡。

总的来说,我个人认为,推荐系统虽然确实可以导致过滤气泡的产生,但推荐算法技术本身的表达能力是可以克服这个问题的,关键在于如何更好的设计算法的优化目标,以及更本质的,如何平衡这些目标与公司商业利益之间的关系。说到底,商业利益是这一切的核心。

Q: 当我们已经处于气泡中,我们可以做些什么?

A: 我自己也在气泡中做着挣扎,所以只能粗浅地提供一些意见,仅供参考。

  • 提高信息素养:独立思考。基本的判断信息来源是否可靠的能力,基本的信息检索获取能力。
  • 走出舒适区,去沟通,去看看外面的世界。人的大脑喜欢确定性的东西,讨厌未知,这是本能。(这点很难,我自己也做得不好,但有更多的人努力,环境会变好)
  • 始终拥有好奇心,愿意折腾,培养自己的 hacker 精神。比如学一点编程,自己动手整理 RSS,而不只是依赖头条、即刻等的推送。避免总做伸手党。
  • 培养隐私意识。被算法控制的用户,一个重要原因是出让了太多隐私,于是算法了解你的越多,你越看不到不同的声音(当然,这属于消极抵抗,但也值得做)。

Q: 你今后是否会将现有的工作和新闻传播结合起来,如果有会怎么做呢?

A: 算法中有很重要的一个方向是自然语言处理 (NLP),而我的不少工作内容也直接与此相关。已经看到有不少论文在讨论利用 NLP 技术处理一些诸如识别假新闻等跟传播学相关的论文,可以考虑实际动手在相关数据集上做些实验,或者整理一下相关的论文材料,写一些小的文章,投稿到新闻实验室。

Q: 你大学毕业来北京读研、创业,对这座城市的第一印象是什么?后来有没有发生改变?

A: 第一印象是城市和人的多样性,有趣,以及无限的可能。以前觉得遥远的事情,现在身边的人就在做,而且做得很好。会给你自信,同时有压力。我常跟朋友说北京是一座很容易欺骗人的城市,特别对于来这里求学的人,因为往往是九月份开学,而九十月份秋天的北京实在太美好了。

很遗憾的是,这种多样性的包容空间,随着年龄的增长,越来越压缩,信心也在跟公共部门的打交道中一次次被打击。你可能给自己的标签是名校毕业从事科技行业的高素质劳动者,但在官方的话语体系中,你是一个在体制以外没有户口的外地人,是这个城市的不稳定因素。


有趣的人同题问答

Q: 你最近关心的公共议题是什么?有什么见解?

A: 言论控制的收紧以及对于国外网站访问的限制,特别是科研和技术类的资源。比如最近剑桥大学出版社被迫撤掉论文等。

从之前上大学,读研究生做科研;到现在作为科技行业的从业者,每一次限制的加强,就像方老师前段时间的一条微博里说的,都带来巨大的人力时间精力的消耗成本。很无奈。

Q: 你最近最大的困惑是什么?

A: 木遥在一条微博里说过,我们这代人是天生的乐观主义者,因为成长过程中一切都在慢慢变好。但最近国内外,保守主义言行,社会阶层间的对立,这些让我开始怀疑这种天生的乐观主义。

Q: 如果让你用旁观者的视角,为自己的人生写一篇报道,你会起什么标题?

A: 虽然年纪不小了,但自以为还是少年心态,仍然觉得人生还有很多不确定的可能值得探索,很难现在就定个一生的标题啊。如果可以,我希望临死前,发现自己的一生始终抱有好奇心,始终愿意为了更好的事物而折腾,能赢得一个标题:A Lifelong Hacker

Q: 如果你发现亲戚朋友在社交媒体转发谣言,你会怎么做?

A: 尽量搜索靠谱信息源,直接在下面贴链接辟谣。

Q: 如果生活中的一件事日后要被人工智能替代,你愿意选哪一件?

A: 日常跟公务部门打交道办事,很多流程化的事情完全可以替代,而且透明,不会出现一会多要这个证明,一会多要那个签字。

Q: 如果你与方可成老师交换一天生活,你会以方老师的身份做什么,你会推荐方老师用你的身份做什么?

A: (这是方老师的迷妹们想出来的问题吗,2333)

用方老师的身份:方老师认识特别多有意思的人,这点让人很羡慕,我想去多和这些人聊聊天,了解自己圈子以外的世界。另外可以尝试下人文社科某个题目的研究流程,作为理科生,对这套方法论非常陌生。但我相信会有借鉴价值。

方老师用我的身份:我写过一些推荐算法,推荐方老师手工追踪一下某个推荐算法的流程,比如就以自己的帐号为例,看看某一天的推送内容到底是怎么从原始的候选池一步步生成的。相当于进到算法黑盒里面走一遍,这样会有更直观的感受。

F. Shen
F. Shen
Algorithm Engineer

Be an informed citizen, life hacker, and sincere creator.

comments powered by Disqus
Next
Previous