Frame.io 使用 Falco 为视频云建立完整的安全程序

挑战

Frame.io 的全部工作负载,包括视频内容客户,都在使用 Docker 容器中运行的平台。“容器上线,火力全开,” Frame.io 副总裁兼信息安全和基础设施主管 Abhinav Srivastava 说,“容器内,我们需要 100% 的可见度,我们要保证它们的安全。为了给 Frame.io 的视频云创建绝对可靠的程序,团队需要容器安全工具。

解决方案

Falco 是保证容器原生运行时间安全的开源项目,非常适合 Frame.io。鉴于 Frame.io 的特殊需求,团队“进行了整个微调过程,” Srivastava 说,“我们使用 Falco 的原始数据,在 Falco 顶部创建了一个完整的端到端系统。”

影响

因为团队获得系统完全的透明度,Srivastava 说,事故响应和解决时间都得到了提升。Falco 还帮助 Frame.io 解决 SOC2 Type 2 和 TPN 合规问题。类似 Frame.io 环境中的供应商产品年运行成本动辄15万美元,Srivastava 一语道破实情。“我们的支出也差不多是这个金额,但这可不是单个工具的支出,”他说,“而是整个安全运营系统的支出。”

挑战:
行业:
地点:
云类型:
产品类型:
出版:
February 6, 2020

使用的项目

Falco

一些数据

原始事件处理量

高峰期2.4亿/天

容器数量

300,000

节省资本支出

$150,000/年

从 Netflix 到 Fox Sports,再到 Vice,诸多知名的视频与影片内容创作者都在使用 Frame.io 平台实现云观看和多团队协作。

就客户关心的保密性问题,公司在2014年程序上线之初,就对其安全性和可靠性做出承诺,而这一切都要归功于云原生技术。

2017年,Abhinav Srivastava 加入公司、担任副总裁兼信息安全和基础设施主管后,就开始着手为 Frame.io 视频云创建绝对可靠的安全程序。视频云搭建在 AWS 上,最为关键的组件是 ML/AI 异常检测系统外围基于签名的网络应用防火墙,借以筛除恶意请求。

Frame.io 的全部工作负载都在 Docker 容器中完成;高峰期30万个容器同时运行,处理网络请求或完成视频转码,时间跨度从数秒到数小时不等。“一个小时之内,我们就能完成10天的工作量,因为多个容器同时在运行,” Srivastava 说,“容器上线,火力全开。容器内,我们需要 100% 的可见度,我们要保证它们的安全。我们开始研究入侵检测和容器安全工具,这时我们发现了 Falco。”

Falco 是保证容器原生运行时间安全的开源项目,貌似非常适合 Frame.io。“Falco 搭建简便,规则却非常有效,”他说:“制定自己的规则之后,架构扩展非常简单。我们想要的正是这些。”

要最大化利用 Falco,鉴于 Frame.io 的特殊需求,团队“进行了整个微调过程,” Srivastava 说,“我们使用 Falco 的原始数据,在 Falco 顶部创建了一个完整的端到端系统。”

首先,Frame.io 实施了我们团队称之为“Falco on Host”的方案。“Falco on Host”的规则文件不包括 Falco 的默认警报,但包括系统收集或不收集的指令,也包括降低数据量的过滤器。Falco 系统的原始调用数据借助 Driftwood 内容充实,这是公司自己研发的安全分析管线,藉此数据可输出至 Elasticsearch。高峰时,管线可处理近2.4亿 Falco 原始事件。

此外还有 Bobby,Bobby 是一个自己研发的中心警报引擎,Frame.io 借助多个输入源,将其用于自己所有的服务项目。所有警报全部整合进入公司的 Slack。为了支持这些额外特性,减少管理集群的工作量,降低对于缩放的担忧,Frame.io 将无服务器技术(AWS 的 Lambda 功能)用于 Driftwood 和 Bobby。

“容器上线,火力全开。容器内,我们需要 100% 的可见度,我们要保证它们的安全。我们开始研究入侵检测和容器安全工具,这时我们发现了 Falco。”

— FRAME.IO 副总裁兼信息安全和基础设施主管 ABHINAV SRIVASTAVA

团队对实施结果非常满意。“Falco 帮我们更好地了解自己的系统和架构,这样我们对网络的理解也加深了,明白我们的容器关联的其他服务,然后用这些信息加固自己的防火墙,”网站可靠性工程师 Billy Shambrook 说。

资本支出也随之减少:Srivastava 估算,类似 Frame.io 环境中的供应商产品年运行成本动辄15万美元,“我们的支出也差不多是这个金额,但这可不是单个工具的支出,”他说,“而是整个安全运营系统的支出。”

Falco 还帮助 Frame.io 解决 SOC2 Type 2 和 TPN 合规问题。“我们要保护的主要是客户数据,也就是在 Docker 容器中处理的媒体文件。” Shambrook 说:“采用 Falco,我们能够看到容器的运行情况,随时保持警惕,这样就能保证数据得到有效保护。”

“我们要保护的主要是客户数据,也就是在 Docker 容器中处理的媒体文件。采用 Falco,我们能够看到容器的运行情况,随时保持警惕,这样就能保证数据得到有效保护。”

— FRAME.IO 网站可靠性工程师 BILLY SHAMBROOK

除了用于提升安全性和可见度,Falco 还可以用于混沌工程学、排除故障,以及 Frame.io 的事故响应比赛。解决问题的时间因此而缩短。“我们从另一个工具得到警报,用 Falco 数据轻轻松松地就能和发生的事件关联,” Shambrook 说,“通过数据追踪,就能找到事故原因。”因为现在系统完全透明,Srivastava 说:“我们知道每个容器的运行状况,完全不需要到现场去查看警报。警报上报到我们这里,我们通过 Slack 进行筛查。运营效率得到了极大的改善。”

关于使用 Falco,我们给其他单位的建议嘛,Shambrook 不假思索地回答说:“装吧!”对大多数企业而言,“项目的现行规则真的很好,开始阶段就能拿来使用,”他补充说,“这些规则也在不断改进,大家都会提供自己的反馈意见。用这些默认工具,就能大大提高自身架构的可见度和透明度。”

Srivastava 还说花点时间学习这项技术非常值得。“如果有人能够、也有兴趣参与开源项目,每周花几个小时,就会发现 Falco 是一个相当不错的工具,”他说,“越早动手,越早受益。”