范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

流量分析开发工具包(TADK)在网络应用程序中启用实时AI推理

  插播一个流量分类的论文
  Published in: 2022 Thirteenth International Conference on Ubiquitous and Future Networks (ICUFN)
  论文题目:
  Traffic Analytics Development Kits (TADK): Enable Real-Time AI Inference in Networking Apps
  论文地址:
  https://arxiv.org/abs/2208.07558
  摘要
  复杂的流量分析,如加密流量分析和未知恶意软件检测,强调需要先进的方法来分析网络流量。传统的使用固定模式、签名匹配和规则来检测网络流量中的已知模式的方法正在被AI(人工智能)驱动的算法所取代,然而,由于缺乏高性能AI网络特定框架,无法在网络工作负载中部署基于AI的实时处理。在本文中,我们描述了流量分析开发工具包(TADK)的设计,这是一个特定于基于人工智能的网络工作负载处理的行业标准框架,TADK可以在网络设备中提供从数据中心到边缘的实时基于ai的网络工作负载处理,而不需要专门的硬件(例如gpu、神经处理单元等)。我们已经在商用WAF和5G UPF中部署了TADK,评估结果表明,TADK在流量特征提取上的吞吐量可达35.3Gbps /核,在流量分类上的吞吐量可达6.5Gbps /核,并且可以将SQLi/XSS检测降低到4.5µs /请求,精度高于固定模式解决方案。
  1 介绍
  针对人工智能推理的软件技术进步降低了障碍(计算成本和研发工作),释放了网络应用程序开发人员在其商业解决方案中使用人工智能先进技术的创造力和创新,报告和分析预计,AI在企业SD-WAN部署中的使用将从2021年的5%增加到2025年的40%。
  行业实践正在通过网络分析方法引入使用人工智能(AI)和机器学习(ML)模型的AI技术,以下是一些用例示例:(1)流量分析:用于分析加密的网络流量,以识别网络中的异常;(2)恶意软件检测:检测SQL注入、跨站脚本等恶意流量;(3)用户行为分析:检测关系,识别异常,并对安全进行实证评估。
  为了支持真实的工作负载,实时AI流量分析的行业标准框架必须满足性能、准确性和可伸缩性的要求,根据之前与客户和合作伙伴的研究和讨论,我们确定了以下几个相互挑战:
  •高吞吐量:每个核心高达3Gbps(基于规则的级别),用于基于人工智能的流量分类
  •低延迟:每个请求5 ~ 10µs,用于恶意流量检测
  •高精度:精度 95%
  •易于部署:无需专用硬件(例如GPU, NPU, FPGA)部署
  •易于开发:为了解决上述挑战,我们设计了流量分析开发工具包(TADK),这是一个专门用于基于人工智能的网络工作负载处理的行业标准框架。
  TADK可以在网络设备中提供从数据中心到边缘的实时基于ai的网络工作负载处理,而不需要专门的硬件。简单地说,TADK为基于人工智能的网络处理带来了几个优势:
  1)高性能:TADK为基于人工智能的实时流量分析提供了高度优化的库,我们设计了几种新的算法来提高性能,从我们的基准测试结果来看,流量分类可以达到6.5Gbps /核,在大多数情况下完全支持实时分类,同时,SQLi/XSS检测的整个管道可以实现每一个HTTP请求4.5 ~ 6.1µs,比现有的基于规则的解决方案快2倍,流量分类和SQLi/XSS检测在大多数情况下准确率 95%。
  2)易于部署:使用TADK开发的应用程序不依赖于任何专用硬件,TADK充分利用现代CPU功能,如VX512来加速AI性能。
  3)易于开发:TADK提供了一个基于模块的开发环境,开发人员可以通过组合TADK的模块来实现自己的基于人工智能的交通分析应用程序,就像积木一样。
  本文的其余部分组织如下:我们首先在第二部分介绍了基于人工智能的流量分析的背景和相关工作,在第三节中,我们将给出TADK的总体设计,然后,我们将在第四节中给出高度优化的特征提取算法的一些细节,我们将在两种场景下评估TADK:流量分类和第五节中的SQLi/XSS检测,在第六节中总结。
  2 背景及相关工作
  A.数据收集
  系统的调查总结了一个基于人工智能的流量分析的一般管道,第一步是数据收集,基于人工智能的解决方案需要历史数据作为输入源来训练模型,然而,由于准确性和隐私问题,很难捕获和标记足够多的流量,据报道,60%的研究正在使用公共非加密流量,并使用DPI工具对流量进行标记,为了解决这个问题,TADK提供了一个标记助手,可以帮助用户一键标记非加密和加密流量。
  B.特征提取
  下一步是特征提取。最常见的趋势是使用基于统计的特征(例如,到达间隔时间和具有最小、最大和平均指标的数据包大小),因为它们既可以用于非加密流量分析,也可以用于加密流量分析。然而,一些开源特征提取库的性能不如TADK的库,同时,TADK不仅可以从加密流量中提取统计特征,还可以提取词汇特征。实验证明,统计特征与词汇特征相结合可以显著提高准确率,TADK的流量提取库已用于人工智能流量分析,TADK提供了一个标记器,它比现有的提取词汇特征的解决方案要快得多。
  C. AI推理
  在最后一步,需要一个AI模型或模型集合来收集分析结果,有监督方法和无监督方法都广泛应用于流量分析中。标记数据集用于训练监督模型,如SVM、决策树和随机森林,无监督模型如K-Means被用于异常流量检测。同时,由于对加密流量进行标记比较困难,大多数解决方案采用无监督模型对加密流量进行聚类。在TADK中,我们为人工智能推理提供了一个优化的随机森林模型,我们比较了各种模型,发现随机森林在流量分析工作负载的准确性和延迟之间很好地平衡。
  3 TADK的总体设计
  A.核心库
  TADK由一系列核心库组成,这些核心库对应于我们之前提到的特征提取和AI推理步骤,我们在图1中展示了每个组件,流量聚合器用于将报文(如实时报文或PCAP文件中的报文跟踪)中的流量按5元组进行聚合,协议检测用于识别TCP、TLS、QUIC等协议,特征提取是TADK的竞争力,经过精心设计,可以支持基于人工智能的实时流量分析,我们将在第四节中介绍一些核心算法,AI引擎是基于Intel oneDAL的高性能随机森林的包装,我们的AI引擎支持训练和推理,包括自动特征缩减。
  B. Utilities
  TADK为训练提供了一些有用的实用工具,数据清理器和标签助手提供了一键式的流量标签解决方案,用户只需要捕获一个或几个包跟踪(例如,PCAP文件)作为标记助手的输入,助手将这些包跟踪聚类为几个集群,每个集群将有一个标记提示,用户唯一的工作就是用提示标记每个集群,并使用标记的流量来训练模型。
  C.参考方案
  TADK提供了一些示例来展示TADK核心库的参考用法,流分类样本可以监控网络流量,识别加密流量中的不同应用,数据包跟踪(PCAP文件)或实时流量都可以作为流分类样本的输入。SQL injection (SQLi)/ XSS (Cross-Site Script)检测样例可以检测HTTP流量负载中是否含有恶意代码,TADK还为流分类示例提供了VPP插件,为SQLi/XSS检测示例提供了ModSecurity插件,通过这些插件,用户可以直接将基于人工智能的解决方案集成到现有的管道中,而无需任何修改,我们在图1中给出积分点。
  4 特征提取
  A.基于simd的直方图
  最常用的统计特征是直方图,如TCP报文头长度、有效载荷长度、到达时间间隔等的分布特征,因此,设计一个有效的直方图算法是一个关键问题。
  本文以TCP报文有效载荷长度直方图计算为例,详细说明了实现方法,一个包长度的缓冲区,如图2所示,用于存储网络流中每个包的有效载荷长度(为简单起见,这里考虑16个包),直方图的目的是计算缓冲区中属于特定bin的每个元素的数量。
  1)现有解决方案:标量计算(Scalar Calculation, SC)是一种被广泛应用的方法,它已经在大多数特征提取库中实现,SC是一种基于循环的方法,这意味着他们为直方图使用了大量的循环和分支(它必须逐个处理和计数每个元素),为了弥补这一缺点,提出了一种无环设计,如基于simd的算法。
  2)高级V向量计算:我们提出了一种基于simd的算法,称为高级V向量计算(avc)。
  如图2所示,我们将输入流量分为4类:
  1)类别 1:所有元素都在不同的bins中。
  2)类别2:所有元素均为随机分布。
  3)类别3:所有元素都在一个bin里(除了最大的bin)。
  4)类别4:所有元素都在最大的bin里。
  由于每个类别需要不同的算法来计算,我们还提出了V向量类别分类器(VCC)来识别输入数据的类别,为了防止VCC成为直方图计算的开销,我们最多只使用3条指令来识别类别,这也如图2所示,我们在表I中给出SIMD intrinsic的定义。
  简单地说,我们首先使用CMPGT来确定每个元素是否大于最大的bin,如果所有的元素都比最大的bin大,它就是第4类。然后,我们用CONFLICT来计算vec冲突,用msk uni来检查每个元素是否唯一,如果所有元素都是唯一的,那么它就是类别1,最后,我们可以简单地检查是否只有一个活动位的msk单元,如果msk uni中只有1位,则为类别3,否则为类别2。
  虽然用最多3条指令计算类别1、3和4中的直方图很容易,但为类别2设计算法是最具挑战性的工作,因此,我们提出了一种新的算法来计算类别2中的直方图,我们也在图3中给出了一个例子,算法1为AVC和VCC的伪代码。我们评估了我们提出的直方图计算的一个VC,VC在1、2、3、4类中分别比现有解决方案快11.73倍、4.38倍、1.33倍和1.47倍。
  B. DFA-based Tokenization
  大多数基于人工智能的流量分析(例如,下一代Web应用防火墙)需要标记化来将词汇特征(基于字符串的信息)转换为向量,作为人工智能模型的输入。对于词法特性,大多数标记器(例如OpenNMT)是基于分支的,这意味着它们使用大量的IF-ELSE来标记。基于分支的解决方案很容易实现,但它对CPU的管道不友好,并且可能会增加缓存丢失的数量。因此,TADK使用了基于DFA的标记器,并提供了可以将易于编码的概要文件转换为特定DFA的生成器,我们在图4中给出了一个基于DFA的标记器的SQLi检测示例,我们还给出了一个培训视频来描述标记器是如何工作的。
  1)生成器:为了支持多种语言/文件格式,我们提出了一个可以从用户定义的配置文件生成DFA的生成器,我们定义了一种DFA概要语言,可以方便地由我们的客户维护,并且易于扩展,为出现的威胁添加新的令牌,并支持更多的用例,生成器还包括一个DFA编译器,用于将用户定义的概要文件编译到相应的DFA转换表中,DFA转换表由Tokenizer直接使用。
  2) Tokenizer: DFA转换表描述了每种状态和输入字符下的转换行为,算法2展示了DFA引擎是如何工作的,引擎在主循环中进行简单的转换,这使得它非常快。
  5 评估
  A 环境
  我们使用GCC 7.5实现TADK。由于TADK已经部署在WAF或5G用户平台功能(UPF)等多个场景中,因此我们有不同的CPU和RAM环境。5G UPF采用中兴5300G4X,基于Intel Xeon Gold 6330N CPU(冰岛),配置512GB DDR4 RAM。其他评估是基于Xeon Gold 6148 CPU (Skylake)和Intel Xeon Platinum 8358 CPU(冰岛),带有32G DDR4 RAM。我们将参考流量分类样本集成到中兴5G UPF中,以测试其吞吐量和准确性,我们使用IXIA作为流量生成器来生成流量,以测试零丢包的最大吞吐量。
  B 数据
  由于我们选择随机森林作为我们的AI推理模型,我们评估了随机森林在流量分类和恶意软件检测方面的准确性,在流量分类中,我们从现实世界中收集了国内最热门的应用(百度、天猫、BILIBILI、腾讯、今日头条、快手、QQ、香山、QQNEWS、优酷、微信),进行训练和推理,在恶意软件检测中,我们使用SQLMAP作为SQLi, XSSTRIKE作为XSS来收集用于训练和推断的数据。我们还选择了一些公共数据进行推理。
  C.流量分类
  1)准确率:我们给出了模型的混淆矩阵,可以对图5中的9个应用进行分类,精确度和召回率均大于90%,平均精密度、召回率和f1-score分别为0.936、0.926、0.918。从评价结果可以看出,该方法在大多数场景下都能满足流量分类的精度要求。
  我们还训练了一个模型来分类微信图像传输流量和微信视频传输流量,这是UDP流量,我们准备了70个图像传输流和100个视频传输流进行训练,我们在表II中给出了精度细节,平均精确度、召回率和f1-score分别为0.883、0.884、0.883。
  2)性能:我们用可以分类2个应用程序的模型测试我们的延迟(用1524个流的WECHAT和用1551个流的YOUKU训练和测试)。从表III中,我们可以看到我们的延迟可以达到每个流10.7µs,这对于大多数情况是足够的,此外,我们还在表III中测试了DNS、HTTP和TLS特征提取的延迟,DNS、HTTP、TLS的平均报文数分别为2、8、13,使用POPCNT指令和新的体系结构,延迟显著降低,TLS延迟比HTTP低的原因是TLS需要提取的词法特征更少。
  我们还通过优酷测试了吞吐量,每个流的平均数据包是20个,超过99%的流是HTTP和TLS流,吞吐量为每核6.5Gbps (1629 kpps),平均每个流的数据包数为28个,我们可以估计在大多数情况下我们的吞吐量可以达到9.1Gbps。特征提取的吞吐量可达35.3Gbps。
  3) 5G UPF中的吞吐量:我们使用图6中分别可以将5G UPF中的3、5和9个应用程序分类的模型测试吞吐量,最大吞吐量为3.78Gbps (618kpps)与5个应用程序,可获得3.39Gbps (515kpps)和3.58Gbps (599kpps)与3和9个应用程序,结果表明,该算法的性能不会随着应用数量的增加而降低,5G UPF的吞吐量不能达到我们前面提到的吞吐量并且有抖动的原因是我们的流表实现和其他集成开销。
  D.恶意软件检测
  1)准确性:我们用TADK实现了一个用于SQLi/XSS的ModSecurity插件,我们将我们的插件与在相同服务器环境(Nginx与ModSecurity)中充分利用的libinjection进行比较。我们使用SQLMAP和XSSTRIKE设置一个攻击客户端来生成流量以测试准确性,TADK的插件比libinjection有更高的精度(SQLi为100%,XSS为99.8%),并且它有更少的误报。
  2)延迟:我们评估了表IV中SQLi/XSS插件的延迟,TADK的延迟比libinjection少50%,总之,在SQLi/XSS中,基于人工智能的解决方案比基于规则的解决方案具有更低的延迟,这使得实时基于人工智能的恶意软件检测成为可能。
  6 结论
  在本文中,我们提出了TADK作为解决实时基于ai的网络工作负载处理的解决方案。评估结果表明,采用TADK实现的应用程序可以满足实时性能(恶意软件检测每请求4.5µs,流量分类和特征提取每核6.5Gbps和35.3Gbps)、准确性( 95%)和不需要任何专用硬件的可扩展性的要求,我们已经在WAF和5G UPF中部署了我们的解决方案,并对其在实际应用中进行了评估,我们目前正在与合作伙伴一起改进实际部署所需的可靠性和缺失的特性(例如,GQUIC),最终将由公众和社区进行检查和使用。

2023年,专用车发展迎来全新历史时刻来源汽车纵横全媒体随着疫情管控政策的持续优化,我国交通运输行业正逐步恢复至常态,而专用车市场也正在加速推动一场电动替代燃油新技术替换老技术的风搅雪。公共领域车辆使用频率高,燃油消耗周军平代表持续深化国企改革深化改革是加快国资国企高质量发展的关键一招。全国人大代表,海南省发展控股有限公司党委书记董事长周军平说,海南控股已取得的扎实成效充分印证了这一点。2020年国企改革三年行动启动,海亚洲杯四强诞生2席!两强队翻车,伊澳皆出局,国足战韩国盼奇迹北京时间3月12日,U20亚洲杯迎来了14决赛的较量,结果两大强队伊朗和澳大利亚翻车,双双爆冷无缘四强让人意外,其中伊拉克10补时绝杀伊朗,东道主乌兹别克斯坦历经苦战通过点球大战总资讯北京昌平发放1000万汽车消费券,购车至高享受8000元优惠文懂车帝原创常思玥懂车帝原创行业日前,懂车帝从北京市昌平区商务局获悉,2023昌平消费季活动正在进行中,其中包含第一期1000万元汽车消费券。活动期间,每人最多可领取并使用7张面值前8名有奖金,北京城市副中心马拉松4月9日起跑本届赛事马拉松奖牌名为运河逐梦。主办方供图新京报讯3月9日,2023北京城市副中心马拉松新闻发布会在京举行。本届赛事将于4月9日8时鸣枪开跑,比赛为男子组和女子组前8名完赛的选手分西部航空正式恢复运营重庆至普吉国际航线3月10日上午1030,海航航空集团旗下西部航空正式恢复运营重庆至普吉国际航线,并在江北国际机场T3航站楼举行重庆普吉国际航线首航庆祝仪式。此次的重庆至普吉往返航线是西部航空202合作本土潮流IP,北京环球影城王者荣耀英雄盛会今日上线新京报贝壳财经讯3月11日,北京环球影城王者荣耀英雄盛会正式上线,呈现集娱乐演出角色见面会主题餐饮和商品于一体的沉浸式主题体验,为北京环球度假区拉开缤纷春日帷幕。此次限时回归的王者北京环球度假区结合本土潮流文化,打造多元沉浸式体验中国青年报客户端讯(中青报中青网记者夏瑾)欢迎各位来到王者世界的长安城!伴随着气势恢宏的背景音,搭载着国内知名手游主角的巡游花车队,浩浩荡荡地驶上了北京环球度假区内的好莱坞大道。大张本智和32险胜同龄国乒小将,心态爆棚,国乒需磨炼心态!北京时间3月12日,WTT新加坡大满贯2023年比赛中,正赛第二日,最为关注的就是国乒选手向鹏与日本选手张本智和的比赛了,两人之前交手过一次,向鹏赢了张本智和。此次则是张本智和复仇便民丨上海鲜花港郁金香花展即将开幕!来看攻略阳春三月晴空下百花妩媚竞相开一年一度上海鲜花港郁金香花展将于2023年3月25日盛大开幕!本次花展以鲜花,让生活更美好为主题,通过郁金香风信子洋水仙银莲花等球根花卉新品种展示以及各踏春新选择!全新欧蓝德春季出游专属攻略新冠时代逐渐退场,我国国民生活全面恢复常态化,经济市场加速升温。2023年春节假期以来,国内旅游业持续向好,尤其对有车家庭来说,自驾踏春成为周末休闲陪伴家人感受春光的不二选择。那么
小波特NBA联盟第一人打球就这么脏?库里需要杜兰特的帮助库里作为联盟中最出色的运动员,他在比赛中利用自己的三分球威胁直接改变了NBA的打法,可以说他就是最具有划时代球员的特征,可是在面对火箭队的比赛中,库里在比赛中的一个肘击却引起了球迷春节家宴,餐桌上必备的5道硬菜,提前学会,过年待客特有面儿大家好,我是大磊。2022农历虎年马上就要到了,家家户户也都开始忙活着过春节了。无论是大三十的年夜饭,还是招待客人的餐桌上,硬菜都是必不可少的。硬菜是一个饭局的担当,对于我们北方人过年给孩子压岁钱,应该三十晚上给,还是初一早上给?导读春节是我国的传统节日,过年有很多的讲究。大人给孩子压岁钱是非常重要的一个,压岁钱是长辈给小辈的新年祝福。孩子们除了过生日那一天,最开心的时间应该就是过年收压岁钱了。有的地方,长2岁宝宝语言大爆发,得益于妈妈坚持做3件事,方法值得父母借鉴大家好,我是布谷妈布妞1岁8个月左右,已经掌握了最基本的生活常用词,比如她想帮忙扫地,会说妈妈,扫把,我来。渴了时会说喝水。偶尔也会蹦出一两个句子,比如吃饭会抢着说我自己吃。那时候一学就会的幽默沟通,让你也拥有一个会说话的高情商交流方法说话也是一门艺术,一样的话,不同的人来说,有的人说的好听,有的人说的不好,这是为什么?今天我就给大家总结出一百多种幽默的说话方式,快让你的孩子读一读,学会说话,学会交流,让你的孩子父母离婚对孩子影响有多大?孙俪和张柏芝给出截然不同的回答原创刘娜来源闲时花开昨天晚上,有个女读者给我来信。说她是单亲家庭长大的孩子,父亲当年背叛母亲,家外有家,生下私生子,母亲含恨离婚。孤独又要强的母亲,把她养大。她争气懂事,读了重点大从中国红开始,解码千年传统色茅雯婷万紫千红总是春,农历春节临近之际,各大品牌纷纷以红色为主调推出中国新年限定系列。中国红成了新春佳节氛围组主要担当。BABYDIOR的中国新年限定系列例如,BABYDIOR的中除夕年夜饭,这6道凉拌菜记得端上桌,寓意吉祥年味足,好吃好看春节马上就要来了,年的气息越来越浓,所以最近上班,大家都在讨论年夜饭要吃些什么,除了平时必备的习俗主菜,都想给今年的年夜饭再添点新意。现代人的生活水平提高了,不管是不是年夜饭,平时双城之战1。24版本更新前瞻卡特黑白魔法大削Hello大家好,我是小嗨。新版本的更新内容最近已经更新到了测试服,本次更新比原计划推迟了一周,当然了小嗨在新版本更新前也会给大家带来新版本的资讯内容,具体内容以正式服为主!新版本甜美风搭配技巧,为你的美丽加分不少妹子们为了在男生面前展现自己甜美的一面费尽了不少心思。既然如此费尽心思,不妨看看小编为你推荐的几款甜美风格的搭配技巧,让你为自己的美丽加分。粉嫩的颜色总是能够给你带来甜美感。荷忍无可忍!全红婵爷爷把访客拒之门外你们不能进,红姐没在家2021年最炙手可热的运动员恐怕非全红婵莫属了,这位仅仅14岁的小姑娘在东京奥运会10米台赛场上以不可思议的三跳满分的神迹夺冠,不仅创造了新的世界纪录,还就此成为了本届中国代表团中