- · 《自动化应用》栏目设置[06/28]
- · 《自动化应用》收稿方向[06/28]
- · 《自动化应用》投稿方式[06/28]
- · 《自动化应用》征稿要求[06/28]
- · 《自动化应用》刊物宗旨[06/28]
【研究池】TwitterOSINT:自动化开源情报收集,分(3)
作者:网站采编关键词:
摘要:图1:TwitterOSINT框架 斯坦福自然语言处理图书馆?( /> 分析后的推文包括日期、用户名、文本和注释,以一种可由其他工具处理的格式存储,这使得推特开源
图1:TwitterOSINT框架
斯坦福自然语言处理图书馆?( />
分析后的推文包括日期、用户名、文本和注释,以一种可由其他工具处理的格式存储,这使得推特开源网络情报更容易将它们从一个工具传递到另一个工具。Logstash、Elasticsearch和Kibana是开源的亚马逊网站服务(AWS),用于在推特开源网络情报中分析和显示信息,对于这个项目,它们是在AWS的“免费层”上运行的(参见 />
推特开源网络情报使用Logstash作为通道,将处理过的推特加载到Elasticsearch中,Elasticsearch是一个分析和本地搜索引擎,用于处理传递给它的大量数据。Kibana是一个分析和可视化工具,支持搜索、查看和与Elasticsearch索引中存储的数据交互。推特开源网络情报使用Kibana创建数据可视化仪表板,如条形图、折线图、散点图、饼图和地图。
?
4. 结论
用例1:网络安全情报
网络安全行业领导者推荐使用社交媒体作为了解最新安全威胁、黑客和数据泄露的一种权宜之计。推特中的典型例子包括来自在线论坛(例如@Peerlyst)的策划内容帐户;来自安全组织(例如@NISTcyber)的官方帐户;以及专家和教育工作者的个人帐户(例如@SchneierBlog,@BrianKrebs)。
当然,在网络安全事件发生期间,用户自发的在线活动会增加。这些观察表明推特开源网络情报对网络安全分析很有用。
在这项研究中,推特开源网络情报被配置为使用一系列与网络安全风险评估社区相关的术语和概念(如漏洞),和与上下文相关的短语(如软件供应商和软件产品)在该领域进行情报收集。从国家漏洞数据库的条目中获得的一个巨大的语料库( />
回想一下,平均每天有5亿条推文。所应用的额外过滤将源数据从互联网上可用的原始输入数量减少了许多个数量级,减少到不到200条推文。在实践中,通常观察到错误率约为15%,包括假阴性(包含相关情报但在过滤过程中被排除)和假阳性(不包含相关情报但在过滤过程中未被排除)。
人工分析显示,许多假阴性的可操作信息都存在于保留的推文中;因此,信息丢失(由于无意中忽略了相关推文)和噪音(不相关的仍在进行中的推文)相对来说是微不足道的。
图2揭示的是通过程序根据所述配置从TwitterOSINT收集的推文中输出的相关原始数据节选。虽然显示的条目仅限于在筛选过程中被选择和索引的推文(而不是Twitter完整数据库中所有可用的推文),但数据量仍然过大以至于人力无法对实时行为进行快速分辨。然而,通过在TwitterOSINT中提供替代性的可视化功能,可以有效地管理这种过度的信息。
图2:TwitterOSINT发现的相关推文
图3展示了具有代表性的可视化示例。计数聚合(图中左上角)列出了用户指定时间段内相关推文的数量。该数量比前一个时间段大幅增加可能表明一个新出现的事件值得被进一步研究。
饼图(右)显示了推文中最重要的关键词的分布情况。这个参数可以帮助分析人员定位具有特定威胁信息的在线贴文。标签云(左下)是自由形式文本的可视化表示。每个标签(单个关键词或短语)的重要性用字体大小和颜色显示,并基于重要的术语计数。在TwitterOSINT可视化中,分析师可以点击标签云中的一个术语,以显示观察期内包含该关键词的所有原始数据输入情况。
图3:针对网络安全关键词的TwitterOSINT可视化
用例2:网络心理学研究
为了证明其对社会科学家的潜在效用,TwitterOSINT被重新配置了几个与网络心理学相关的关键词和术语,其中包括网络治疗、网络欺凌、网络成瘾、网络行为和网络犯罪。因为与网络安全用例不同,还没有网络心理学专用的NLP语料库存在,所以设置了最小的NLP进行过滤。这种方法是为了模仿研究人员如何使用TwitterOSINT对开放的大数据来源进行探索性研究,以确定所选的概念和术语是否与社交媒体相关,从而与独特的研究问题相关。
图4显示了TwitterOSINT在2019年6月下旬一周的数据收集过程中,根据所选术语创建的具有代表性的可视化。需要注意的是,虽然Twitter中的标签不区分大小写(即 "#hashtag "与 "#HashTag "等相同),但TwitterOSINT是区分大小写的,因此,像?"CYBERBULLYING?"和"cyberbullying?"这样的术语会被被单独索引。拥有相当大的相关Twitter流量是一个积极的指标,表明至少在与本用例中指定的实验关键词相关的领域,该平台可以作为网络心理学研究人员的开源网络情报平台。
文章来源:《自动化应用》 网址: http://www.zdhyyzz.cn/zonghexinwen/2021/0804/1786.html
上一篇:洁净车间施工项目空调自动化系统安装工程
下一篇:自动化无人仓储系统