今日：

通知公告

投稿指南

来稿应自觉遵守国家有关著作权法律法规，不得侵犯他人版权或其他权利，如果出现问题作者文责自负，而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件，作者必须保证本刊的独立发表权。一、投稿方式： 1、请从我刊官网直接投稿。 2、请从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。二、稿件著作权： 1、投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我刊所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我刊所投之作品不得同时向第三方投送，即不允许一稿多投。 5、投稿人授予我刊享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、第5条所述之网络是指通过我刊官网。 7、投稿人委托我刊声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

期刊导读

主页 > 综合新闻 >

【研究池】TwitterOSINT：自动化开源情报收集，分(2)

来源：自动化应用 【在线投稿】栏目：综合新闻时间：2021-08-04

作者:网站采编
关键词:
摘要：除了成本限制之外，对于一般的研究人员来说，使这些工具适应他们的操作环境的特性是非常困难的。为了克服这一难题，诺福克州立大学（Norfolk State

除了成本限制之外，对于一般的研究人员来说，使这些工具适应他们的操作环境的特性是非常困难的。为了克服这一难题，诺福克州立大学（Norfolk State University，Virginia，USA）开发了一种名为TwitterOSINT的技术能力，它可以帮助分析师和研究人员从非正式的英语文本中提取有用的OSINT，并将其可视化，这些非正式的英语文本通常是在近乎实时的帖子中找到的。TwitterOSINT是使用公开可用的软件和与主题相关的自然语言处理(NLP)工件实现的，并且为了本研究的目的，Twitter的tweet作为所有输入数据的来源。

TwitterOSINT提供了一种新的替代解决方案，因为它完全由公共领域免费提供的工具构建而成，并且它本身是一个免费软件应用程序。它汇集了NLP，机器学习，信息提取和可视化的公共可用工具，以解决OSINT中的大数据问题。最终，TwitterOSINT将海量的信息转化为图形表示，便于分析师或研究人员快速分析、解释并采取行动。

对于像推特（Twitter）这样的开源网络情报（OSINT）数据源的自动化处理来说，另一个挑战来自于正式和非正式表达内容的混合。例如，为了简洁起见，许多推文中会使用缩写、表情符号、首字母缩略词和短语，而不是精心设计、语法正确的句子。自然语言处理（NLP）的目标是将人类语言转换成便于计算机操作的形式。大多数自然语言处理工具都是用来处理正式的、格式良好的人类语言句子的。

考虑到即使是简单的人类语言都会具备语义复杂性，这仍然是相当具有挑战性的。有关自然语言处理的更多技术细节和其演变的历史概述，请参见。开源网络情报的非正式性使得对语言的解释更加困难和模糊；

然而，推特开源网络情报的最终目标不是解决自然语言处理，而是将大数据转化为可操作的信息。由于这个原因，当前的项目集中于集成现有的、经过验证的工具来解决整个问题的各个方面，比如自然语言处理和可视化，而不是为它们开发新的软件解决方案。

应该注意的是，推特提供了应用程序编程接口（APIs），允许第三方软件开发人员使用各种推特数据和服务作为构建块来创建自己的应用程序。有付费订阅和高价应用程序编程接口，它们是“完全忠实的”（即所有推特都可用）。这些通常适用于广泛分析和企业业务使用上。这个项目使用的推特应用程序编程接口是免费的，因此，只提供了所有可用的全局推特的一个子集。

一个粗略的经验法则表明，免费应用程序编程接口从完全忠实的推特流中检索到的推特数量为1%。实际检索到的推特数量，以及它们是否包含所有潜在相关的推特，实际上取决于开发人员应用程序的配置、通过应用程序编程接口检索推特所选择的特征以及采样时间段内的实时推特通信量。对推特开源网络情报概念的初步探索来说，免费应用程序编程接口的总体指标已经足够了。

3. 方法

为了了解最新的趋势和发展，突出专业知识，并与专业人士（在线和亲自）建立联系，许多学科的研究人员和科学家都依赖推特。网络安全思想领袖和专业人士分享对威胁和软件产品的评论。社会科学家们正在利用推特作为一个新的数据源，使他们的研究成果更容易获得。

因此，推特开源网络情报捕获和提取相关数据的实用性通过两个案例进行了研究；一个模拟网络安全防御策略包括收集、监控漏洞、威胁、攻击的趋势、以及几乎实时开发的对策；还有一个从网络心理学提取的探索性数据收集方案，只依赖关键字引用。

推特开源网络情报使用推特的标准流应用程序编程接口，允许它收集和索引几乎实时发布的推特。在推特开源网络情报开发的早期阶段，从有限保真度的推特流中随机选择了三组500条推特，手动检查以确定与计划用例相关的推特的公共属性。这些模式，比如标签、关键字和重要的概念，被用来向推特开源网络情报使用的应用程序编程接口和自然语言处理工具提供配置信息。

此外，这一分析有助于提出相关推特数据的图形表示形式，这将使检索到的信息更易于让人类分析师快速解释。例如，标签云之类的可视化可以让分析人员清楚地看到最经常出现的术语。

如图1所示，在推特开源网络情报使用流式应用程序编程接口收集推特之后，应用几个过滤阶段来消除对进一步处理不感兴趣的推特。这是通过在推特开源网络情报中指定关键字、短语、标签，以及指定相关的时间框架来完成的。从本质上说，我们是在通过删除可能包含关键词或短语的推文，来刻意筛选数据点的数量，但最终推文与具体研究问题无关。

2

文章来源：《自动化应用》网址: http://www.zdhyyzz.cn/zonghexinwen/2021/0804/1786.html

上一篇：洁净车间施工项目空调自动化系统安装工程
下一篇：自动化无人仓储系统

自动化应用投稿 | 自动化应用编辑部| 自动化应用版面费 | 自动化应用论文发表 | 自动化应用最新目录
Copyright © 2018 《自动化应用》杂志社 版权所有
投稿电话：投稿邮箱：