暗网中的信息量至少是表层网络(Surface Web)的500倍。 暗网(Deep Web)又被称为不可见网、隐藏网,是指不能被搜索引擎抓取,需要通过动态网页技术访问的网络资源。尽管我们日常当中可接触到的网络信息已经是海量,实际上也不过是所有网络信息的冰山一角。任何关键词的谷歌搜索都无法访问深层网络,这些信息隐藏在密码和特殊访问软件背后,暗网中的信息量至少是表层网络(Surface Web)的500倍。 表层网络的数据已经成就了大量成功的科技公司,暗网的数据体量如此庞大,这部分数据如何挖掘和应用呢? 印度初创公司Quantta Analytics正是一家做暗网数据(Dark data)挖掘、分析和应用的公司。截止到目前,已经有超过100家企业为Quantta Analytics的数据分析服务付费,包括印度国家银行、麦当劳、星巴克等。Auantta Analytics为金融、零售、酒店、医疗保健、能源和餐饮行业提供服务。 Quantta Analytics拥有一支约20人的团队,包括数学家、统计学家和工程师,来自哈佛大学、马里兰大学、密歇根大学、印度理工大学、印度统计学院等。他们正在应用AI模型实时监测暗网数据,并将数据与行为心理学结合,以预测用户行为。 Quantta Analytics创始人Ritesh Bawri以耐克为例,以说明暗网数据如何帮助零售企业:比方说,耐克在印度不同地方有200家商店,耐克向Quantta Analytics提供客户在店内的消费数据,如消费金额、消费明细、逗留时间等等,Quantta Analytics会添加耐克商店周边相关数据,为耐克反馈市场信息,例如他们可以告诉耐克在特定商店周围还有多少用户没有到店消费。 听起来似乎与其他大数据公司无疑,Quantta的特别之处在于他们不是通过爬虫抓取表层网络信息,而是不断地接入深层网络数据点,以获得与其他大数据公司不同的数据源。Ritesh Bawri介绍,Quantta的系统已经有600亿个数据点流入。 本质上Quantta Analutics还是家大数据挖掘和分析的公司,但我觉得有趣的是他们对接暗网数据源的策略。这是一个数据源和建模能力双力齐驱的赛道,早期进入暗网数据挖掘,是大数据公司建立差异化优势和竞争壁垒的好方法。 |
还没有用户评论, 快来抢沙发!