企业级搜索：Hadoop数据搜索只是得到了一大堆容易

男友逼坠楼生还女孩返还恋爱开销

医生群里发除非死人不要临时请假

趋势网 > 文章 > 正文

编译

2013-06-06 13:16:54

陶周亚

原来你买的都有隐藏券！快查淘宝天猫内部优惠券

趋势网(微博)讯：Hadhoop的故事有两个方面：储存数据和获取有关数据的操作信息。开发Hadhoop信息的一种方法是企业级搜索，它使得自己具有像谷歌一样搜索大数据集的功能。

,Google,企业级搜索：Hadoop数据搜索只是得到了一大堆容易正颌手术做反了女孩说迎接她的是毁灭四川巴中一儿童从27楼坠下甘肃渭源山洪已致10死衡水市成立联合调查组查2元侵吞8亿股权滞销西瓜被网红压价到一毛多一斤%

Cloudera豪赌企业级搜索，将企业级搜索作为一个拥有新的Cloudera搜索测试版的数据收集工具，集搜索功能于Hadhoop。通常，Hadhoop的企业搜索是像嵌入式，Apache Soir和Apache Lucene一样的软件的附件组加工具，或者像Lucidworks搜索的商业版本。

搜索是容易的，部署是困难的

企业级搜索是这些如此简单的理念之一，在海量数据和数据仓库的世界里，企业级搜索的价值很容易被低估。

人们获得企业级数据比挖掘数据容易，更比使用像MapReduce一样的工具简单得多，因为企业级数据是从用户的角度搜索的，它只是搜索：你打一些搜索术语到一个仅仅比谷歌复杂一点的板式上，你的结果就出来了。这是相当多的人感知谷歌和微软必应在网上找东西的方法。

（参见：Haphoop在海量数据世界是如此重要的原因）

当然，事实上实行企业级搜索并不简单。因为储存在Hadhoop的数据通常是松散的，每一次记录可以被认为一个单独的文件。比如一封信：你知道在信中有收信人的地址，时间和问候等要素。结构化的数据把所有这些要素放在单独的领域，但是在非结构化的数据中，没有这种分解。当然，人类能够看的数非结构化据（和文件），并且这样的要素挑选出来，但是软件却需要一些帮助才能做到这样。

企业级搜索从小平面上获得帮助。小平面使得企业搜索的用户把非结构化数据中的数据片当做他们在关系数据库中能够处理的数据。小平面主要主要被转化成索引，这些索引让用户在非结构性数据中找到明确的信息片，比如一个地址。

这是企业级搜索成为检查大型无结构性数据集的典范的原因。当然，数据结构越好，企业级搜索越能处理得好网络日志上的数据，这些网络日志都被结构化了，足以挖掘更深的数据。

Cloudera 转向统一

因为它直接并入Hadoop的Cloudera自己的商业版图中，很多的配置将和已经由管理员处理，来消除部署的麻烦。

“这是关于让所有事都感觉像一个系统。企业搜索都将会在同样的结构中被处理。”Cloudera的首席建筑师道卡廷解释道。这意味着像认证技术这种功能将会同一种那种结构中。对于业务线用户，在没有必须建立SQL查询和MapReduce工作的情况相下，进入数据集和退出数据集的能力是一条捷径。

企业级搜索并不是从数据集中获得丰富信息的最佳方法，但是企业级搜索有足够的能力使数据的快速和广泛搜索更加的简单。

正在看美女

某宝是什么，为什么叫某宝？对！我就是那个某宝