A5站长网SEO团队 首页 专家专栏 查看内容

百度揭秘大数据引擎布局

2015-2-4 14:00| 发布者: 黄忠| 查看: 272| 评论: 0|来自: 王海鹰

摘要:   在人人必谈互联网和大数据的时代,作为国内互联网三大巨头之一的百度公司,拥有国内第一大搜索引擎,其如何利用“先天优势”布局谋篇大数据是业界十分关注的话题。   此前曾有多位专家对百度大数据引擎进行解 ...

  在人人必谈互联网和大数据的时代,作为国内互联网三大巨头之一的百度公司,拥有国内第一大搜索引擎,其如何利用“先天优势”布局谋篇大数据是业界十分关注的话题。

  此前曾有多位专家对百度大数据引擎进行解析,云码网在近日举行的中关村大数据日上,从百度大数据部总监薛正华从百度人的视角对其大数据业务进行了一次全面介绍,展望了大数据的未来。

  揭秘大数据引擎

  虽然百度积累大数据的时间已久,但真正向公众提出“大数据引擎(BIG ENGINE)”的概念还是在2014年4月第四届“技术开放日”上。

  当时,百度高级副总裁王劲宣布正式推出“大数据引擎”,通过三大组件—开放云、数据工厂、百度大脑,希冀将其大数据能力开放给社会。

  最底层的开放云是信息化的基础设施,中间层的数据工厂对大数据进行存储管理,再上升到百度大脑。这是一个基于人工智能的系统,利用语音识别技术、大数据技术等挖掘分析数据价值。

  百度创始人李彦宏曾对“百度大脑”表示出这样的期待:“相信随着硬件成本越来越低,计算能力越来越提升,计算机的能力将非常接近人的能力。”

  现在,百度的服务器已经达到几十万台,分布在全国多个数据中心,同时还有一个分布全国的内容分发网络(CDN)保障其应用性能。在硬件方面,他们也作了很多尝试及创新,包括自研的核心万兆交换机,以及输入和输出设备(IO)瓶颈的突破。其在固态硬盘(SSD)也进行了研发,让数据能够更快地加载到大数据计算系统中来。

  “众所周知,获取大数据的核心问题之一就是IO瓶颈,即数据"吃不到嘴里"。”薛正华表达了在硬件上进行探索的初衷。虽然去年才正式提出大数据引擎的概念,但据薛正华介绍,其大数据引擎各层早已具备服务能力,且应用在各个产品线上。

  据云码网了解,百度目前在基础设施这一层所开放出来的服务包括服务器、CDN、基于位置的服务(LBS)、缓存服务等。数据工厂则主要对大数据进行存储,现在每天处理的数据量已经超过50Pb(拍字节),且数量还在不断增长。

  薛正华表示,如何在高数据级别中进行快速查找、定位等具有技术挑战。

  而在引擎最顶层的百度大脑,则依赖于产品线数据以及第三方合作伙伴的数据。薛正华介绍,百度大脑对这些数据进行深度学习,利用数据检索语言(DRL)深度学习架构计算系统挖掘数据价值,这些价值再应用于搜索引擎的广告服务、在研的机器人及无人驾驶系统等。

  大数据“落地”

  2014年,李彦宏曾表示,希望大数据引擎对外开放,不仅能服务百度,也能服务更多企业、政府机构和其他直接用户。技术的开放将带来更低的成本、更可靠和更安全的系统。

  但是,大数据到底能帮助人们做什么呢?

  薛正华说:“我认为大数据可以运用到感知、认知、分析、决策、发现和创造等层面。”

  他介绍了其大数据引擎和一家民营医院合作的案例:年轻家长对孩子的皮肤状况担忧,但她不知道有什么问题。因此,百度开发了一款App,只要拿手机对着患者皮肤拍照,传输到百度大脑,这里有100万个病例分析,通过比对和分析能知道病种。接下来,则能从知识库中将相关疾病的详细信息及重要解决办法等转化成语音,最后发送到App上,同时提供文字和语音供家长参考。

  “BaiduEye则利用前端摄像头把人们看到的东西拍下来,传送到百度大脑进行处理,处理完成后以语音形式传回来,整个过程可以在极短时间内完成。”薛正华说。

  据介绍,百度大脑目前在视觉、听觉、位置等方面都进行了尝试,取得了一定进展,下一步可能在味觉、嗅觉等方面进一步探索。

  薛正华认为,其大数据除了对感知、认知有帮助,对决策也有不可争议的意义。

  “百度现在全网有亿级的数据,用 DSL(数字用户线路)计算分析和处理,能够挖掘出很多隐藏在数据背后的真相。”薛正华说。

  例如,百度司南可以帮助分析竞争对手的定位、客户在哪儿等。

  据介绍,百度司南曾与马自达公司合作,通过分析马自达6的竞争对手等相关情况,建立数据模型,找出和马自达6相关以及最接近的产品。接下来,百度司南根据IP地址,发现华北地区搜索马自达6的用户很多,从而判断这将是个新的重点销售区域。

  薛正华认为,此前,这些工作应该由第三方调研机构完成,但是通过数十亿级的数据分析,结果将更准确。

  通过大数据,还能研究国家经济指数的变化,特别是中小企业景气指数,可预知经济变化趋势。其主要原理是,利用海量的网民行为进行数据分析。比如,对行业的产品搜索热度以及几十万家的企业客户在一段时间内的广告投放量进行分析,结合其他一切数据,能提前3个月知道各行业的经济指数,甚至能细化到某个地区各行业的热度。最终结果证明,其和国家统计局公布的数据契合度非常高,结合度达到95%。

  通过大数据也能监测疾病的传播。传染病一般暴发后再做流行病调查,耗时很长。而当某地暴发传染病危机时,疫情的搜索会呈现爆发式增长。

  “通过搜索行为分析在第一时间快速挖掘情况,对大量数据实时分析和处理,这就是大数据的价值所在。”薛正华说。


路过

雷人

握手

鲜花

鸡蛋

QQ|SEO服务 ( 苏B2-20110049 )

GMT+8, 2024-4-26 22:31

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部