hadoop可以用来做什么,hadoop主要应用

做什么 2

国内外著名的互联网公司使用hadoop都做了什么?谈HADOOP在大规模数据处理领域的具体应用。

国内外著名的互联网公司使用hadoop都做了什么?谈HADOOP在大规模数据处理领域的具体应用。

节点数: 15台机器的构成的服务器集群服务器配置: 8核CPU,16G内存,1.4T硬盘容量。 HADOOP在百度:HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。节点数:10 - 500个节点。主要使用了2个集群:一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和12000TB的原始存储(即每台机器12T硬盘)一个有300台节点组成的集群,包括2400核CPU(即每台机器8核),和3000TB的原始存储(即每台机器12T硬盘)由此基础上开发了基于SQL语法的项目:HIVE HADOOP在HULU 主要用于日志存储和分析13台机器构成的集群 (8核PUC,单台机器:4TB硬盘)基于HBASE数据库 HADOOP在TWITTER 使用HADOOP用于存储微博数据,日志文件和许多中间数据使用基于HADOOP构件的Cloudera's CDH2系统,存储压缩后的数据文件(LZO格式) HADOOP在雅虎:主要用于支持广告系统及网页搜索机器数:25000,CPU:8核集群机器数: 4000 个节点 (2*4cpu boxes w 4*1TB disk & 16GB RAM)

java开发中什么样的项目会用到Hadoop?

java开发中什么样的项目会用到Hadoop?

java项目一般是不会用到hadoop的,除非涉及到处理大数据方面的业务。hadoop是用java实现的。主要原因如下:
  
1. java比较适合做大型复杂系统
  
2. Doug Cutting本身从事java方面的研究,主要是lucence,开源检索架构说来也是这样的。
  
3. java开源,活跃程度最高,这样搞出来放在apache上有利于交流、改进
  Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
  Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming ess)文件系统中的数据。
  Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop适用于分布式处理图像么

Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法,它能够把应用程序分割成许多很小的工作单元,每个单元可以在任何集群节点上执行或重复执行。此外,Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据,并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性,它会自动处理失败节点。已经在具有600个节点的集群测试过Hadoop框架。

标签: #什么意思 #职业 #互联网 #发展趋势 #数据 #计算机应用技术 #做什么 #标签