上次Hadoop User Group Meeting (Oct.Meeting)
看到一半,网络断掉无法再继续,忙过这么半个月所以这次继续下去
———-
继续
接着来比较3个办法的差异,用图形来表示 很直观:
首先是 Repartition Join 传统的Join方式:a log block->local scan –>sort –> shuffle
接着是relpicated join 分为2个部分 user data 先建立Hashtable 而a log block 则是local scan 然后跟hashtable进行hash probe(怎么进行???)
然后是semijoin出场了 a log block –> local scan 1和local scan 2 然后scan1 和user table进行结合,再建立hash table 然后再跟scan2 进行 hash probe (同样的问题怎么进行???)
然后是实验部分
User data : each user has a unique id, records from 50k to 500m 100bytes/ record, pull a 5-byte attribute out of record
Log data:100GB (1 billion records): N-to-1 match, referencing 0.1%, 1%. 10% of users . User IDs Zipf-distributed (s=0.5)
Environment: 10nodes cluser, 1Gb switch. 8 core,16GB memory, 8 disks , 8Mappers and Reducers concurrently per node .128MB block size.
结果展示了semijoin的强劲性能……
看来会议是一系列的……
紧接着由于进行第二部分的报告
———————————————————————————
Jaql [Jea k o l ]->pipes
Unix pipes for the JSON model
Kevin Beyer, Vuk Ercegovac, Eugene, Shekita, Jun Rao, Ning Li, Sandeep Tata
IBM Almaden Research Center http://code.google.com/jaql http://jaql.org
貌似有2个中国人 强的~ 好像是data minning?? 不过大概看了下应该是类似的数据检索 –_-!! 真的是要针对于特殊的数据结构,进行不同方式的检索,
举了一个例子 A query is a pipeline
Soure –> operator –> operator –>sink
$people –file..;
$greetings =file,..;
—————-One Map Job——————
$people –> filter $/type = ‘friendly’ –>map{hello: $.name} –> write $greetings;
read imput find friendly people keep just name write output
Operations listed in natural order vs last operation first
———————————————-
Partition
partition one or more imputs. send each individual partition through a sub-pipe . merge the results
$People
–> filter by $.birthdate < data (‘1990-01-01’)
–>partition by $t = $.type /partition the older people by type
|- aggregate {type:$t,n:count($)} –|; // aggregate per partition
Per partition sub-pipe
$people -> partition by $.type |-sort by $.rating –> top 100 –>myBestMatches($,3)-|
partition people by type//sort partition by rating//keep just the first 100 in partion//find best machines per partition
基本上就是从Unix的pipes的命令引申过来的,借鉴mapreduce的一些概念所做的一些功能类似的 hmm
————————————
第三个内容: Experiences Moving A PB Data-center Sriram Rao http://www.linkedin.com/pub/0/324/120这个人的主页……
疯了,这个印度英语,基本不懂在讲啥
技术上讲的不是很多,他只是说了他的KFS比HDFS传输速度要快,比如HDFS要6个小时,他的KFS只要3个小时……
备份服务器的一些基本时间消耗倒是讲的蛮清楚,复制2->6份需要20小时 而6-7只需要3小时??而且讲了蛮多搞笑的事情,比如移动机器之前先全部关机冷却一个小时,比如烂了3台机器,下面的听众也一直在笑,估计这个人讲完提问的人不会太尖锐……呵呵
听了30多分钟,稍微可以听懂点了 太恐怖了……我一直在想象那种很厚嘴唇的大舌头英语发音,hmm