Hadoop

Spark Streaming最初の一歩

はじめに Spark, SQL on Hadoop etc. Advent Calendar 2014 15日目です。 3日目の記事でもSpark Streamingは紹介されていましたが、私のほうではより初心者向けの基本的な内容を記述しておきたいと思います。 Spark Streamingとは リアルタイムログ検索エン…

MapReduceの次世代について

The Next Generation of Apache Hadoop MapReduce( http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/ ) の和訳です。自分めもなので結構適当です。 最初に 膨大なデータを利用する際は小さいクラスタを多数利用するよりも少ないけ…

スタンドアローンで動かす方法

開発用にスタンドアローンで稼働させたかったのでメモ。 hadoopをサイトから落としてくる あとはconf/hadoop-env.shのJAVA_HOMEを修正すればOK bin/hadoop jar hadoop-*-examples.war wordcount input output