探索人工智能应用场景!

大数据(十) – Pig

底层数据 admin 18℃ 0评论
Pig是什么
        Hadoop上的数据流执行引擎(由Yahoo!开源)
                利用HDFS存储数据
                利用MapReduce处理数据
        使用Pig Latin语言表达数据流
                Pig Latin是一种新的数据流语言
                Pig将Pig Latin语句转化为MapReduce作业
                Pig Latin比MapReduce程序更易编写
        直接产生动机:让MapReduce用起来更简单
                与Hive一致
Pig与Hive异同
        相同点
                运行在Hadoop之上;
                设计动机是为用户提供一种更简单的Hadoop上数据分析方式;
                解决相同问题的两个工具(yahoo!vs facebook)。
        不同点
                Hive要求待处理数据必须有Schema,而Pig则无此要求;
                Hive有Server需要安装,Pig无Server不需要安装;
                编程语言不同,SQL与Pig Latin
                        SQL:得到什么样的结果,Pig Latin:如何处理数据
                        SQL:过程化语言,Pig Latin:数据流语言
运行Pig Latin
        本地模式
                pig_path/bin/pig –x local wordount.pig
        集群模式
                PIG_CLASSPATH=hadoop_conf_dir pig_path/bin/pig wordcount.pig
        其他使用方式
                pig -e fs –copyFromLocal local_path hdfs_path
                pig hdfs://nn.mydomain.com:9020/myscripts/script.pig
                pig –Dmapreduce.task.profile=true wordount.pig
                pig –P myproperty.properties wordcount.pig
原文地址:http://blog.csdn.net/matthewei6/article/details/50540173

转载请注明:全球人工智能 » 大数据(十) – Pig

   

您的支持将鼓励我们继续努力!

[微信] 扫描二维码打赏

[支付宝] 扫描二维码打赏

喜欢 (1)or分享 (0)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址