Pig

Your general purpose analytics pig-tool

Launch CLI

pig

pig -x <mode>

set exectype=tez;

mode: local, mapreduce, tez, tez_local

pig script.pig

<var> = load 'path/to/file';

<var> = load 'path/to/file' as (field1:chararray, field2:int, ...);

$ pig -useHCatalog

var = load '<db>.<table>' using org.apache.hive.hcatalog.pig.HCatLoader();

<grouped_var> = group (<var> by <col>)/ (all), group <var> by <col>/all

<var> = foreach <raw_var> generate <col1>, <col2> ...;

<var> = filter <raw_var> by <filter_query>

<var> = order <var> by <col> (asc/desc), <col> ...

<var> = limit <var> <size>

split <var> into <good_var> if <query>, <bad_var> otherwise;

<var> = distinct <var>

<varC> = join <varA> by <col1>, <varB> by <col2>

<varC> = join <varA> by <col1> right/left/full (outer), <varB> by >col2>

<varC> = cross <varA>, <varB>;

join .... left , .... using 'replicated' | skewed | merge

replicated dosn't work on tez. use mapreduce mdoe

dump <var>;

store <var> into <path/to/file> ( using PigStorage(',') )

store <var> into 'table' using org.apache.hive.hcatalog.pig.HCatStorer()

Add 'parallel ' to any reducer operator: group, distinct, order, join

<reducer ops> parallel <nb>

explain <query>

describe <query>

illustrate <query>

set debug on

register <jar>

Like any other function, just it might require the full package name

define <alias> <udf/macro>

import <>

Last updated 6 years ago

Was this helpful?