Wednesday, November 11, 2009

статистики пост 2

в продолжение. вчера вечером построил более честное распределение: распределение стилей по группам, а не просто сколько каких стилей встречается.

выигрышный код:

for %%i in (*.html) do grep -o -E "&style=[0-9]+.>[^<>]+" %%i | gawk 'BEGIN{FS=">"} {print $2}' | sort | gawk '{s = (s " " $0)}END{print s}' >> styles-list1.tmp

gawk -f makehist1.awk styles-list1.tmp | sort1 -r -n >hist1.txt

makehist1.awk:

{ ar[$0]=ar[$0]+1}
END{for (i in ar) {print ar[i] " \"" i "\"" }}