Tuesday, November 10, 2009

статистики и статистического анализа пост

мое личное впечатление при первом взгляде (да и при втором тоже и спустя год) на сает onetwo.tomsk.ru такое: "ДА ВЫ ЗАПАРИЛИ УЖЕ СО СВОИМ СРАНЕ ГРАЙНДКОРОМ, МЕТАЛКОРОМ, ДЭТОМ И СКРУДЖЕМ!!!1"
безответственные выкрики с места - лучший способ навязать свое мнение собеседнику, но в этот раз я решил теоретически обосновать данные наблюдения. тем более, что это не так уж сложно. формул, во всяком случае, придумывать никаких не пришлось.
последовательно выполнил в своей командной строке следующие свои команды, ура:

for /L %i in (1,1,6000) do wget -O temp%%i.html http://onetwo.tomsk.ru/group/main/%i/

for %i in (*.html) do grep -o -E "&style=[0-9]+.>[^<>]+" %i >> styles-list.tmp

gawk -f makehist.awk styles-list.tmp | sort -r -n >hist.txt

в результате выполнения этих заклинаний, файл hist.txt стал содержать в себе отсортированные по убыванию частоты встречаемости музыкальных стилей музыкальных групп, музыкальные альбомы которых были выложены на музыкальном саете onetwo.tomsk.ru.

2924 байта текста из файла hist.txt копипастим в эксель, строим гистрограмму, вдумчиво на нее смотрим, делаем далеко идущие выводы, пишем статью, защищаем диссертацию, ура.

топ-50 стилей:


p.s.
makehist.awk (добрый кирилл любезно согласился мне этот файл написать, потому что я в awk ничерта не понимаю):

BEGIN{FS=">"}
{ar[$2]=ar[$2]+1}
END{for (i in ar) {print ar[i] " \"" i "\"" }}


p.p.s
вопрос, на который я еще не придумал ответ: дело в том, что аудиофилы живущие на этом саете, не удовлетворяются наличием 138 стилей музыки, и многим группам ставят в соответствие несколько стилей. тогда как здесь, на гистограмме, отображена частота встречаемости стилей вообще. как бы мне связать из с группами и отобразить понагляднее, а?

No comments: