Monday, November 23, 2009

блин, все таки эти геймеры, они какие-то. геймер илья посмотрел вчера экранку 2012 и только что в курилке обогатил меня совершенно какими-то ненужными знаниями по аэродинамике самолетов. они видите ли в кине летают не реалистично.
зато я теперь знаю какой максимаьлный угол тангажа у ту-154 и сколько легковых машин на самом деле войдет в ан-250. у него кстати шесть турбовинтовых двигателей. и как турбовинтовой двигатель взаимодействует с вулканическим пеплом. температура спекания вулканического пепла в турбине двигателя.
как мне все это забыть обратно?

Wednesday, November 11, 2009

статистики пост 2

в продолжение. вчера вечером построил более честное распределение: распределение стилей по группам, а не просто сколько каких стилей встречается.

выигрышный код:

for %%i in (*.html) do grep -o -E "&style=[0-9]+.>[^<>]+" %%i | gawk 'BEGIN{FS=">"} {print $2}' | sort | gawk '{s = (s " " $0)}END{print s}' >> styles-list1.tmp

gawk -f makehist1.awk styles-list1.tmp | sort1 -r -n >hist1.txt

makehist1.awk:

{ ar[$0]=ar[$0]+1}
END{for (i in ar) {print ar[i] " \"" i "\"" }}

Tuesday, November 10, 2009

статистики и статистического анализа пост

мое личное впечатление при первом взгляде (да и при втором тоже и спустя год) на сает onetwo.tomsk.ru такое: "ДА ВЫ ЗАПАРИЛИ УЖЕ СО СВОИМ СРАНЕ ГРАЙНДКОРОМ, МЕТАЛКОРОМ, ДЭТОМ И СКРУДЖЕМ!!!1"
безответственные выкрики с места - лучший способ навязать свое мнение собеседнику, но в этот раз я решил теоретически обосновать данные наблюдения. тем более, что это не так уж сложно. формул, во всяком случае, придумывать никаких не пришлось.
последовательно выполнил в своей командной строке следующие свои команды, ура:

for /L %i in (1,1,6000) do wget -O temp%%i.html http://onetwo.tomsk.ru/group/main/%i/

for %i in (*.html) do grep -o -E "&style=[0-9]+.>[^<>]+" %i >> styles-list.tmp

gawk -f makehist.awk styles-list.tmp | sort -r -n >hist.txt

в результате выполнения этих заклинаний, файл hist.txt стал содержать в себе отсортированные по убыванию частоты встречаемости музыкальных стилей музыкальных групп, музыкальные альбомы которых были выложены на музыкальном саете onetwo.tomsk.ru.

2924 байта текста из файла hist.txt копипастим в эксель, строим гистрограмму, вдумчиво на нее смотрим, делаем далеко идущие выводы, пишем статью, защищаем диссертацию, ура.

топ-50 стилей:


p.s.
makehist.awk (добрый кирилл любезно согласился мне этот файл написать, потому что я в awk ничерта не понимаю):

BEGIN{FS=">"}
{ar[$2]=ar[$2]+1}
END{for (i in ar) {print ar[i] " \"" i "\"" }}


p.p.s
вопрос, на который я еще не придумал ответ: дело в том, что аудиофилы живущие на этом саете, не удовлетворяются наличием 138 стилей музыки, и многим группам ставят в соответствие несколько стилей. тогда как здесь, на гистограмме, отображена частота встречаемости стилей вообще. как бы мне связать из с группами и отобразить понагляднее, а?