Список форумов Война Война

 
 FAQFAQ   ПоискПоиск   ПользователиПользователи   ГруппыГруппы   РегистрацияРегистрация 
 ПрофильПрофиль   Войти и проверить личные сообщенияВойти и проверить личные сообщения   ВходВход 

Important Notice: We regret to inform you that our free phpBB forum hosting service will be discontinued by the end of June 30, 2024. If you wish to migrate to our paid hosting service, please contact billing@hostonnet.com.
Статистика. Разнообразная.

 
Этот форум закрыт, вы не можете писать новые сообщения и редактировать старые.   Эта тема закрыта, вы не можете писать ответы и редактировать сообщения.    Список форумов Война -> Геополитика
Предыдущая тема :: Следующая тема  
Автор Сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Сб Май 22, 2010 4:15 pm    Заголовок сообщения: Статистика. Разнообразная. Ответить с цитатой

Календарь жизни на земле.
http://priroda.inc.ru/naselenie.html
Цитата:
Если историю космоса (с точки зрения теории эволюции) представить в виде одного года, то вся история человечества вместится всего в две минуты:


ЯНВАРЬ 1 января 00 час. 00 мин. Большой взрыв. Образование вселенной.
ФЕВРАЛЬ
МАРТ
АПРЕЛЬ
МАЙ
ИЮНЬ
ИЮЛЬ
АВГУСТ
СЕНТЯБРЬ 1 сентября 00 час. 00 мин. появилась планета Земля
ОКТЯБРЬ 1 октября 00 час. 00 мин. зародилась жизнь на Земле
НОЯБРЬ
ДЕКАБРЬ 23 декабря 00 час. 00 мин. появились динозавры
28 декабря 00 час. 00 мин. динозавры вымерли
31 декабря 00 час. 00 мин. появились обезьяны
31 декабря 23 час. 58 мин. появились ЛЮДИ
31 декабря 24 час. 00 мин. "С Новым годом Вас"


В эти две минуты вместились исчезнувшие цивилизации инков, ацтеков, древнего Египта, Атлантиды, Месопотамии, жили Софокл, Аристофан, Леонардо да Винчи, Эзоп, Петрарка, Дали, Эйнштейн, . . . продолжаем жить мы.





Если сократить все человечество до деревни в сто жителей, принимая во внимание все пропорциональные соотношения, вот как будет выглядеть население этой деревни:


57 азиатов
21 европеец
14 американцев (северных и южных)
8 африканцев
52 будут женщинами
48 мужчинами
70 не белыми
30 белыми
89 гетеросексуальными
6 гомосексуальными
6 человек будут владеть 59% всего мирового богатства и все шесть будут из США
у 80 не будет достаточных жилищных условий
70 будут неграмотными
50 будут недоедать
1 умрет
2 родятся
у 1 будет компьютер
1 будет иметь высшее образование



Счётчик населения планеты:
http://math.berkeley.edu/~galen/popclk.html

Число жителей России
http://demoscope.ru/weekly/app/popclock/popclock.php
_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Ср Окт 20, 2010 8:15 pm    Заголовок сообщения: Ответить с цитатой

Две силы
http://holmogor.livejournal.com/3702691.html
Цитата:

По этой схеме гарвардских исследователей получается,
http://lenta.ru/news/2010/10/19/mapping/
что в российской блогосфере только две идеологически артикулированных группы блоггеров, могущих считать весомой сиой - это националисты и демоппозиция.

Из камментов:
Цитата:
Topology of Russian blogosphere in LJ
emdrone
2010-10-19 07:14 pm UTC

Важно тут то, что фонд МакАртура, один из главных банкирских фондов, используемых для продвижения программ "Нового Мирового Порядка" занялся изучением ЖЖ и русской блогосферы.
Я давно писал, что ЖЖ - точный статистически достоверный механизм выяснения мнений, характеристик групп людей и т.д.
Фонд МакАртура (подобные фонды могут организовывать например оранжевые революции) начал смысловое изучение мнений в русской блогосфере. Разумеется, доклад сделан в псевдонаучных терминах, но разумеется реальные цели абсолютно прикладные.

К счастью, доклад довольно пока что примитивен. Но эту попытку изучать политически активные голоса в США, Иране, теперь в эксСССР можно считать расширением и дальнейщшим развитием изучения обществ с целью будущих ли манипуляций или мониторинга каких-то своих программ и действий, которые традиционно делаются с помощью механизма "опросов"

--------------
Что же касается _структурных_ особенностей ЖЖ-блогосферы, то она была описана русским ЖЖистом еще в 2005 году, вот здесь:
http://muzyka-sfer.livejournal.com/1093.html
http://muzyka-sfer.livejournal.com/1350.html





deadpack
2010-10-19 07:16 pm UTC

Демоппозиция у них очерчена довольно точно и однозначно. Националисты описаны весьма расплывчато: тут и экстремисты, и умеренные, и совпатриоты, и православные, и даже футбольные фанаты.

4.3 Nationalist This cluster includes a range of Russian nationalist bloggers, ranging from extremists advocating violence against immigrants from the Caucasus and Central Asia, to more moderate nationalists that focus on Russian and Soviet history, the Russian Orthodox Church, and football.

Пусть работают дальше. Есть простор для творчества.




надо переводить с новоречи
emdrone
2010-10-19 07:25 pm UTC

.. просто по интересам (которые они забыли объяснить вслух) фонда МакАртура, заказчика, и как следствие гарвардских исполнителей - все эти подгруппы, включая футбольных фанатов _их противники_, а потому их весьма логично объединить в одну категорию.

Помните, что все официальные западные высказывания всегда надо переводить с новоречи на человеческий язык.




Re: надо переводить с новоречи
deadpack
2010-10-19 07:34 pm UTC

Такая трактовка, кончено, возможна. Только -- если это так -- именно врагов надо изучать наиболее тщательно. А представленный труд совершенно не содержит детального исследования кластера "националистов". На основании чего можно предположить, что авторы исследования не совсем в теме, и (как это обычно и бывает) освоив финансирование эффектно и с помпой отчитываются за потраченные средства.



Re: надо переводить с новоречи
17ur
2010-10-19 08:47 pm UTC

Не в теме? Порядок цифр они назвали - одиннацать тысяч рыл. То, что сепарировать юзеров не получится - сказали. Основную платформу - ЖЖ - указали. Собственно, в докладе данных для организации довольно серьёзных пакостей вполне достаточно.



Re: надо переводить с новоречи
deadpack
2010-10-20 07:24 am UTC

Собрать базу данных - это еще не "быть в теме". Быть в теме - это суметь построить годную модель, которая будет использована для анализа данных. А они, собрав данные, анализ провели самый простой. Ну или - не все опубликовали Smile



Re: надо переводить с новоречи
17ur
2010-10-20 08:28 am UTC

"Анализ данных" - а зачем? Вы понимаете, что охотник и натуралист (в старом смысле) знают про, например, лес и его обитателей примерно одинаково. Но знают они разные вещи, ибо цели у них по отношению к лесу и его обитателям - разные.

Не понимаю, почему Вы приписываете собственное целеполагание гарвардскому люду.




Re: надо переводить с новоречи
deadpack
2010-10-20 10:25 am UTC

Без "анализа данных" вся куча информации о русскоязычной блогосфере - мусор. Открываешь браузер, ползаешь по ЖЖ как охотник, натуралист или тролль, изучаешь эту самую информацию, - все обыденно, называть это "исследованием" глупо.

Схема, представленная в этом посте, имеет четко определенную структуру. Все изученные блоги относятся к одной из нижеперечисленных категорий:

1 Internationally-linking Public Discourse
2 Russian Media-focused Public Discourse
3 Nationalist
4 Democratic Opposition
5 Business, Economics, and Finance
6 Social and Environmental Activism

Эту структура можно назвать наглядной моделью, использованной для анализа.
Сами авторы, собственно, ничуть не скрывают того, что они что-то там анализировали.
О методах, использованных для составления карты блогосферы и ее анализа (map and analyze) можно прочитать в третей части их исследования, которая так и называется Methods Overview and Network Structure.

Ну и наконец, Гарвард - один из лучших университетов мира. Они не охотники и натуралисты, а ученые, которые проводят исследования в соответствии с общепринятой практикой, предполагающей не простое описание, а анализ, объяснение и осмысление наблюдаемого. Так что я не собственное целеполагание приписываю гарвадскому люду, а всего лишь озвучиваю общепринятую ныне практику.






Они конечно "учёные", но
emdrone
2010-10-20 10:56 am UTC

Они конечно "учёные", но не в почетнейшем смысле 19 века, когда наука представлялась венцом человеческой деятельности, как это до сих пор принято считать в советской культуре (и пережило, перевалившись в пост-советскую).

Они учёные В СМЫСЛЕ АМЕРИКИ ВТОРОЙ ПОЛОВИНЫ 20 ВЕКА. Т.е. они - владеющие техникой более объективных исследований исполнители воли своих заказчиков, т.е. денег из банкирских фондов.
Профессор Куигли прекрасно объяснил все эти "фонды" и "негосударственные объединения" как ВТОРОЙ КОНТУР УПРАВЛЕНИЯ, который дополняет управление через официальные структуры, или заменяет его, когда через официальные каналы своего добиться невозможно.
Большинство университетов в США финансируются - плохо понятно кем.

Например, фонд МакАртура давно наследил поддержкой проектов Нового Мирового Порядка.
Через него оплачивали "реформу" американского образования, от него идут колониальные проекты, и т.д. и т.д.

Ученые в США, и особенно гуманитарии не занимаются абстрактной 'наукой', т.е. выяснением абстрактных 'истин', которые когда-нибудь может-быть кому-нибудь там пригодятся.

Социология, например, или антропология, занимающиеся изучением других народов, имеют в виду возможности колонизации их, использования изученного для подрыва и контроля.

Это надо очень хорошо понимать, прежде чем вы начнёте пересказывать пропагандистские штампы об "ученых" и "общепринятых общемировых практиках".

Кто девушку кормит, собственно, тот её и танцует. Тут все довольно просто.




Re: Они конечно "учёные", но
deadpack
2010-10-20 11:13 am UTC

Мы пишем о разных вещах. Вы пишете о целях исследования. Я пишу о методах. Эти методы общепринятые, грубо говоря, потому, что мозги у людей устроены одинаково и работают тоже одинаково. Подчеркну еще раз: я хотел бы избежать обсуждения возможных целей их исследования.

И да, ученые ныне - "пролетарии", работающие на того, кто платит. Тут сомнений нет никаких.

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Ср Окт 20, 2010 8:52 pm    Заголовок сообщения: Ответить с цитатой

Баян, конечно старый, но может кто не видел:

Пишет muzyka_sfer (muzyka_sfer)
@ 2005-04-15 03:15:00

Часть Первая - наброски к портрету ЖЖ.
http://muzyka-sfer.livejournal.com/514.html
Цитата:
( Продолжение здесь:
http://www.livejournal.com/users/muzyka_sfer/1093.html -- оценки точнее, и картинки на-мно-го красивее и движутся Wink) )
.
Общая идея

Решение проблемы преследований по финансовым интересам под прикрытием все время подновляемых под давлением корпораций "законов о копирайте" не в согласном кивании головой в знак протеста (какие гады), и может быть даже не в попытках блокировать законы - слишком сильны ин протакивающие, причем на весь мир, корпорации.

Решение - в создании такой технической инфраструктуры, чтобы "там" поняли, что с новой реальностью невозможно бороться и нужно искать другие модели сбора денег.

Как, например, никто не пытается законом запретить телевизионные новости - потому что газеты отстают (вместо этого в 50-60 была война за деление доступа к ТВ через публичный псевдо-скандал).

Нужно создать такую структуру интернет-сохранения текстов и обмена ими, которая сделает невозможными акции преследования.

Я попробую изложить соображения в ряде статей, проект объединяет заглавная мысль о копирайте; однако я сильно отвлекусь на одну ее часть, потому что она интересна сама по себе: портрет русского ЖЖ.


1. Постановка задачи Wink)

ЖЖ давно занимает особое положение в русской культуре: в отличие от американской части, которая тоже весьма популярна (около 6 миллионов зарегистрированных пользователей всего, вместе с русскими, как указано на заглавной странице, и около 2.6 миллионов из них активных), русский ЖЖ объединяет взрослых, часто представителей образванной элиты, со всего мира.
Он давно стал культурным уникальным феноменом совершенно иной природы чем другие блоги, форумы, NNTP news groups и так далее.

Из этого представления об уникальности и понимания, что вольница Интернета имеет шансы со временем сильно уменьшиться возникают размышления о том, как сохранить свободу выражения и обмена информацией.

Мне кажется, сделать что-то можно и довольно легко:
(под lj-cut'ом одна картинка и ссылки на 3 другие, все по 50-80кб)

ЖЖ должен остаться тем же, но получить систему P2P бэкапа и постепенно возможность работать без центральных серверов; они останутся лишь чтобы обеспечить поиск, передачу сообщений об изменениях IP (и обеспечивать "бизнес модель" для хозяев Wink) ).

Это совершенно практично и достижимо "дома на коленке", желанием ЖЖистов запустить конфигурацию стандартных существующих программ на своих машинах, веб сервер и несколько скриптов, все простое, бесплатно и под лицензией ГНУ.

В процессе инженерных прикидок как сделать и будет ли устойчиво работать, встал вопрос о том, насколько интенсивны, разрушаемы или устойчивы системы социальных связей ЖЖ.

Оценить можно: информация о топологии ЖЖ под рукой, скачивание всего нескольких мегабайт доступно и быстро.

Топологию (граф) можно сопоставлять с другой доступной информацией; из данных можно извлечь ответы на ряд интересных вопросов:

-- размер русского ЖЖ

-- Связанность

-- устойчивость к намеренному разрушению связей или просто неприсутствию в данный момент (как если бы P2P сетка работала среди модемных соединений)

-- близость (через сколько друзей жжист А достигнет жжиста Б?), характер сети. Сетки оценивают по их характеру, например часто на факультетах Computer Science постулирую small-world model, рисуют сетку в клеточку и обсуждают поведение на ней P2P протоколов как будто так и надо. Иногда, правда, оговаривается, что как на самом деле, никто не знает.

-- Значит, если мы точно узнаем, возникает возможность проверять поведение системы "по-настоящему", на модели приближенной к реальности. Имея в виду перевод ЖЖ в распределенный режим, сетка социальных связей оказывается, более того, идеальной моделью, пределом к которому пришла бы реальная система в отсутствие всяких помех (таких, как отсутствие у каждого постоянной связи).
Более того, социальная структура ЖЖ представляет собой идеальную модель общения вообще, пределом, к которому те пришли бы не будь физических ограничений в смысле необходимости быть вхожим в круг, физически присутствовать и так далее. В этом смысле блогосфера - интереснейший феномен "чистого" общения, недостижимого предыдущим поколениям.

И так далее. Кроме того, такое рассмотрение дало бы возможность как-то понять структуру общения (например, как распространяются по сетке конкретные новости) а различие между групповой (например, американской и русской) самоорганизацией ЖЖистов может быть показало бы социальную сторону вопроса.

Подсчет средних цифр не слишком информативен: русский ЖЖ - плохо соединенные острова или галактики плотных связей в пустом космосе? Клубок? Как бы это посмотреть глазами.

Ответ оказался на поверхности.

Люди, занимающиеся картографированием Интернета давно разработали прекрасные программы визуализации массивных графов от десятков - до сотен тысяч (верхяя цифра, которую я видел - порядкa 500 000) вершин (nodes).

Визуализация иногда прямо отвечает на вопросы, иногда подсказывает какие модели и подсчеты использовать дальше

Итак,

Портрет Русского ЖЖ

1. Как собирать информацию?
(а)Очевидно, Friends, Friend of и mutual friends достаточны для выявления топологии сложившихся связей.

Crawl, ползание и составление списков имен можно делать естественно (X-friends of X- FF of X etc.). Гарантии того, что мы останемся в границах русского ЖЖ нет, но практика показывает что это так:

связи mutual friends культурно устойчивы.

Первый вывод в том, что связи кажется очень плотны: 2е поколение взаимных друзей (X-FX-FFX), самой узкой категории, дает десятки тысяч имен.

В моих картинках я строил графики до 67 тысяч (русских!) ЖЖ nodes, после чего программа склеила ласты (точнее, надо изменить системные параметры, а мне лень).

Эта прикидка неточная.
Может быть критерием приближения к полноте могла бы стать "сходимость", в том смысле, что новые личности незначительно пополняют суммарный список имен.

(б) Однако ползание по друзьям по определению покажет картину намного более связную, там принципиально не будет вершин без хотя бы одной связи - за исключением случаев, когда произвольно берутся построения по подмножествам.
Другой чуть менее очевидный способ - отталкиваться от популярных постов (зайдет кто угодно) или от внешних списков (например, у меня есть картинка по списку "известных людей в ЖЖ".

(в)Дольше всего - но с потенциальной возможностью наловить абсолютно изолированные части - если они вообще существуют, против чего сильно возражают уже собранные данные - выделять русские посты через feed новых.


Построения здесь - граф вчерашнего спекулятивного поста про деда-ветерана, который умер на улице.
http://www.livejournal.com/users/stoechko/32603.html
Вчера там было порядка 450 откликов, сегодня что-то 700.
Взяв друзей этих постеров и сузив списки до их взаимных друзей, я построил граф (т.е. запустил списки в скрипты которые я написал за выходные, которые выделили имена и построили дерево обхода, которое было записано в формате, который принимает программа), который может быть даст первую догадку насколько может оказаться плотен и связан и как организован русский ЖЖ.
[ Note: этот текст представляет первую часть рассмотрения.
Во второй здесь:
http://www.livejournal.com/users/muzyka_sfer/1093.html
- оценки точнее, картинки намного красивее и они движутся Wink)]



2. Что это и что там видно?

Программа строит VRML-миры, по которым можно летать, проближаясь к "галактикам", обрезая ветки, показывая связи удаленные на 2,3,5, 9, 15 шагов.
Мир построен на основе дерева ,



мой скрипт прочитывая текстовый файл с именами взаимных друзей образует характерные "венчики", образуя связи, потом идет дальше.
Размеры "галактик" и цветков не важны и меняются при движении по миру (авторы выбрали проекцию на сферу, что близко, то огромно).
Еще картинка, с непрозрачными связями


- на заглавной нитки сделаны "прозрачными" чтобы не заслонять вид.
Еще картинка</а>


Еще одна, то же, вид сбоку



Для построения я создал некого виртуального ЖЖиста "дед" (по теме статьи), у которого в условных друзьях все оставившие комментарии, а затем вселенная получилась из взаимных друзей этих ЖЖистов.

Вопрос ставился так: насколько могут оказаться связаны друг с другом случайные люди оставившие комментарии (в скандальные статьи скорее попадет кто угодно, помимо постоянного круга читателей).

13 апреля этот мир состоял из 10682 людей, между которыми оказалось около 14800 связей (промерно 450 комментариев с повторениями).

14 апреля в мире там уже 14470 участников и 21873 связи между ними (около 700 комментариев на тот момент, из них 315 уникальных)

Такой рост числа потомков первого поколения от 315 непосредственых разных комментаторов в ветке интересен сам по себе, он дает в среднем 45 потомков на комментатора - однако граф представляет ситуацию точнее.

На всех картинках видны кружки точек без связей вокруг коренной точки графа, "деда". Это ЖЖисты без взаимных друзей вообще.
Программа по спирали разместила все более и более крупные гроздья друзей (см. картинку номер два с одним деревом); к ним начинают протягиваться связи от облака сверху, где выросли самые массивные (см. картинку номр 3) На самом деле это грозди знакомых друг с другом.
Поражает (а) огромное число связей в облаке и (б) короткие пути в нем.
Типично в кластерах ЖЖистов "облака" перестают меняться после 3-4 скачков (позже дам картинки).
В ветках с бедными связями как правило насыщение наступает на 10м скачке

Построенный не для одного обсуждения, но по примерно 7000м файлов с друзьями (около 67 тысяч вершин графа, около 366 тысяч связей), русский ЖЖ - похож на дворцовую люстру замотанную тканью или паутиной когда не используется режим показа одного только дерева. Программа не упрощая действительно вырисовывает каждую линию (есть правда отдельный режим, делающий нитки "прозрачными")

Я не тратил время на подробный harvesting информации об американцах; мое построение по 10000 пользователей, от имени к имени, в резком отличии от русского ЖЖ показало отдельные кластеры до средней величины и ничего похожего на русское облако.


ПРОДОЛЖЕНИЕ СЛЕДУЕТ:
Позже в подтеме "портрета русского ЖЖ" я хотел бы повесить картинки с "портретами" тусовок известных людей ЖЖ, на то, как разрушаются связи (я скриптом случайным образом убирал имена уменьшая количество связей до 80, 64, 38% от реальных), сколько народу охватывает удаление от root node на 2,3,4 скачка, на характер вселенной русского и подмножества американского ЖЖ и и так далее.

( Продолжение здесь
http://www.livejournal.com/users/muzyka_sfer/1093.html
Оценки точнее, и картинки намного красивее Wink) )

Из камментов:

Цитата:
Интересно, спасибо.
jescid
2005-04-15 08:55 pm UTC

Немного сумбурно только.
Вы фактически предлагаете сделать из ЖЖ фидо-сеть. Аутентификация всё равно д.б. - и тогда где-то рассыпанная на нодах. К тому же ноды д.б. постоянно включены.
Что касается графов - думаю, что ЖЖ с каким-то приближением моделирует оффлайн-социум. Когда приходилось изучать социологию (у французов) - то запомнилась цифра 10-15 человеко-связей между любыми 2мя жителями земли.
Успехов.



Re: Интересно, спасибо.
muzyka_sfer
2005-04-15 09:12 pm UTC

все правильно - только сумбурность (а) от того, что это вводный пост и (б) от недоговоренности.

Возможность "своими глазами" посмотреть на сетку социальных связей удивительна (как поразила меня картинка авторов программы, "показавшей" мне Интернет как он есть).

Он-лайн существование даже больше по-моему, чем модель или приближение офф-лайна. С одной стороны это "модель будущего" в смысле тех технический предложений, о которых я думал.
С другой, важнее - это идеальное, без помех жизни или инфраструктуры соц общение. Это - предел, к которому мы бы пришли, не будь помех.

Поэтому изучение сложившейся сетки отношений и ее свойств полезно во многих смыслах. Я потом выскажусь



Re: Интересно, спасибо.
muzyka_sfer
2005-04-15 09:15 pm UTC

полезно во многих конкретных смыслах с практическими выводами.



Re: Интересно, спасибо.
nullplex
2005-04-15 10:44 pm UTC

> Возможность "своими глазами" посмотреть на сетку социальных связей удивительна (как поразила меня
> картинка авторов программы, "показавшей" мне Интернет как он есть).

а где можно это найти?



Re: Интересно, спасибо.
muzyka_sfer
2005-04-15 11:12 pm UTC

http://www.caida.org/tools/visualization/walrus/
Вам надо поставить GL openGL или Mesa и иметь Java (она медленная и не делает вычислений, это просто интерфейсы к GL rendering engine).
А затем - в чем вся работа - думать, что хотите посмотреть, брать datasets, преобразовывать их и строить деревья - т.е. готовить осмысленные файлы данных в формате libSEA для walrus'а - документация и примеры там есть



Re: Интересно, спасибо.
muzyka_sfer
2005-04-15 11:18 pm UTC

Портрет Интернета в таком же виде из той же программы (animated GIF на 6.5 мегабайт) -- ОСТОРОЖНО! сама страница требует 1.8 мегабайт, на ней маленький gif, кликнув на который скачиваешь большой:
http://www.caida.org/tools/measurement/skitter/visualizations.xml

Цитата:
kibizoid
2005-04-15 09:56 pm UTC

Насколько я понимаю, для ваших исследований была использована методика, разработанная emmastrange.
http://emmastrange.livejournal.com/
(см. пост).
http://www.livejournal.com/users/emmastrange/66649.html
Однако в комментариях к этому посту автор пишет:

Yes, walrus can display cross links (they're the red lines in my graph), but it just draws them in afterwards after doing the spanning-tree layout (yellow lines). So for a network like livejournal that has no inherent tree-like structure, the layout generated by walrus is kind of "artificial".

В вольном переводе на русский - программа, которая была использована для визуализации строит граф по принципу дерева, то есть исходно не умеет рисовать перекрёстные связи, так что все перекрёстные ссылки рисуются после построения первичного дерева. А так как ЖЖ в реальности не имеет структуру дерева, то картинки, созданные программой являются в некотором смысле "искуственными".

Добавлю от себя - главная проблема в отрисовке реальной структуры ЖЖ, как сложной системы - это поиск кластеров, так называемых clique и связей между ними. Использованная программа этого не делает.

Есть сервис, который ищет кластеры пользователей - Clique Finder,
http://n5.ca/~nikitab/lj/clique.py
вот его алгоритмы и надо использовать при визуализации. Но построить граф для такого большого количества узлов (а пользователей в ЖЖ много) очень ресурсоёмкая задача (точнее говоря, не решается за приемлемое время): см. сюда
http://mathworld.wolfram.com/Clique.html

А структура англоязычного ЖЖ по сути такая же - смотри в оригинальный пост
http://www.livejournal.com/users/emmastrange/66649.html
- там много картинок. Надо только учесть, что перекрёстные связи там нарисованы красным, так что они меньше бросаются в глаза, чем на картинках для русскоязычной части ЖЖ (нарисованы светлосерым).

Оценку надо производить не по картинкам (они к структуре ЖЖ не имеют практического отношения), а по матем. характеристикам системы - среднему размеру кластеров и среднему расстоянию между пользователями (то самое кличество шагов от одного до другого друга).



Wink))))))))))))
muzyka_sfer
2005-04-15 10:44 pm UTC

.
Мир тесен, и центр CAIDA известен.

Спасибо за ссылку. Вы, однако, не правы в двух смыслах:
- я совершенно не знаком с постами мелкого ЖЖиста-американца из Орегона (92 друга, в друзьях у 89) восьмимесячной давности.
- вы совершенно заблуждаетесь в оценках "особых" алгоритмов Clique Finder и оценке их ресурсоемкости.
O сайте я тоже не знал, но сейчас пойдя по ссылке, я сделал поиск и, честное слово, рассмеялся:
для юниксоида, который днями ковырялся в ЖЖ-данных очевидно, как были получены эти результаты. Я их могу запустить вручную, как shell script или perl script, и подготавливая данные я это делал руками (чтобы потом засунуть в скрипты).

Главный вопрос в том, что думает человек (любой из вас может скачать программу-рисовальщик) получив в руки инструмент. Один молотком бьет мебель, другой строит.
Я представляю не красивые картинки (как emmastrange по ссылке), а пользуюсь красивыми картинками в подтверждение идее, о которой давно думал.
Walrus дает средство для того, чтобы оценить свойства сетки.
Способы построения дерева (которые emmastrange не смог толком строить) есть точная модель неких алгоритмов в моей задумке.
Я могу visualize их работу, и меняя деревья оценивать определенные параметры.

Не существует "канонического" представления этого мира, но есть много точек зрения.

Ну и тот человек даже не задался вопросами, которые сформулировал я и ответы на которые получил (хотя еще не вывесил здесь) - потому что они часть инженерной оценки проекта, а сами собой тому американцу в голову не пришли.

Я объясню все это в следующих постах.

Хотя совпадение интересно.
Кстати, я могу сравнить его картинки (слабые связи) с нашими в следующих постах, разница бросается в глаза.



Re: Wink))))))))))))
kibizoid
2005-04-15 11:48 pm UTC

Есть тогда просьба - проведите несколько экспериментов - чтобы группа юзеров была примерна равна по размерам (для ангЖЖ и русЖЖ). И несколько - чтобы получить хоть какую, а серию...



Re: Wink))))))))))))
muzyka_sfer
2005-04-16 12:06 am UTC

Да. Я уже делал и мое предварительное мнение основано на том, что я видел.

Русские ЖЖисты типично:
мелкие (меньше 100 в friend-lists), средние, 200-600, и крупные (выше).
Структура нашей тусовки в том, что у нас есть большие - у американцев я их не видел, что у нас нет практически отклеенных, без связей с "большими" (или с далекими связями, скажем, шагов на 15).
Мы все очень, поразительно, близки в этой сетке.
Это означает технически, что в распределенной модели надо использовать алгоритмы "by rumour", что избыточность и устойчивость нашей сети высока - я случайным образом уменьшал количество связей и делал оценки изменения достижимости - ну и так далее

Я могу crawl американцев (а) от этого парня (б) от ленты последних постов (что отдельный прием: если вы ползаете по друзьям, получаете только клубок друзей.
Если вы собираете имена из постов или иначе (есть еще методы), то получите другое, менее связное представление.





muzyka_sfer
2005-04-15 10:49 pm UTC

Вы заблуждаетесь в представлении о кластерах.

(а) их не определяет CliqueFinder и
(б) они не существуют как вам кажется, т.е. "кластеры" cliquefinder - просто общие друзья у набора ЖЖистов.
Это не параметр организации ЖЖ, по крайней мере не тот параметр, который имеет практический смысл

Помните, когда учили формулы, объясняли, что надо понимать их "физический смысл"?
Надо, в-третьих, научиться читать картинки, как мы когда смотрим на топографическую карту делаем это не ради восхищения красотой зелено-коричневых неровных узоров.




kibizoid
2005-04-15 11:53 pm UTC

А я где-то читал (сейчас не помню - скорее всего в ЖЖ автора скрипта), что CliqueFinder ищет группы пользователей, которые все находятся во френдах друг у друга. Так что это вроде подходит под определение clique.

А картинки эти, опять же повторюсь, несут очень сильный отпечаток алгоритма построения. И реальная структура становится очень сильно искажена. Именно поэтому лучше оперировать с цифровыми характеристиками, нежели с визуализациями.




muzyka_sfer
2005-04-15 11:58 pm UTC

Но алгоритм полностью задается тем деревом, которое делаете ВЫ! Порядком обхода, порядком перебора.
Программа - renderer, т.е. рисовальщик, а не подготавливатель данных. Она "натягивает" красиво на сферу, позволяет поворачивать, показывать связи на 1,2 и т.д шагов от выбранного, переключать деревья.

Но граф ей строите вы сами, и от того, что за граф, кто в root node, и на что именно вы смотрите зависит ответы на какие вопросы вы получаете

Цитата:
kibizoid
2005-04-16 12:14 am UTC

Да, всё верно.

Вот только проблема в том, что ЖЖ не имеет структуры дерева. Любое дерево - это произвольно выбранное вами начало.

Кстати, отвлекаясь от дискусии, я недавно пытался проследить
http://www.livejournal.com/users/kibizoid/43419.html
историю возникновения и распространения известной сетевой забавы - шести вопросов. К сожалению, автоматизировать сбор данных там гораздо сложнее, но результаты очень интересные.

Процесс распространения такого "социального вируса" похож на горение рассыпанных бикфордовых шнуров - в цепи есть узлы двух типов - те, которые передают вопрос дальше без большого ветвления (одному-двум пользователям) и узлы крупного ветвления - когда один человек раздает вопросы десяткам других. Соотношение таких узлов примерно 3 к 1, в итоге получается достаточно равномерное "горение".




muzyka_sfer
2005-04-16 12:20 am UTC

Тоже верно - я хотел (еще не сделал) посмотреть как какая-нибудь новость расходится по ЖЖ. Нарисовать можно и на таком графе - цветом вершин и/или ребер.
Из-за принципа работы renderer'а его нельзя update dynamically, но скриптами нарисовать 5-10 кадров легко (просто заменяется атрибут в файле данных, программа запускается, картинка сохраняется).

Но можно наоборот не накладывать точки на "мир" (как они в том интернет-центре сделали для иллюстрации распространения одного вируса) а использовать walrus для рисования самого дерева расхождения по себе




silpol
2005-05-13 05:27 pm UTC

если с английским проблем нет, то можно начать по ссылкам отсюда
http://www.livejournal.com/users/silpol/230082.html



Поправка
muzyka_sfer
2005-04-15 11:54 pm UTC

.
Пожалуй, надо поправить мой спесивый ответ и сказать точнее:
будет ли поиск кластеров главным ответом зависит от заданного вопроса.

Есть много вопросов, ответы на которые дают деревья.
Тот парень, кстати, пренебрежительно говорил, что программа потом дорисовывает связи (да), основываясь на дереве - он не приписывал связям никакого смысла.

Мы также не знаем, рисовал ли он (а) friends (b) friend of (c) mutual friends, мой выбор объясняется какой смысл я вкладываю в эти понятия - дерево, взаимные друзья и друзья в одну сторону - в модели распределенного ЖЖ.

Цитата:
vadvad
2005-04-15 10:46 pm UTC

Хорошо сделано. А то все пользуются одними лишь
http://patrickbarry.com/projects/ljnet/ и
http://www.touchgraph.com/TG_LJ_Browser.html

Вот, пишут еще
http://vlado.fmf.uni-lj.si/pub/networks/book/
но я не освоил это пока.

Что касается P2P, то там важно сделать двухуровневую архитектуру, Dublin-core совместимую модельную распределенную сеть (сеть метаданных), например на XFML, чтобы отражать дерево и фасет, что даст возможность поиска и навигации, а над ней стихийную надстройку непосредственно клиентов - держателей контента (сеть данных).

Нечто подобное есть у хотлайнеров, BigRedH, там система трекеров. Впрочем, была еще шведская образовательная P2Pшка метаданых, кажется ГНУтая, не помню url'а.




muzyka_sfer
2005-04-15 11:08 pm UTC

Верно, но тут несколько соображений:
(а) - это нужно хозяевам для поддержания "бизнес-модели" Если все работает без серверов, за что брать деньги? - следовательно, пишут клиентов так, чтобы они обращались за информацией в центр за месячные взносы.
LJ рос беспорядочно откликаясь на спрос. Он смог вырасти за счет умной модели общения, которая в нем заключена (она, по-видимому, очень хорошо отвечает природе возникновения социальных связей, "не насилует"). Это в нем самое главное.
Более того, я их могу реинтерпретировать в терминах П2П (об этом с другом посте).
Заметьте, что ЖЖ долгое время не содержал центрального поисковика, потом у русских, например, появился crossroads (?).

И вместе с тем "вселенная" ВЫРОСЛА САМА, by rumour, от человека к человеку.

(б)- Да, с пунктами соединения о обменом лишь легкими "скелетами" деревьев-связей, при чтении информации друг у друга. Но необязательно у платных хозяев
(в) со скрытой и принципиально невидимой системой обмена файлами как второго уровня общения, ради которого существует первый, дающий свободный вход и образование кругов доверия.
Т.е. П2П открытые ЖЖфорумы и не P2P а F2F маскируемые неразличимо таким же открытым траффиком
(г) Все организуется по http и https протоколам из существующих давно в общем обиходе веб-серверов, веб-браузеров (плюс скриптов) на первом этапе.
P2P - не программа, а ФУНКЦИЯ, которую могут воплощать разные, в том числе известные программы.
Сегодняшние P2P, даже открытые, шифрованные и распределенные выявляются одним сканом и выплатой 200-500 долларов ISP, после чего начинается юридический шантаж.


Далее есть еще один уровень (пока умалчиваю, для него есть exemptions в законах) и маскировки, и - опять ключевая идея - встраивания этого в инфраструктуру существующего Веба, так что запретить не удастся не запретив любые https сервера, чего банки и торговцы позволить не могут.

Я обо всем этом собираюсь писать.
Самое потрясающее, что создать систему неразрушения информации на сети можно уже прямо сейчас просто реконфигурацией стандартных частей установки любого Линукса или форточек.

На следующей ступени можно шагнуть еще дальше и сделать пакет для такого общения частью дефолтных поставок свободных ОС.
Только поняв, что изменилась сама структура жадная корпорация бросит угрожать законами и судами, как никто не может запретить телевизора или обязать его задерживать носовти на сутки потому что газеты не успевают.

Цитата:
vadvad
2005-04-15 11:08 pm UTC

вот книжка, на первый взгляд ничего неожиданного для знакомых с Бержем и Оре Smile, но может для принятия терминологии пригодится, её там навалом:
http://faculty.ucr.edu/%7Ehanneman/SOC157/TEXT/TextIndex.html

Цитата:
kibizoid
2005-04-16 12:35 am UTC

Кстати, пришла мысль, как ограничить Русский ЖЖ, дабы в обсчёт не попадались случайные переходы в англоязычную часть.

Надо загружать индекс записей (он, доступен в XML виде) и парсить его на предмет наличия/отсутствия символов кирилического алфавита в заголовках. Или получать запись-другую и тоже парсить (это чтобы учесть склонность многих пользователей игнорировать заголовки).

Цитата:
antik
2005-04-16 07:01 am UTC

К сожалению, в комментах совершенно пропала заявленная в начале поста тема — построение LJ p2p сети. Я когда-то обращался с таим вопросом к avva'е,
http://avva.livejournal.com/
бывшему тогда координатором израильского сектора, но он ответил, что это решает не он. А жалко, так хочется поделиться с френдами и тем, и тем, и тем, а на моем хостинге только 100 метров, из которых почти 50 заняты уже постоянным содержимым…

Цитата:
muzyka_sfer
2005-04-16 04:37 pm UTC

Выводы -- [какие из них? что вы назвали выводами?]
совершенно непонятны -- [возможно потому что ряд общих утверждений основан на моих представлениях после рассматривания десятков графов для десятков случаев],

исходная посылка (об отсутствии sample bias в выборке "авторы комментов про деда") -- [ это вы по поводу того, что отзываться на скандальный пост приходят не просто члены группы?]
по меньшей мере сомнительна. -- [ этот граф - первый пример, на котором я показываю метод. (а) если собирать информацию от друзей к друзьям, мы ВСЕГДА получаем одно связанное облако (б) если мы собираем ее от комментариев на пост, и не прост, но скандальный мы получаем возможность увидеть тех, кто иначе скрыт. Целое кольцо точек без связей вокруг "деда" иначе не попали бы в поле зрения (в) если мы собираем из latest posts, то шансы увидеть не членов одного облака может быть еще лучше.
Вообще очевидно, что произвольное подмножество может (теоретически) обладать свойствами, отличающимися от свойств всего графа; однако опровергает это резкий рост числа участников: появляется представление, что наш граф ВСЕ РАВНО находит "почти всех", которое у меня после построений многих разных случаев превращается в почти убеждение.
Я пока не буду больше, посмотрим на разные - поговорим потом.]




ex_skuns
2005-04-16 04:43 pm UTC

Люди, отвечающие на подобный пост, обладают определенным ОБЩИМ типом личности (в нашем случае, доверчивость+сентиментальность+...) и уже поэтому не могут рассматриваться как случайная выборка.




muzyka_sfer
2005-04-16 04:59 pm UTC

OK, вопрос ставился так:
насколько ответившие на этот пост связаны между собой через первое поколение друзей.

Допустим, ответ: доверчиво-сентиментальные (к которым я бы добавил кучку тех, кто обвинил автора в манипуляции, т.е. недоверчиво-враждебных) - сильно связаны.

Я строил такие же графики от внешнего "списка известных людей в ЖЖ" (т.е. писатели, музыканты, ... - публично известные люди)
Они сами и их первое поколение друзей связаны еще сильнее (граф в этом посте еще редкий, в нем можно видеть отдельные нитки, там - нет, если не отсекать и не подлетать совсем близко)

Я строил такие же для "патриотов" -- "либералов". Они массивно связаны внутри; они массивно связаны друг с другом.

Для подсписка самых популярных. Популярность одного - в кухонных рецептах, другого - в написании фантастики, третьего еще в чем-то, не образуют ли они несколько плохо связанных облаков - нет, все плотное облако.

При этом для подобных списков характерны по крайней мере 25-30 тысяч nodes, часто больше, тысяч 50, т.е. у меня ощущение, что всё повязано со всем.




muzyka_sfer
2005-04-16 04:49 pm UTC

Мой единственный вывод про это конкретное построение:
Поражает (а) огромное число связей в облаке и (б) короткие пути в нем.

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Ср Окт 20, 2010 9:32 pm    Заголовок сообщения: Ответить с цитатой

Пишет muzyka_sfer (muzyka_sfer)
@ 2005-04-27 20:37:00
Портрет русского ЖЖ (2): six apart?

http://muzyka-sfer.livejournal.com/1093.html
Цитата:
Прошла неделя, и в выходные можно было продолжить рисовать портрет русского ЖЖ. Wink)
Первый пост ввел идею, впрочем слишком кратко и сумбурно, обозначил метод
оценки ЖЖ и дал пример графа взаимных связей комментаторов одной скандальной
статьи.
Были высказаны прикидки о размерах русского ЖЖ, предположение что он
интенсивно взазимно связан, и сказано, как можно собирать информацию.
В этот раз я
(а) ее отчасти собрал и предлагаю подновленные оценки и
(б) прикидываю, каким может быть диаметр графа русского ЖЖ.

Под cut'ом будет картинок килобайт на 600-700. Они маленькие но дюже тяжелые потому что красивые портреты ЖЖ в этой заметке - animated GIFs, они движутся.

( Первая часть здесь:
http://www.livejournal.com/users/muzyka_sfer/514.html )
1. МЕТОД

1.1 Сбор данных и задача

Во-первых, в силу идеи, для которой делается инженерная оценка ЖЖ, меня
интересуют взаимные связи, общие друзья (MF), позже станет понятно почему.

Во-вторых, легче всего "ползать" (crawl) по друзьям друзей. Условно можно сказать, что ЖЖисты по степени присутствия бывают маленькие (до 100-200 друзей - не общих, просто друзей в одну или другую сторону), средние (200-600), и большие (свыше 600).
Второе поколение от пользователя проведшего на ЖЖ примерно год и находящегося на среднем уровне (около 400 друзей, около 90-100 взаимных), т.е. взаимных друзей взаимных друзей, дало больше 7000 имен русского ЖЖ., граф, обрывающийся на друзьях друзей друзей составлял около 67000 имен и 366000 связей.
По моим оценкам, такой граф практически не покидает пространства русского ЖЖ
Взаимные связи культурно устойчивы, что каждый раз подтверждается моими результатами.

Однако выявляя имена, такие построения не решают вопрос о существовании или несуществовании отдельных несвязанных или малосвязанных "галактик" в пределах русской ЖЖ-вселенной. Граф ДДДрузей ( = друзей-друзей-друзей ) преувеличивает степень связности: для накопанного дерева из 2 поколений потомков одного корня (и 3его в виде его листьев) путь от любой вершины до любоой другой тривиально не превышает (2n), т.е. 5, т.е. в самом худшем случае двух точек, не имеющих никаких иных связей, кратчайшим путем будет спуск из А до корня и подъем до следующей вершины Б

Так что для обнаружения новых имен и отдельных групп (в существование которых верится все меньше) надо собирать информацию иначе.
Один способ - из длинных скандальных заметок, в которых могут отмечаться случайные люди, от которых затем можно разрабатывать друзей друзей и сопоставлять их с известной частью вселенной.
Другой - использование внешних списков (например, 100 известных общественных деятелей в русском ЖЖ)
Третий, пожалуй, самый объективный - harvesting новых постингов в ЖЖ.

В эти выходные я запустил скрипты, которые раз в 2 минуты собирали имена и одну-две строчки всех новых постеров, писавших по-русски. На самом деле это слишком большой промежуток: имена в соседних списках не перекрывались.

Я собирал данные 24 часа в субботу-воскресенье. Обычно для русского ЖЖ любой уикенд медленный, однако 24 часа дали 14170 уникальных имен; вся информация еще не до конца обработана.

Имена писавших мне были абсолютно неизвестны (я просмотрел большую часть собранной информации, нотя далеко не всю), они в в основном кажется не входят в списки самых популятных ЖЖистов, известных деятелей в реальной жизни вне интернет-культуры, представленных в ЖЖ, политических групп и т.д. Ниже я представляю первую часть собранного, приблизительно с полудня до полуночи субботы 23 апреля 2005 по моему американскому времени и показываю на визуализации сколько шагов отделяет в этом мире людей друг от друга.


1.1 Двенадцать часов постингов


Итак, первые полсуток дали 2112 уникальных имен из файлов в которых мои скрипты оставляли только имена и русскую (обычно первую или вторую) строчки. Это отсекало тех, кто начинал писать по-русски с середины поста. Мои скрипты - как я их ни подстраивал - также внесли небольшой процент шума из попавших нерусских имен. Процент, как можно убедиться, просмотрев собранные тексты, не слишком большой.
К счастью, способы построения нашего графа отделяют "мусор" от русского ЖЖ (об этом ниже)
Собранные файлы выглядели так:


(цитировать можно ровно 2112 раз, чтение суточного запаса первых строчек сдвинуло мое представление о соотечественниках Wink )
Собрав имена, я построил граф этого мира.

Более точно "построить граф" означает:
(а) собрать информацию-имена, создать уникальные списки
(б) взять информацию о друзьях каждого имени в ЖЖ.
(в) найти взаимных друзей, ВД (MF, mutual friends - почему только общих объясню потом)
(г) а-б дают parent lists, которые обрабатываются скриптами - построить покрывающее дерево графа, без которого программа-показыватель не сможет построить мир
(д) запустить алгоритмы, производящие смысловые вычисления
(е) записать их в виде атрибутов вершин (которые все сидят в графе на spanning tree, покрывающем дереве, как мы помним) и ребер графа
(ж) собрать файл данных в формате программы
(з) запустить программу, "полетать" по построенной визуализации, включая и выключая разные разности (расцветку, показ или исчезновение частей и т.д.)
Сохранить нужные картинки
(и) собрать их в gif-animations, resize и т.д. - привести в вид, пригодный для показа
(к) написать нудный сопроводительный текст и послать красивые картинки в ЖЖ для удовольствия публики Wink)

К счастью для нас всех, я старый юниксоид, и все кроме пункта (з) и (к) за меня делает компьютер. А посмотреть на результат самому всегда приятно. Wink

1.2 Про деревья

У графа нет какой-то канонической формы, и внешний вид зависит от корневой вершины, порядка обхода вершин при конструировании дерева, и прихотей программы-визуализатора, которая внутри себя решает задачу layout'а, т.е. как разумно разместить дерево в сферическом пространстве.

--[Дерево справа относится к построению, для которых приводятся картинки ниже. Если кликнуть на картинку, вы извлечете еще 200кб траффика]--



--[Гораздо более красивое дерево (185кб) можно увидеть здесь]--.


Это дерево было построено для 214897 ЖЖузеров образовавших 434367 связи; оно включает русский ЖЖ, но dataset кажется был сильно засорен. Похоже на какой-то традиционный японский вид керамики.

1. Покрывающее дерево (пример дерева справа) необходимо для работы программы. Для конкретной задачи дерево может быть формальным параметром или нести смысл. Я решил не использовать формальные методы обхода, т.к. мои построения должны сохранить некий "физический смысл".
Поэтому (все сказанное ниже нестрого и может не иметь смысла даже для вдумчивого читателя, лучше проигнорируйте):
для parent lists я беру имя; если оно уже в дереве, то я добавляю от родителя туда ребро, иначе создаю новую точку графа, растущую от родителя (не вдаваясь во все подробности).
Список родителей, не присоединенных к существующему графу я откладываю, потом когда данные закончились прогоняю еще раз (даже 2, в том есть смысл).
Если после 3 проходов родитель не связан с графом, я присоединяю его с его детьми в верх выращенного дерева на фальшивых ветках (окрашенных в красный на наших построениях, см. рисунок).

Разумеется, может оказаться так, что дети бездомных имеют связи с деревом, (и бездомные могут иметь связи друг с другом, непосредственно или через детей), не все потеряно, но подумав, я решил их не пересаживать по нескольким причинам:
(а) списки родителей и порядок их обработки не бессмысленны, их не следует разрушать пересадкой (например, для взвешиваний, clustering analysis и т.д.), и
(б) этот алгоритм чрезвычайно наглядно выносит случайных, в подавляющем числе американцев, из русского ЖЖ в красные веточки растущие от верхушек крон.
Разумеется, мы помним, что они фальшивые и нужны только для построения, и блокируем в подсчетах переходы по красным веткам. Обсчитываются только реальные связи

Такое конструирование дерева разделяет изолированные группы если те существуют и уже поэтому не бессмысленно.

2 В терминах задачи о распределенном ЖЖ дерево обхода представляет некий как скажут компьютерщики "routing algorithm", один из возможных для распространения информации в сетке социальных связей. Разные способы конструирования деревьев таким образом будут моделировать разные алгоритмы.

Однако я кодирую другую информацию атрибутами графа (например, цветом или логическими переменными), там ограничений покрывающего дерева вообще нет, и визуализация совершенно гибко может отражать что угодно.

Например, чтобы добраться от корня до дальней вершины, я могу в программе показать скачки по дереву (здесь я не привожу таких картинок), или могу использовать обсчет по множеству всех связей (что я и делаю), иллюстрируя достижение вершин и покрытие графа кратчайшими путями от заданной вершины.



2. РЕЗУЛЬТАТЫ


2.1 Связность

Итак, получив первые 12 часов данных, я построил граф и удивился.
(а) Выходные - медленный день для русского ЖЖ. Многие, включая самых известных ЖЖ-истов не были в это время on-line. Однако список вершин графа включал (через первые поколение друзей) большую часть имен, входящих в сильно населенную и известную мне часть ЖЖ.
Другими словами, случайные постеры связаны по крайней мере с известными. Для известных (100 самых популярных в ЖЖ по списку ljplus) я строил графы раньше. Их миры очень сильно связаны между собой, это я уже видел (даже если один популярный писатель, другой больше пишет про рецепты). Более того, в графе, например, стоящего вверху таблицы по количеству запоминаемых постов krylov'а его друзья очень сильно заносят в друзья друг друга, впрочем , общая тенденция в тусовках вокруг популярных ЖЖистов и вообще русского ЖЖ.
(Копаясь в американской части, я видел какой-то жалкий писк в сообществе об изучении самого LJ: мои LJ friends занесли в друзья друг друга.Хорошо ли это? Не думаю, что все такие, но иной, менее интенсивной структуры там естественно ожидать. Возможно, одним из определяющих факторов оказывается демография: американские ЖЖисты в подавляющей массе 17-21 лет от роду, см
http://www.livejournal.com/stats )

Вид графа показал, что 2112 вокресных сильно и типично связаны и друг с другом.
Тогда я перешел к главной задаче:

2.2 SIX DEGREES APART: первое построение


Как оценить - визуализовать, инженерно прикинуть - сколько поколений друзей друзей связывают русских ЖЖ-истов друг с другом?

Подобной задаче много лет. Чаще всего ее цитируют связывая в именем Мильграма социологa-активистa, "six degrees of separation".

Математики играют в свой вариант под названием "число Эрдеша". Вообще, тема вызывает миллион гаданий. Сейчас, например, в Computer Science, только ленивый не говорит о том, что Веб представляет из себя "явление малого мира", результат оценки не более, абсолютно не более серьезной, чем этот текст, выполненной сотрудницей Xerox Ладой Адамич (Lada Adamic) "The Small World Web".
Это как бы дает им право постулировать поведение разного рода сетей на поле как тетрадка в клеточку, в которую "вносятся случайные возмущения", что делает ее свойства "похожими на small-world model".
Мало кому пришло в голову подумать, где найти реальные сети социальных свюзей и выяснять, как дело обстоит в них на самом деле. По таким ученым надо ездить паровыми катками.

По поводу нашего рассмотрения можно сказать следующее:
1. ЖЖ представляет идеальную модель социальных связей, это предел, к которому бы стремилось общение, если бы были сняты все помехи.
ЖЖ - дистиллированная система социальных связей, которая сложилась стихийно без центральных справочных ресурсов и ограничений на то, кто с кем может разговаривать.
В этом новизна, ЖЖ - гость из будущего. Раньше общению в чистом виде мешала необходимость физически придти куда-то, быть вхожим в круг и т.д.
Впервые в истории на примере Net-сообществ мы можем так ясно понять так многое о таком числе людей.
2. Современные оценки - первые возможные точные оценки. Все предыдущее (читайте ссылку в Википедии), в общем, гадания. Сейчас впервые любой энтузиаст вроде меня может за выходные получить ответ на гипотезу "six apart" - и почему-то никто, насколько я знаю, не озаботился его получить, после стольких лет ажиотажа.
Возможно я плохо знаю
3. Эта оценка центральна для жизнеспособности идеи распределенного ЖЖ и сохранения нецензурированной информации, т.к. от параметра зависит выбор возможного решения.


Я взял очень слабосвязаную даму (всего 7 общих друзей) и перестроив граф он нее как корня стал смотреть, когда я (не музыка сфер, созданная для этого проекта, а ЖЖист из средней группы имеющий примерно 400 друзей и 90-100 общих друзей) смогу до нее добраться через друзей-друзей-друзей, запустив алгоритм, красящий вершины.
Можно представить себе задачу, как распространение идеального слуха: каждый передает его всем взаимным друзьям; попав в вершину, он ее навсегда переводит в состояние "знаю" и идет дальше.

Ответ: из ее 7 связей 4 оказались окрашены через 4 шага.

Гораздо замечательнее другое, я этого совершенно не ожидал и был поражен:
на картине 4го шага видно, что окрасилось большинство вершин - чтобы быть точным, из прибл. 40900 вершин графа на 4м шаге достигнуто 30800, т.е. 3/4 всего населения построенного подмножества.

На самом деле результат даже может быть чуть выше, т.к. наша вселенная несколько загрязнена ЖЖистами нерусского мира: мои скрипты иногда обманывались на особые знаки юникода (например, сердечки, которые американские девушки ставят гроздьями, или другими неанглийскими шрифтами - испанскими,немецкими. Я не совсем понял, где происходит заражение и постараюсь дочистить скрипты.
Их, однако, хорошо видно именно потому что они остаются изолированными - как я не очень понятно объяснил в разделе об алгоритме построения дерева: такие ЖЖисты выглядят висящими на красных ножках-веточках над кроной одного связного огромного баобаба русского ЖЖ и не имеющими связей с русской частью мира. Никаких общих взаимных друзей у них нет.

Отсюда вытекает общий результат первого подсчета (и красивой визуализации):
я могу гарантировать, что среди 75% покрытых вершин все могут достичь друг друга по крайней мере через 8 шагов.
Однако визуализация в каком-то смысле сильнее подсчетов вслепую: я могу рассматривать и "на глаз" оценивать характер графа, и быть почти уверенным, что реально полученный результат должен быть типичным. Скорее всего подавляющее число русских ЖЖистов примерно в 3-4, реже в 5 шагах друг от друга.



2.3 SIX DEGREES APART: второе построение.


Однако наше исходное подмножество 2112 случайных постеров должно дать заниженный результат.
Замечательно, что известные появились в их графе, т.е. они присоеденены к основному облаку русского ЖЖ. Однако поскольку я не вставлял второе поколение друзей этих 2112ти, нет гарантии, что появившиеся имена присутствуют всеми своими связями.
Поэтому первая оценка может занижать результат. (Если я не учитываю еще полмиллиона прячущихся одиноких волков, однако, все мои результаты завышены, но на то по результатам долгих копаний совсем не похоже --- [см. часть 3 с распределением и уточнениями - m_s ]).

Сначала я хотел строить вторые 12 часов субботы-воскресенья. Однако решил что должен чистить сырые данные: мой скрипт набрал сколько-то (не слишком много, но ) американцев. Работать не хотелось, нужен был легкий результат.
(б) Я добавил к 2112 случайных ЖЖистов список 100 известных деятелей, чрисутствующих в ЖЖ (обычно писатели, журналисты и т.д.) с их ВД, список ВД самых популярных ЖЖистов с ljplus.ru, и свой ВД.
Получилось 3683 parent lists которые содержали 61966 ЖЖузеров, имеющих 292259 связей (коэффициент 1:4.7, но это, как пишут в газетах, очень средняя температура по больнице).
Как показало построение, они почти полностью принадлежат русскому ЖЖ.
Количество случайных американцев как показали полеты, клики по вершинам на красных веточках и чтук 20 отдельных случайных проверок вручную, действительно невелико и они действительно вынесены из облака вон.


Что на картинках?

1. Дерево мира можно видеть на первой картинке в заметке, выше.

--[Сразу щелкнув на картинку, начинайте думать, стоило ли вам ждать 500кб чтобы рассматривать то же самое большего размера]--


2. Это построение по показывает часть дерева сбоку-сверху близко к корню. (весь граф получился поножим на баобаб, относительные величины колец друзей из файлов "родителей", следуя по которым граф строился, не важны. Изображение натянуто на сферу, искажено как в объективе "рыбий глаз", велико то, что близко; большая часть графа скрыта передними ветвями либо "закатилась за горизонт" сферы.
Не ставшие "родительскими" вершины все равно присутствуют множеством связей, это неважно, у графа как у джинна вообще нет одного лица или образа.

Зеленые точки - друзья друзей исходящие от корневой вершины (меня самого ЖЖиста с 87 ВД). Можно было строить "распространение слуха" от любой точки, не обязательно корневой, но у меня была идея сравнения с распространением информации по дереву (потом).
Всего было просчитано 5 шагов. Арифметика такая:
ЖЖузеров 61966; связей 292259;
шаг 1 (друзья, Д): покрывают 87 имен - 0.14% от 61966
шаг 2 (ДД): 6967 имен, 6880 новых - 11.24%
шаг 3 (ДДД): 34531 имен, 27564 новых - 55.73%
шаг 4 (ДДДД): 53760 имен, 19229 новых - 86.76%
шаг 5 (ДДДДД): 56712 имен, 2952 новых - 91.52%

Последнее, по-видимому (визуализация дает гораздо, чем слепые цифры) покрывает практически всех в русском ЖЖ. Повторяясь, я полетал вокруг облака и пощелкал на иставшиеся красные точки и гроздья. Их мало, они дают нерусские nicks, выборочные проверки подтверждают представление (на самом деле я знаю как легко проверить строго, но (а) уверен в правоте (б) их мало, и результат они не изменят) == лень.)

Здесь мы взлетели вверх и смотрим на одну из веток, которой кончается крона дерева (корень на много "этажей" внизу). Построение начинается с интересного мне эстетически сухого дерева, в котором прорастают те самые "слухи" зелеными связями и оживающими зелеными вершинами, до которых они дотянулись.


--[Кстати, красивая картинка шага 1 здесь (сухое дерево, красивое, добавить 200кб траффика)]--




--[А на втором шаге зеленые елочки прорастают, красиво тоже, чего уж там, 200кб еще)]--





[*animated*] На третьем построении все наоборот: находясь где-то там же сверху и глядя на крону вниз (корень в общем скрыт, но где-то справа-внизу) мы наблюдаем что остается от полного дерева, какая его часть еще не затронута ползущей заразой.
Шаг 5 выпущен (потому что бесполезен, уже на 4м дотлевает красными улями когда-то зеленое дерево). Шаг один (первые 87 друзей) еще совершенно не видны; шаг 2 убирает некоторые связи и гасит зеленые вершины; дальше полная разруха и запустение.



[*animated*] Еще один вид на то же самое но без цветовой кодировки вершин. Они доберутся до вас, и очень скоро. По-моему, вышло удачно.

Здесь мы смотрим на то же дерево снизу. ТТакая маленькая плошка ближе к левому нижнему углу - это я и мои взаимные друзья. Я в центре, конечно, и на этом графе у меня самый первый номер в ЖЖ. Шаг 4 пропущен (картинка была некрасивая, а разницы снизу между шагами 4 и 5 нет никакой - к этому моменту щупальца дорастают до самых отдаленных вершин, здесь бои давно отшумели.
Еще две (статические) картинки если хотите:


--[ Красивая картинка шага 1 здесь (дерево снизу зеленые еще не пришли, около 200кб, ну да вы сами знаете ]--


--[ Все красивое, и зеленое. Шаг 4, к этому моменту щупальца зеленых тянутся к самым отдаленным вершинам, здесь внизу под сенью дерева все давно проросло.
200кб, ага. ]--


3. ВЫВОД, kind of


По результатам этого построения, я бы сказал, что
-- предположение об очень сильной связанности мира русского ЖЖ первое построение от преобладающе неизвестных, случайно подобранных постеров очень сильно подтверждает еще раз (не по принадлежности кругу интересов или ассоциации с "тусовками" общего круга друзей, что само по себе могло бы дать обманчивую картину). Все известнейшие имена присутствуют в первом построении (не показанном здесь) - если они не писали в воскресенье сами, а я просматривая данные тех 2112ти не видел чтобы там писали "большие", то в качестве "листьев" дерева, как чьи-то взаимные друзья.

Расстояние - диаметр русского ЖЖ - по-видимому,
не более 4 шагов для покрытия более 80% nodes и не более 5 для практически 100% покрытия. В силуэтого можно гарантировать, что любой достигнет любого за максимум 10 шагов, или 8 если он попадает в 86% большинство. На самом деле типичными должны быть указанные цифры - 4 или 5 - потому что визуализация "точнее" слепых цифр и показывает характер графа значительно лучше, чем вычисленные коэффициенты.

Визуализация - отличный инструмент, который в чем-то точнее подсчетов. То, что я здесь делаю является (инженерной прикидкой, конечно, но) для традиций какой-нибудь computer science полной ересью: мы смотрим на реальные данные и извлекаем из них соображения вместо того, чтобы постулировать модель и ее обсчитывать.
Вот пример из смеси математики и computer science:
...our approach consists of 3 basic parts: (1) embed resources as points in a metric space, (2) construct random graph by appropriately linking these points, and (3) efficiently locate resources by routing greedily along the edges of the graph
Наш подход состоит из 3 основных частей: (а) расположим ресурсы как точки в метрическом пространстве (б) сконструируем случайный граф соединяя их соответственно и (в) эффективно обнаружим ресурсы используя такой-то раутинг вдоль ребер графа

Я понимаю то, что рассмотрение на модели правомерно, если его правильно применять. Я понимаю возможные возражения против рассмотрения конкретных результатов (возникают вопросы общности результата, изменчивости построения во времени и т.д.). Думать надо правильно. Но отчего никто из них не посмотрит на реальные сетки социальных связей, из работы в работу "внося случайные изменения" в свое пространство в клеточку?
(Реальное построение отражает реальные сетки, которые P2P образовало бы если бы.. - это центральная идея и я буду писать об этом позже.)

Интересно, что введение всех связей больших из ЖЖ, не уменьшило диаметр значительно (однако я буду рассматривать это точнее в следующем построении об устойчивости к разрушению связей и выбиванию членов.. мм.. то есть выбыванию участников. Там кстати появится и первое построение как subset без самых сильных связей.)

В целом это прекрасный результат для жизнеспособности нашей инженерной идеи.



ПРОДОЛЖЕНИЕ СЛЕДУЕТ.
В следующий раз ( в эти выходные?) попробуетм оценить устойчивость ЖЖ к нарушению связей
( Первая часть здесь:
http://www.livejournal.com/users/muzyka_sfer/514.html )

Из камментов:
Цитата:
ignat
2005-04-28 01:02 pm UTC

Посмотрите: тут есть скрипт для вычисления расстояния между юзерами:
http://www.livejournal.com/community/ru_math/56169.html




muzyka_sfer
2005-04-28 07:03 pm UTC

пасибо, интересно.
Он в общем делает обычный harvesting по друзьям друзей (алгоритм у него описан) и из-за массивности связей довольно быстро находит результат. Насколько я понимаю (скрипт еще не прочитал), он с каждым новым запросом потенциально пополняет свою базу - это кучка легковесных fdata.bml файлов, из которых и я начинаю построения.
На самом деле, мои внутренние скрипты, которые покрасили граф как видно на картинках делают примерно то же самое (только считают с одного конца а не сразу с обоих) по сгруженным и обработанным parent lists из fdata.bml'ов

Его скрипт однако как многие простые цифровые оценки "слепой" - он сам задается вопросом - смотрите, из последних запросов на 3 шага прошлось столько-то, на 4 - столько, т.е. строит гистограмму, и пытается догадаться, что это ему может сказать о ЖЖ

Разумеется, хорошая визуализация может ответить на его вопросы и она намного мощнее - она сообщает больше информации, как явно, так и неявно.
На самом деле, лучшим ответом на вашу заметку было бы построение этого же графа с добавкой sachmet'a и окружения плюс засветившихся у него в обсуждении -

Я прикладываю особые усилия при сборе информации чтобы намеренно ограничиться русским ЖЖ. Взаимные друзья-иностранцы, например, у русских эмигрантов, на моем графе выглядят как оконечные листья (или как никуда не ведущие спицы из центра круга, в котором находится родительский список этого эмигранта). Эти концевые точки не станут образовывать массивных связей, загрязнение моего мира должно остаться минимальным - они не должны искажать общую картину.
Кроме того, мои построения показывают, что взаимные связи чрезвычайно культурно устойчивы.

При обсуждении скрипта, на который вы ссылаетесь один компьютерный человек нашел и отметил какие-то сбои (ошибочный подсчет), хотя сам алгоритм не вызывает сомнения и моя проверка дала похожий на правду результат.

В целом, спасибо за ссылку.

К сожалению, эти мои миры недоступны для того чтобы пощелкать и задать графам вопросы для читателей ЖЖ, но я их задавать могу и получаю массу удовольствия.
Может быть следует поместить "пролет" вокруг графа с залетем внутрь в тот момент, когда программа красит что0нибудь по смыслу чтобы дать почувствовать, как все это выглядит.




jescid
2005-04-28 03:04 pm UTC

> Отчего, ну отчего никто из них не посмотрит на реальные сетки социальных связей
а они давно посчитаны
картинки есть во фр. учебниках по социологии (они, естественно отличаются от ваших)
сходите во фр. коллеж при МГУ
ЖЖ не точно моделирует реальные (оффлайн связи) -
там такого распределения взаимных связей нет - в ЖЖ это следствие предоставленной технологии общения




muzyka_sfer
2005-04-28 04:58 pm UTC

в ЖЖ это следствие предоставленной технологии общения

Не согласен: ЖЖ стал успешен именно потому что его "технология" (списки друзей и их лента) оказалась естественной, т.е. не мешала общению.
Самая замечательная находка ЖЖ, собственно - натуральная структура, которая просто "не мешает".

То, что выросло без центральных поисковиков и т.д. - феномен естественного общения людей.
При этом очищенный от необходимости присутствовать физически, иметь особый доступ к и так далее.

(Ответить) (Уровень выше)(Ветвь дискуссии)


jescid
2005-04-28 05:18 pm UTC

> Не согласен: ЖЖ стал успешен именно потому что его "технология" (списки друзей и их лента) оказалась естественной, т.е. не мешала общению.

У вас взаимоодназначность в данной фразе нарушена Smile
1. ЖЖ стал успешен потому что технология быда удачна для общения - верно.
2. Но это ещё не значит, что он __естественным образом__ моделирует реальные связи.

> То, что выросло без центральных поисковиков и т.д. - феномен естественного общения людей

В этом смысле ICQ выросло столь же феноменально быстро (вообще это миметический (вирусный) тип распространения информации, ничего удивительного).
ICQ неплохо моделирует бинарные связи, но в нём нет возможности общения по типу конференций. Так что тоже "естественность" относительна.

Неестественность ЖЖ хорошо видна по вашей же модели. В реальности распределение связей несколько иное. Ограничено физической возможностью человека запоминать лица/имена (есть и др. ограничения). Поэтому число __взаимных__ связей одного лица в реальности меньше. И в целом (точно не помню, но не более порядка неск. 10ков лиц) мало отличается от некоторого среднего. В ЖЖ это не так.
Да и ещё есть детали и своя специфика, отличная от реальности.




muzyka_sfer
2005-04-28 05:27 pm UTC

(2) - мое представление из неких общих соображений, а не логическое заключение из сказанного в предыдущей фразе. Это не силлогизм, логика собственно лишь перефразирует, но никогда сама по себе не привносит в высказывание новое.

ICQ - всего лишь коммерческий вариант предыдущего традиционного интернет-механизма, который имел массу пользователей. Успех ублюдков в коммерческом использовании идеи - и вытеснении из сознания молодых представления о старом механизме, конечно, надо отметить.

Однако 'естественность' и 'неестественность' - почему физическая невозможность перелететь из Австралии в США, Индию и Москву для бесед с потенциально вам интересными людьми не должна считаться ограничением, но механизм, давший эту возможность должен называться "неестественным" - вопрос интересный, и мне не кажется, что вы правы.

При чем здесь "реальность" - т.е. ограничения физического общения - если Интернет впервые ОСВОБОЖДАЕТ общение от ограничений "реальности"
Мы с вами вкладываем в слова (не)естественный прямо противоположный смысл.




jescid
2005-04-28 05:40 pm UTC

1. почему ублюдки? Smile почему коммерческая идея?
В миранде (ICQ-клиент) нет рекламы. Сама технология p2p связи оказалась тем вирусом, который и распространился.
2. Про терминологию ваше замечание - возможно верное. Я естественным называю то, что в оффлайн и без технологического нормирования (опр-е "норма" - в математич. смысле). Прогулка по лесу - естественна. Полёт на самолёте - неестественнен, а пронормирован технологией ускоренного перемещения объекта в пространстве с помощью тех.средства.




vitus_wagner
2005-06-15 12:17 pm UTC

Потому что finger и talk были раньше. А jabber появился в параллель, и теперь он есть и будет есть. В нем кстати и с конференциями всё нормально.




kerrywohuc
2008-07-17 03:36 am UTC

Теперь все будет иначе. Эти 2 недели стали отсчетом его новой жизни.




muzyka_sfer
2005-04-28 05:40 pm UTC

Но это ещё не значит, что он __естественным образом__ моделирует реальные связи.

Дело еще в том, что я говорю "моделирует" в смысле той P2P модели, для поддержания которой нужен распределенный ЖЖ.
Оценка параметров ЖЖ проводится чтобы понять, будут ли работать программы для защиты информации
От оценок диаметра и устойчивости к разрушению связей (пользователь off-line, намеренная атака на систему, компьютерные проблемы и т.д.) зависит стоит ли вообще делать.

А implementation, если оценка подсказывает, какой раутинг применить и т.д. - чрезвычайно просто, потому что не нужно даже написания отдельных программ.
Нужна правильная конфигурация стандартных, которые поставляются как часть OS distributions плюс несколько скриптов.

(Ответить) (Уровень выше)




ясно
jescid
2005-04-28 05:46 pm UTC

по защите информации...
это интересно
против вирусов (как биологич., так и миметических) каж. ничего кроме антивируса (антитела - объекта, аннигилирующего вирус) и карантина не придумали пока Smile




kamenikrest
2006-04-22 01:34 pm UTC

>картинки есть во фр. учебниках по социологии (они, естественно отличаются от ваших)
сходите во фр. коллеж при МГУ

Будьте добры в этой части поподробней.



Если по теме...
jescid
2006-04-22 02:05 pm UTC

то см. lj_research
http://community.livejournal.com/lj_research/
(там на довольно высоком уровне статьи есть - на их pdf-ы как раз недавно давали ссылки)
про фр. коллеж - что именно? литературы по социологии на фр. во ВГИБЛ полно, а ссылки на неё - идёте на семинар/лекцию в коллеже - берёте за пуговицу преподавателя и получаете
в среднем в мире связность - 15 чел
в соц. сетях - в зависимости от состава -
у физиков ок. 4, у компьютерщиков - ок. 9



Re: Если по теме...
kamenikrest
2006-04-23 07:00 pm UTC

В research я давненько, но только там затрагивается исключительно математическая модель, именно социологической - в духе интеракционизма или системной теории - нет.




volodymir_k
2005-04-28 07:19 pm UTC

Про P2P не забудьте, что клиентский доступ браузером гораздо легче предоставления серверных услуг. Боюсь, что я не смог бы легко предоставить http (или какой ещё) сервер для своих читателей.



Это может быть так
muzyka_sfer
2005-04-28 07:34 pm UTC

.
.. в местах, где инфраструктура развита слабее. Там, где домашние пользователи в массе сидят на cable и DSL этой проблемы не возникает.

Наложение ограничений физической сетки, доступа к Интернету на идеальную структуру общения, показанную здесь, можно оценить как "разрушение", "помехоустойчивость" такого "идеального" P2P, полностью отражающего структуру неформальных связей.

Поэтому важна вторая оценка. Чего ждать если число связей упадет до 20% от идеального? Если временно будут недоступны "сильносвязанные" (популярные с множеством ВД)? и так далее.

Я еще не знаю ответа. Я делал одну прикидку с разрушением связей до 38% от реально существующих в русском ЖЖ по некоему подмножеству, но даже еще не оценивал распространение messages в такой ослабленной сетке.
Другими словами, нужно оценить изменение диаметра графа при (кажется, 3х) видах разрушений "идеального состояния" (социальные связи ЖЖ как они есть без помех), и при том убедиться, что вы смотрите на "типичные" случаи.




jescid
2005-04-29 03:45 pm UTC

хе-хе
м.б. уже попалось вам
http://www.livejournal.com/users/friendforall/




muzyka_sfer
2005-04-29 04:07 pm UTC

Да, harvesting информацию о русском ЖЖ (имя-первые пару строчек), я ее просматриваю и в курсе всех зараз, которые по нему за последние дни расползались. Wink)

Цитата:
take a look
(Анонимно)
2005-05-13 09:43 am UTC

Может поможет.

http://www.hpl.hp.com/research/papers/2003/email.pdf

Цитата:
И я попробую помочь, чем умею Wink
krolyk
2005-05-29 08:50 am UTC

мои скрипты иногда обманывались на особые знаки юникода (например, сердечки, которые американские девушки ставят гроздьями, или другими неанглийскими шрифтами — испанскими,немецкими. Я не совсем понял, где происходит заражение и постараюсь дочистить скрипты.

Думаю, проблема в использовании кодировки UTF-8: в ней символы с уникод-номерами больше 127 представляются в виде последовательности байтов переменной длины — потому недостаточно просто находить в тексте байты с такими-то значениями или даже комбинации байтов со значениями из заданных диапазонов (так, русские символы имеют уникод-номера 0х4хх, в UTF-8 каждый второй символ будет буквой Р — если по кодовой таблице 1251).
Такие алгоритмы будут давать ложные срабатывания: вы можете обранужить такие же последовательности байтов в каком-нибудь иегорлифе, который кодируется четырьмя байтами — ну и т.п.

Единственный возможный выход — плоный парсинг закодированной UTF-8 строки, перевод её в 16-битное представление и оперирование только 2-байтными словами.

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Ср Окт 20, 2010 10:17 pm    Заголовок сообщения: Ответить с цитатой

Пишет muzyka_sfer (muzyka_sfer)
@ 2005-05-07 22:35:00
Big Bang in a Small World - третья часть Портрета Русского ЖЖ
Big Bang in a Small World

http://muzyka-sfer.livejournal.com/1350.html
Цитата:
спекулятивные но практические рассуждения о геометрии русского ЖЖ
.
Рассмотрение русского ЖЖ методами естественных наук началось несколько сумбурной заметкой которая ввела проблему как я ее вижу и указала на методы рассмотрения - сбора информации и визуализации для получения оценок.

Через полторы недели после первой вторая показала на красивых построениях структуру графа ЖЖ (через движущиеся иллюстрации того, как в нем распространяется "идеальных слух"). Вторая (предыдущая) часть здесь
http://www.livejournal.com/users/muzyka_sfer/1093.html

Рассмотрение возникло из представления, что необходимо создать способ хранить "непотопляемую" информацию на Интернете. Сводки новостей постоянно подхлестывают: сегодня CNN пугает обывателей рассказывая о специальном законе, принятом в США для запрещения Internet Hunting, настоящего отстрела настоящих зверей через интерфейс в Интернете (и, разумеется, по американской традиции, противники запрета выдвигали главный козырь культуры политкорректности - защиту меньшинств (ваш запрет нарушит права инвалидов-охотников)).
Для иллюстрации ужасов неотрегулированного Интернета очевидных педофилов уже не хватает после международной облавы и ареста последних - 15? 30? - и честно говоря приедаются они, если каждый день. Между тем, где-то в ЖЖ мелькнула ссылка о наборе на оксфордскую программу по обучению/исследованиям "Internet governance": еще одно из многих указание на то, что проблема управления и юридической регулировки Интернета давно поставлена, фонды выделены, и она решается.

Поэтому - и к тому же следующие полторы недели истекли - можно продолжить рассмотрение структуры русского ЖЖ.

1. СБОР ИНФОРМАЦИИ

1.1 Во второй части были перечислены способы сбора информации о русском ЖЖ.
Чтобы не допустить искажения картины и заведомой всеобщей связности nodes, следует избегать хождения по друзьям-друзей-друзей как единственном методе сбора.
Самым объективным остается мониторинг новых постингов написанных по-русски. В первый день (23-24 апреля) было собрано достаточно данных, но скрипты выделяющие только русские посты оказались недостаточно надежны. В результате я остановил сбор после 24 часов и в построениях для второй части использовал dataset, составленный из:
- первых 12 часов "ловли" новых постов на русском (2112 порождающих имен, списки друзей которых, принесли больше); я наблюдал за поступлением информации и она во многом очищена "руками". Загрязнение ее постами на английском (и еще реже - на других языках, как испанский, немецкий, японский) - единицы процентов.
- внешнего списка из заметки какой-то журналистки об "известный людях (России) в ЖЖ"
- списка 100 самых популярных ЖЖистов из ljplus.ru
- друзей друзей двух ЖЖистов (идеей было использовать их как корневую и monitoring точки и хотелось иметь полную структуру их непосредственного окружения)

Полученный из примерно 2600 исходных имен/"родительких" файлов dataset в построениях дал граф с примерно 62.000 вершинами и 290.000 связями.

1.2 Через несколько дней, подправив скрипты, я сделал второй 24-часовой сбор информации. В этот раз он пришелся не на традиционно более медленные для русского ЖЖ выходные.

Во втором harvest я оцениваю засорение нерусскими ЖЖистами как единицы процентов, меньше 10 во всяком случае. Как отмечалось во второй части, (а) взаимные друзья культурно устойчивы да и барьер языка вряд ли преодолим (б) иностранные друзья русскоязычных ЖЖистов (из популярных на ум приходит, например, израильтянин avva)
http://avva.livejournal.com/
на графе выделены как оконечные "листья" без связей, и программа-визуализатор размещает заметным образом (в) попавшие в порождающее множество не связанные с остальным деревом, в основном иностранцы, алгоритмом построения дерева выносятся за пределы его русской кроны на красные трехступенчатые фальшивые ножки, "prop branches", и очень заметны и легко проверяемы (щеклкнуть мышкой, проверить имя в ЖЖ взяв неинтерактивно информационную страницу)

Самое большое построение по подмножеству полученных данных, которое вынес мой компьютер (недостаток RAM, extensive swapping as a result) представлено на графе с 245859 вершинами (людьми) и 979712 ребрами (взаимная дружба, почти на целый миллион дружбы).
Страница stats ЖЖ утверждает, что им известно порядка 160.000 плюс 18000 гарантированно русских; они скорее всего оценивали по информации на информационных/регистрационных записях:
( United States - 3498461 ... Canada - 243889 ... United Kingdom - 190848 ... Russian Federation - 160369 ... Australia - 85687 ... Ukraine - 17975 )
В таком случае, мои сборы имен, похоже, охватывают большую часть русскоязычной блогосферы ЖЖ.


2. СВЯЗНОСТЬ И РАСПРЕДЕЛЕНИЕ.

2.1 Из своих рассмотрений я могу сказать, что граф русского ЖЖ связен. Мне не удалось обнаружить сколько-нибудь значительных отдельных кусков. В наибольшем из построенных графов-миров, 245.859 nodes, "идеальный слух" от меня, например, доходит в самом большем построении до 207.627 nodes, покрывая примерно 85% графа. Это поведение типично, повторяемо для вычислений от других источников и годится для определения размеров наибольшей связной области. Вспомнив о некой загрязненности данных нерусскими ЖЖистами (не более 10% по моим прикидкам), мы можем видеть, что в русском ЖЖ все связаны со всеми.
Представление о русском ЖЖ как нескольких разных кусках неверно. Это один рой.

Мне кажется, что вряд ли также удастся представить ситуацию так, словно есть как бы "сгустки" пользователей, между которыми существуют более редкие "длинные" связи. Об этом ниже.

2.2 Во-вторых, для оценки наших сборов и свойств datasets следует посмотреть на распределения ЖЖузеров. На графике справа представлены распределения (гистограммы с шагом 10) числа количества ЖЖистов (y) от числа их взаимных друзей в интервале с шагом 10 (x). График нарисован линиями чтобы легче было читать. Шкалы логарифмические
Правая синяя линия показывает распределение по самому большому построению (245.000 ЖЖузеров) от порождающего списка из собранных через monitoring новых постов данным. Следующая влево красная - по подмножеству приблизительно 58300 из тех, на которых производились эксперименты этой части; это подмножество практически совпадает с использовавшимся в части 2 (с одним исключением).



Можно отметить, что:
(а) такие распределения принято приблизительно считать "степенными" (power-law); утверждается, что порождаемые ими случайные графы принадлежат к одному типичному классу (power-law (random) graphs).
(б) Все кривые похожи: малое число ЖЖузеров с большим числом взаимных друзей (группа справа-внизу, порядка 500-1000; ЖЖ стал с 2005 года обрезать число наксимальных друзей, и, следовательно, взаимных науровне 750) -- больше, но мало средних -- огромное число ЖЖузеров (которые впервые выяснил harvesting новых постов) с малым числом связей.
Такие кривые иногда называют распределениями с тяжелым хвостом.
Рост, прибавка новых имен произошла в первую очередь за счет средних и еще более малосвязанных никому не известных (шкалы логарифмические): кривая отодвинула тулово и хвост вправо, практически не ворочая пришпиленной справа головой. Кстати, в крайнее лево должен был попасть и весь случайный и несвязанный с русскоязычными блогами мусор, который на этом графике показан
(в) Две прямые показывают для сравнения степенные функции с показателями (-1.6), сиреневая, и (-2.5), зеленая.
(г) Если после второго дня сборов мы смотрим на более чем 200.000 ЖЖистов, то в отсутствие маловероятных сюрпризов, правая кривая скорее всего верно отражает распределение всего возможного русского ЖЖ.
(г) Подобие кривых означает, что подмножество, которое мы рассматривали в [часть 2] и продолжаем применять здесь верно отражает целое (красная и синяя кривые практически параллельны). На самом деле одна из фундаментальных особенностей графа ЖЖ в том, что в очень гибких пределах части ведут себя точно как целое. Об этом ниже.
(д) Похожее распределение было получено по результатам мониторинга Gnutell'ы ( вот и вся "скрытость" этих систем Wink) - я все же нашел статью тех, кто пытался описать граф P2P, правда цифры и графики там не дают общего представления как это делает визуализация, из-за чего в этой и других статьях о P2P и графах им на мой взгляд приписываются несуществующие свойства, ниже).
Результат для Гнутеллы косвенно подтверждает наш результат.

О таких графах принято считать, что они хорошо устойчивы к случайным помехам и слабоустойчивы к атакам на самые сильные связи. Что мы и рассмотрим.



3. УСТОЙЧИВОСТЬ К РАЗРУШЕНИЮ.

3.1 Еще раз об идее подхода
Мы оцениваем жизнеспособность распределенного ЖЖ. Напомню, гениальная моя идея была в том, что распределенные блоги нужны как слой для создания системы социальных связей, первая основная и абсолютно открытая функция, и делать их нужно распределенными, а не централизованными чтобы создать достаточные потоки обмена на стандартных HTTP, HTTPS. Это позволит существовать (отдельной от самих блогов) сетке для неубиваемой информации, плохо обнаружимой, т.к. она неотличима от открытого traffic'а и его patterns, и интегрированной в служебную структуру services и протоколов Интернета (точнее, в моем примере Веба), который отделить от законного и необходимого чтобы запретить или отменить легко не удастся.
Дело в том, что современные модели P2P наивны, могут быть обнаружены любым школьником за несколько минут, и как показывает практика, они дешевы для шантажа угрозой суда со стороны больших компаний (список имен им стоит что-то около 200 долларов). Озаботившись раздумиями как можно сделать, я не нашел возможностей для анонимных скрытых сеток которые при том были бы общедоступны и обеспечивали обзор и поиск информации, оставаясь притом защищеными от разрушения. Максимум достигнутого - анонимность и "deniability", т.е. ответ в суде, что человек не знает что автоматически вытворяет его компьютер, жалкая защита, когда судом в США рассматривается вопрос о запрещении "file-swapping services" как класса программ, т.е. полное введение наказания за сам факт использования. И на ежа сесть, и зад не уколоть не удается.
Об этом в четвертой части.

Для рассмотрения я решил, что ЖЖ - пример идеальной сетки социальных связей, которые возникли сами собой. Условно говоря, если принять, что взаимные друзья - это основа для обмена "непотопляемой" информацией (подробнее об этом допущении потом), то следует наше рассмотрение русского ЖЖ квалифицировать как идеальную модель, случай общения без помех.
"Идеальные слухи", которые мы пускали во второй заметке, описывают структуру графа и показывают предельно благоприятный случай. В реальности на описанную структуру, если бы она отражала устройство гипотетической распреденной блогосферы или P2P, накладываются ограничения. Например, пользователи, которые немогут оставить компьютер on-line 24 часа в сутки.
Как промоделировать такие ограничения? Что случится, если часть сетки, подлежащей физической Интернет-структуры, станет недоступна? При намеренных атаках, из хулиганства или в случае официально открытого сезона охоты на блоггеров?
Эти эффекты можно описать моделируя разрушение идеального графа общения.


3.2 Разрушение можно проводить по-разному

Во-первых, можно выбивать только связи - или вершины, с которыми уйдут все их связи. Я делаю второе, более жесткое разрушение. Во-вторых, можно разрушать:
- выбивая ЖЖузеров и все принадлежащие им связи случайно.
- Нападая на ЖЖузеров с определенными характеристиками
- По расстрельным спискам составленным по каким угодно критериям.

Ниже я покажу поведение сетки при (а) случайных выбиваниях и (б) при методическом убийстве верших с самым большим числом связей, что интересно в свете предсказаний в литературе о плохой устойчивости таких графов.
Правда, авторы статей делали simulations на искусственно сгенерированных случайных степенных графах. Мы посмотрим на реально сложившуюся сетку.

Чтобы наблюдать эффект воздействия, я буду использовать в дополнение к animation два вида графиков: количество охваченных ЖЖузеров при распространении "идеального слуха" от номера шага и размер предельно достижимого связного компонента от степени разрушения.
Наш dataset для третьей части (который совпадает с тем, что был принят во второй части с одним небольшим отличием; как мы согласились выше, он "типичен" в смысле распределения и верно представляет картину для полного русского ЖЖ) состоит из приблизительно 58000 вершин (и 265000 связей). Из них достижимы примерно 54700, т.е. более 90%. Как изменится соотношение при устранении вершин графа?

3.2.1 Для прикидки я посмотрел как поведет себя граф при случайном изъятии 20, 50, 80 и 90% вершин и их связей.



Первый график показывает как происходит "поджог" графа. Данные для случайных разрушений нормализованы, т.е. для сравнения на одном графике мы представляем, что полные размеры графов как бы остаются неизменными. По оси X отложены шаги распространения (поколения взаимных друзей, расстояния от порождающей вершины), по Y - количество вершин, которых достиг "идеальный слух".
Вспомните движущиеся визуализации из второй части (или см. ниже): вселенная русского ЖЖ резко "вспыхивает" на 3м и 4м шагах, заполняясь почти целиком.
Три почти вертикальных плотно лежащих кривых показывают этот процесс для полного графа (т.е. описывает процесс визуализаций из 2й заметки).
Поразительно, что после случайных разрушений характер процесса - резкие скачки и резкий "поджог" всей доступной части вселенной - совершенно не меняется. После 4-го шага охвачено 85-90% ЖЖузеров из доступной связной компоненты, и после 5го шага кривые становятся практически параллельными оси x, гореть больше нечему.
Высота "стола" показывает уменьшение относительного (графики нормализованы) размера доступной части.



Здесь (случайная серия отмечена зеленым цветом) верхняя линия показывает полный размер графа после изъятий, нижняя - ту его часть, которая остается достижимой для "идеального слуха", т.е. размер его связной (наибольшей связной) компоненты.
Они практически параллельны, наша вселенная усыхает, но связная компонента присутствует, только видимая ей часть графа занимает меньшую и меньшую его долю.
Другими словами совершенно замечательно то, что граф с точки зрения распространения в нем информации продолжает вести себя качественно "почти" по-прежнему. Случайная атака не приводит к мгновенному распаду на отдельные куски и/или не приводит к ситуации, когда вместо мгновенного "воспламенения", распространение стало бы более медленным.
Это совершенно замечательный результат. Структура графа социальных связей такова, что в очень больших пределах поведение части графа подобно поведению целого.
Визуализации [вставить сюда] по-прежнему показывают характерное поведение, показанное на движущихся картинках во второй части.

Отличия тоже есть и я о них расскажу ниже.

3.2.2 Как изменится ситуация если уничтожать ЖЖузеров с наибольшими связями?



Я сделал серию (см. картинку с распределением для понятности) с уничтожением ЖЖузеров с более чем 500, 300, 100, 70, 50 Взаимных Друзей, которых оказалось соответственно 74, 236, 910, 1302 и 1800.
Это - красные линии на графике выше. Видно, что убийство 1800 самых мощных вершин в нашем 58000 мире сужает пространство примерно так же, как выбивание 50% случайным образом.
На графике слева: верхняя линия показывает кривую для целого 58к построения без выбываний. Для строгости надо было бы строить распределение по всем ЖЖузерам, мы берем типичный пример хорошо соединенной вершины. Мы видим, что при атаках на самых больших, видимая часть графа для оставшихся резко уменьшается.
Однако и здесь поведение графа до уровня примерно 100 ВД качественно остается все тем же "поджогом", пока не остались самые малосвязанные (граф 70-50ВД и ниже) и самы многочисленные, тот самый "тяжелый хвост" распределения. Для них "взрыв" на 3-4 шагах превращается в более долгое "горение со вспышками" [здесь вставить более наглядную анимацию].

Сценарий, когда исчезают все большие возможен при преднамеренной атаке на сетку - в нашем примере достаточно убить 1800 чтобы резко сузить доступную часть и замедлить максимальную скорость распространения информации (повысить диаметр оставшейся доступной части графа) вместо сравнимых по воздейсвию 50-60% при случайном выбывании.
Сетки с малой интенсивностью -- как, возможно, американская часть ЖЖ, в которой я сильно не копался, но которая по сравнению с русской (а) демографически представлена 17-20летними (б) их миллионы (см. страницу статистики) (в) у них очень мало друзей, и еще меньше взаимных друзей по сравнению с русским роем -- возможно будут проявлять характеристики графа с выбитыми сильными вершинами. (конечно, полное ограничение на число общих друзей более 50 нереалистично, будет некая разношерстность, но характер по-видимому будет таким - резко сузившаяся видимая связная часть, больший диаметр, т.е. распространение информации требует большего числа шагов).


Понастроив этих графиков и анимаций, я решил, что с одной стороны они подтверждают те описания поведения "power-law random graphs", которые я смутно помнил, и с другой стороны когда остаются только nodes с 50ВД и меньше, изменения носят качественный характер.

Почему? Тут я пошел читать про "Малые Миры".



4. THIS IS A SMALL WORLD

4.1 История идеи "малого мира" широко известна и из популярной литературы и много раз пересказывалась в научных статьях.
Идее много лет. В 67м чтобы ее обосновать, социолог Милграм рассылал письма пытаясь прикинуть сколько шагов друзей друзей отделяют людей друг от друга и решил, что среднее значение 6 ( http://en.wikipedia.org/wiki/Small_world_phenomenon ).

Следующий шаг в понимании как образуется "малый мир" связывают с математиком Watts'ом. Математика не менее других видов интеллектуальной деятельности завязана на образы и метафоры, и Ваттс начал построения от картинки как бы клубков связанных более длинными редкими связями. При этом подспудно и психологически он нормой считал крайнюю регулярность - для него "нормальный" граф есть решетка вроде кристалла, отклонения от которой он ищет в своей модели для порождения графа со свойствами "малого мира". Построение он начинает с одномерного случая и рисует кольцо на котором расположены точки - распространение информации идет от соседа к соседу, и занимает много шагов. Он считает расстояния по решетке как бы естественными и объективными. Но если мы будем бросать случайно связи-спицы вдобавок к решеточному движению строго по окружности, то возникнет случайный граф со свойствами "малого мира".
Визуальный образ клубков соединенных длинными редкими или более редкими связями также постоянно возникает в его математике в виде введенного в качестве основного "коэффициента кластеризации".
Ваттс ведет обсуждение в терминах вероятностей, что, добавлю от себя возражение, на самом деле отражает не столько свойства малых миров, они могут быть порождены как угодно, хоть по своду строжайших правил в соответствии с указом китайского императора (об этом ниже), сколько (а) традицию относить рассмотрение к теории случайных графов (б) методику создания графов Ваттсом. Первое отчасти просто несет какую-то "гарантию" потому что вероятность здесь имеет по большей части смысл усреднения, средних значений, верных для множества конкретных исполнений.
Duncan J. Watts & Steven H. Strogatz развили эти представления, обнаружили что их правила генерирования порождают виды графов, которые встречаются в реальной жизни, и стали чрезвычайно популярны и цитируемы. Буквально каждая статья по Computer Science на предмет P2P начинает с повторения мантры о кольце и перекидываемых добавочных случайных связях и перечисления тех примеров графов "малых миров", которые дали W&S (граф нервной системы червя, цитируемости научных статей, электросистемы США, распространения эпидемий, директоров корпораций, с членством в более чем одном директорате); практически все в своих исследованиях пользуются сгенерированными на регулярных решетках со введенной случайностью построениями для опробования предлагаемых протоколов и т.д.
Одна мной обнаруженная статья, рассматривает реальный граф Гнутеллы, сравнивая его с результами Watts'а.

Второй чаще всего встречаемый мной в цитатах из Computer Science по вопросам P2P человек - Kleinberg. Он принимает без рассуждений модель Watts'а (иногда говорят Watts'а и Strogatz'а), но переформулирует проблему так: Milgram, Watts и т.д исследуя малые миры открыли не одну а две удивительные вещи. Первое, что мир так мал (6 шагов в эксперименте с письмами) Второе, что неочевидно - то, что в этом малом мире с короткими путями (от группы к группе) "через задворки" люди могут находить эти короткие пути. Далее он пишет работы (на языке математики) о том, какие алгоритмические системы поиска "коротких путей" можно придумать в "малых мирах".
Другими словами, Кляйнберг принимает безоговорочно "клубки" или "clusters" с подразумевается, но не говорится вслух, регулярной решеточной структурой, впрочем и весь мир имеет регулярную решеточную структуру с "естественными" для нее расстояниями по решетке - и более редкими "длинными связями" или "путями через задворки", которые вводят более быстрое распространение информации. Кляйнберг принимает безоговорочно необходимость случайности для порождения графов.
Кляйнберг утверждает, что общего алгоритма поиска для степенных графов нет, за исключением случая распределения второй степени ( число вершин L, и число их связей N [вставить формулу]).

Watts также занимается вопросом "просачивания" информации в подобных графах - т.е. исследует в точности тот процесс, идеальное без помех течение которого мы наблюдали в движущихся визуализациях. Продолжая держать в уме образ "клубков" соединенных длинными более редкими связями, которые превращают мир из "решеточного" с линейным ростом расстояний в "малый", он в статье о просачивании тратит немало усилий на введение неинтуитивных определений для вычисления размеров таких скученностей, а затем представляет распространение в графе как что-то вроде расходящихся сфер, которые могут расширяясь натыкаться на другие "соседства" и тем запускать их.
Вся его математика корчась обслуживает простой мысленный образ, который абсолютно не похож на то, что дает визуализация реального мира социальных связей.


4.2 Сомнения and speculations.

Польза этих теорий несомненна. Однако они основаны на ряде предположений и невысказанных психологических предпосылках, которые не обязательно верны. Поскольку сформулировав теорию, эти авторы генерируют для проверки случайные графы на компьютере по своим же правилам, изредка сравнивая интегральные характеристики с параметрами графов реальных малых миров, они в каком-то смысле ходят по логическому кругу, или варятся в своем собственном соку:

Random graphs with arbitrary degree distributions and their applications
M. E. J. Newman1,2 , S. H. Strogatz2,3 , and D. J. Watts1,4
arXiv:cond-mat/0007235 v2 7 May 2001

[...]In this paper we develop in detail the theory of random graphs with arbitrary degree distributions. [...] We apply our theory to some real-world graphs, including the world-wide web and collaboration graphs of scientists and Fortune 1000 company directors.
We demonstrate that in some cases random graphs with appropriate distributions of vertex degree predict with surprising accuracy the b ehavior of the real world, while in others there is a measurable discrepancy between theory and reality, perhaps indicating the presence of additional social structure in the network that is not captured by the random graph.

Одна из невысказанных предпосылок в том, что сгенерированный граф ведет вебя как бесконечный, и полученные для расползания параметры учитывают только первую фазу процесса, его нарастание (В. с небрежением говорит о "насыщении" когда что-то распространится достаточно сильно). В реальном мире любые сетки конечны.
Статью о распространении в степенных графах Watts называет "о просачивании в модели малого мира" (percolation, слово применяют в быту о процессе процеживания горячей воды через молотый кофе во время его заварки). Это придуманное представление завязано на традиции одного из подходов в математике (theory of percolation), но в той статье вне ее, в прямом смысле распространения информации по графу. Как я уже отметил, это совершенно не отвечает тому, что мы наблюдали на картинах расползания "идеального слуха".
(Note: "Идеальный слух" есть характеристика геометрия графа; иное поведение во времени будут показывать процессы например моделирующие заражение с задержками, вероятностью заражения, не все "соседи" подхватывают заразу, ограниченном периоде заразности (TTL) - но эти процессы на сети не есть, как "идеальный слух", характеристика самой сети. "Идеальный слух" - предельно достижимый максимум).



5.BIG BANG IN A SMALL WORLD.

Визуализация - сильнейшее средство, потому что, с одной стороны менее точная чем цифра, она более точна в том, что показывает больше всякого разного сразу и дает "целостную" картину.
Мы с вами находимся в лучшем положении - мы "это видели" - и виденное может нас натолкнуть на иную трактовку.

Во-первых, никакого "просачивания" в нашем р е а л ь н о м, а не сгенерированном мире нет за исключением серии с выбиванием самых сильных nodes, когда были оставлены только те, у кого меньше 50 взаимных друзей, которые демонстрируют качественно иное поведение. Переход к нему был постепенным, не резким, но оно к этому уровню уже меняется качественно.
В остальных случаях есть - как мы видим своими глазами - в з р ы в : шаг-два поджога, взрыв (2-3, иногда 4), выгорание мелких остатков.
Картина совершенно одинакова для сильно и слабо связанных вершин: для сильных взрыв начинается сразу, для слабых - после шага-двух "ползучего горения". Почему?
Выгорание: все nodes с > 50 ВД убраны;


Взрыв - полный граф;


(а) Последний кадр на первой анимации - красные вершины недостигнуты (больше. чем при 50% случайном разрушении); части дерева и вершины, устраненные при изъятии вершин не показаны
(б) Вторая анимация - Покрывающее дерево убрано для наглядности, (в отличие от случая (а), где на первых кадрах видны зеленые звездочки - реальные остатки дерева). Отдельно дерево не приведено, т.к. оно практически полностью покрывается (все становится зеленым, красные точко практически отсутствуют - см. часть 2 для уточнений)



[На графике - сравнение фронтов "горения" для построений из 245к вершин и 58к вершин; построение и распространение от одного и того же ЖЖузера. Можно получить одну из оценок (не обязательно нижнюю) диаметра наибольшего построения и величину (наибольшей) связной компоненты по отношению к размерам всей вселенной.
Несколько групп кривых для малого мира (58000 вершин) показывают: слева - nodes с большим числом связей, в которых взрыв происходит почти сразу, правее - те, которым нужен дополнительный шаг или два чтобы добраться "с окраин". Как только это происходит, развивается точно такой же взрыв. ЖЖузер "поликаров" оказался вне связной части и его размазало по оси X, видно много красного.
Очевидно, что несмотря на высокие скорости распространения, полное выгорание "большого мира" происходит за большее число шагов (диаметр очевидно есть функция числа вершин).
Качественно поведение 58к и 200к миров, однако, одинаково. Поведение графа остается таким же, как мы висели выше, и при очень больших случайных воздействиях, и при выбивании самых сильносвязанных вершин до некоего порога. Это - самый замечательный результат.]

Простое естественное и сразу приходящее на ум объяснение (имея в виду, что у нас ненаправленный граф): потому что правильную математическую модель можно построить учитывая не количества входящих и исходящих вершин - процесс полностью описывается количеством "новых" вершин, т.е. ведущих к еще не "зараженным".
Количества связей сами по себе представляют лишь верхний предел возможного числа путей к незараженным, и в самом начале процесса они все и используются (заметьте, что на последнем графике поджог 200к несколько шагов распространяется практически одинаковыми по величине скачками, т.е. скорее всего используя все доступные новые связи), но затем по мере взрыва-выгорания распределение как бы динамически модифицирует само себя: процесс надо рассматривать не на бесконечном машинно сконструированном графе, а в ограниченном пространстве (как все small world networks в реальной жизни), как горение/взрыв ограниченного количества вещества.

На самом деле, я думаю, что правильной и точной математикой для нашего графа (и класса подобных "малых миров" из реальности) будут дискретизированные уравнения взрыва или горения веществ вроде пороха (физика горения, а не детонации).
Я пока что нашел одну случайную русскую технологическую статью с описанием определения параметров взрыва/горения для какой-то их хрени, и графики изменения давления в камере очень похожи на наши пошаговые построения выше, с подобным режимом взрыва (они называют это "экспоненциальным режимом") и горения (они аппроксимируют пологое поднятие до разрыва мембраны линейной функцией).

Возможно, случайность не имеет отношения к природе "малого мира", т.е для порождения самоподобия и геометрии взрыва. Можно представить себе алгоритмический набор формальных правил создающий граф "малого мира" и избежать вызывающих раздражение порождений введением случайных возмущений в регулярную решетку. [Интересно, что уже написав это я увидел ссылку на автора, который именно так и поступил, тем мое интуитивное представление впрямую доказав - пойду найду его статью и почитаю - добавлю отзыв ниже]

Я не могу представлять этот граф как куски "регулярных" решеточных скученностей, clusters (или просто clusters соседей), соединенные более редкими "длинными" связями, т.к. мне не кажется, что в наблюдаемом мире в принципе удастся выделить однородные и "регулярные" области по каким-то разумным непротиворечивым критериям - решеточные структуры не норма, как показалось математику (хотя концептуально разделение представлений полезно).
Впрочем, можно было бы заменить тянущееся по традиции слово "решетка" на "структура графа обеспечивающая при распространении по нему сигнала минимальное число новых связей".

То есть:
1. Как я отмечал выше, первая главная особенность "малого мира" вроде русского ЖЖ, насколько я ее понял, в том, что граф устроен так, что его части подобны целому в очень широком диапазоне делений и недружелюбных воздействий. Это совершенно замечательное наблюдение с практической точки зрения.

2. Геометрия связей обеспечивающая "взрыв" есть его вторая главная особенность. При обеднении связей в какой-то момент взрыв заменяется горением, затем спорадическим "бегущим огнем" со вспышками там, где горючего больше, как подожженная сухая осенняя трава.

3. В-третьих, он представляет из себя одну гигантскую связную компоненту, покрывающую подавляющее число вершин.

Вне математических представлений все три сформулированные особенности поведения нашего мира в смысле скорости распространения информации и достижимом за 3-4 шага охвате чрезвычайно полезны для создания системы распределенных блогов и наводят на мысль, что простой раутинг "by rumour" с коротким TTL и другими методами предотвращения flooding может быть достаточным для построения помехоустойчивой работоспособной системы.

О конкретных соображениях о построении ее возможно в части 4.

На этом автор останавливается и делает заключение, что
Russian LJ, in a sense, is a real bomb. Wink)


* Random graphs with arbitrary degree distributions and their applications -- M. E. J. Newman1,2 , S. H. Strogatz2,3 , and D. J. Watts1,4
* Collective dynamics of `small-world' networks -- Duncan J. Watts* & Steven H. Strogatz
* Exploring complex networks -- Steven H. Strogatz
* Scaling and percolation in the small-world network model -- M. E. J. Newman and D. J. Watts
*Random graph models of social networks -- M. E. J. Newman D. J. Watts S. H. Strogatz
* The Small-World Phenomenon: An Algorithmic Perspective -- Jon Kleinberg
* Small-World Phenomena and the Dynamics of Information -- Jon Kleinberg
* The Small-World Phenomenon and Decentralized Search -- Jon Kleinberg
* The Small World Web -- Lada A Adamic
* Peer-to-Peer Architecture Case Study: Gnutella Network -- Matei Ripeanu
* Mapping the Gnutella Network: Macroscopic Properties of Large-Scale Peer-to-Peer Systems Matei Ripeanu, Ian Foster


P.S. Математическую интерпретацию этих результатов - обзор области и изложение иной порождающей модели, предложенной автором, которая интуитивно кажется верной и не вызывает такого отторжения, как Watts - можно найти здесь:
Statistical Mechanics of Complex Networks
Reka Albert, and Albert-Laszlo Barabasi ( arXiv:cond-mat/0106096 v1 6 Jun 2001 )
Barabasi (иногда используется оригинальное (венгерское?) написание с диакрическим знаком над вторым а, учтите при поиске), кажется, одно из центральных имен в теории случайных графов.
У него есть статья, рассматривающая percolation (для направленных графов) с картинкой фазовых переходов и оценкой величины показателя степени распределения для попадания в области разных режимов распространения:
Percolation in Directed Scale-Free Networks
N. Schwartz, R. Cohen , D. ben-Avraham , A.-L. Barabasi and S. Havlin
arXiv:cond-mat/0204523 v2 6 Aug 2002


Из камментов:

Цитата:
очень интересно
elephantum
2005-05-12 02:39 pm UTC

а какой диаметр графа (наибольшее расстояние между двумя вершинами)?
и среднее расстояние между вершинами?

про распределенные файлообменные сети на основе социальных связей я тоже думал возможно будет интересно.



Re: очень интересно
muzyka_sfer
2005-05-12 02:56 pm UTC

Диаметр очевидно вычивляется из графика роста (охвата вершин): для 58000 мира на 4м шаге покрыты более 80%, т.е. для этого числа русских ЖЖистов гарантированно диаметр графа не более 8 (для самых неудачно расположенных 2 вершин всегдя есть путь к корню - 4 шага - и затем подъем ко второй вершине).
Однако для большинства этот путь будет порядка 3-4-5 вершин. Для точного ответа следует построить график распределения. Среднее будет смещено в сторону более длинных шагов из-за степенного характера распределения степеней вершин (мелких много, намного больше, чем вершин с сотнями связей).

Очень малое число вершин попавших в наше построение лижит вне гигантской связной компоненты. Как показывают проверки, это в основном иностранцы, загрязняющие наш dataset.



Re: очень интересно
elephantum
2005-05-12 03:00 pm UTC

я бы с удовольствием поиграл с твоими данными. правда на вскидку я ссылок на них не нашел.

поделишься?



Re: очень интересно
muzyka_sfer
2005-05-12 03:14 pm UTC

Мои данные - файлы fdata.bml, которые представляют из себя описание графа в виде "родительких списков", т.е. файл по имени "elephantum" содержит в себе тех, кого е. считает друзьями (например, так:
< 1enchik
< zatmenie )
и тех, кто держит в друзьях его:
> eril
...
если я не перепутал направление стрелочек. Эти файлы бесполезно передавать друг другу, т.к. они маленькие (0-5кб) и элементарно берутся с LJ сервера, который от этого даже не кашляет.

Все остальное осмысленное делают скрипты на перле.
Единственное, чем может иметь смысл обменяться - это полные списки имен русского ЖЖ, которые я выяснил после 24 часов сбора и т.д. По ним можно взять fdata.bml (я использовал wget из примитивного цикла в shell script, вмест wget годятся еще много разных utilities) - и дальше начинать творить.

Если у вас есть более точная идея, чем именно можно было бы обменяться и что еще можно осмысленно посчитать давайте обсудим.

ПРИМЕР как забирать fdata.bml - under Bourne shell (I use bash) type:
for i in `cat ./my.file.with.names`; do wget -nc
http://www.livejournal.com/misc/fdata.bml?user=${i}; done




Re: очень интересно
elephantum
2005-05-12 03:39 pm UTC

да, действительно меняться нечем =)

мне было бы интересно посчитать нагрузки на сеть при волновых запросах (такие может генерировать распределенная файлообменная сеть) и возможно поэкспериментировать с механизмами автоматического регулирования нагрузки.

программу эту я узнал сразу. у нее очень характерные графы получаются.

вобщем спасибо. я буду повторять ваш подвиг под новым углом =)



Re: очень интересно
muzyka_sfer
2005-05-12 04:01 pm UTC

Дело благое Wink)
Может быть я смог бы вам сократить время въезжания в формат файла данных для Моржа, я посмотрю как написать README.

Деревья строить можно по разным алгоритмам, причем можно бессмысленно, просто как вешалку на которую повесят остальней связи, а можно осмысленно, как выражение некоего "routing algorithm", тогда встроенные в моржа показ соседей отсоящих на 2,3,4,5,..., показ только детей of a node и т.д. тоже приобретает смысл.
Последовательность построения дерева может выполнять роль "кластеризатора", группируя по осмысленному признаку и так далее.

Но покрывающее дерево имеет ограничения, которых нет у остальных аттрибутов - цвет, логические False and True, которые позволяют показывать или не показывать что-то на картинке.
Поэтому я смысл кодирую ими.
А дальше - фантазии полный простор Wink)

Несколько человек, группа из исследовательского центра ИБМ, пытается делать подобное с американскими ЖЖ блогами 17-летних (они и не подозревают о существовании принципиально иного русского мира), как я выяснил позавчера.
У них нет представления о более или менее стабильной структуре - они игнорировали сетку по принципу дружбы - на которой могут бегать движущиеся точки иллюстрируя динамику.
Они не додумались до применения Моржа.
Вместо этого они пытаются творить графы по именам тех, кто засветился в обсуждениях на какую-то тему (связи эти возникают как комментарии к посту - и исчезают через день-два), и хвастают, что придумали "новый способ анализа", т.е. рисование таких вот volatile relationships.
На самом деле это выглядит бледно, честно говоря. Но гранты они получают.

Моя первая мысль, что их творчество - ad hoc. У них не было ведущей идеи (как например построение распределенной системы обмена информацией), а потому они не знают за что ухватиться и начинают рисовать самое очевидное.
Может также быть, что их интерес именно к тем, кто хотя бы раз проявил себя в обсуждении на какую-то тему, и полное игнорирование структуры друзей, объясняется "партийным заданием" их проекта - как бы разведка, слежка, сбор информации о том, кто что говорит, либо для целей коммерции, либо - ИБМ большая - д потенциально для правительства, как, например, datamining гуглом.

Цитата:
можно поискать "центры влияния":
hojja_nusreddin
2005-05-13 07:17 am UTC

- афтары, посты, которые копируют/цитируют/заносят в мемориз
- посмотреть, как расходятся волны по времени.
- динамика комментов: отношение получено/послано
Smile

Цитата:
muzyka_sfer
2006-05-02 04:16 pm UTC

Нет, потому что констатация того, что ЖЖ - малый мир не есть научный результат, на соответствия были проверены множество объектов (например, слова человеческого языка), описания поведения и аналитический вывод параметров малого мира сделан, хотя не очень давно, и известен в теории случайных графов.

Я это сделал потому что разбирался - и с ЖЖ и с результатами описаний Малых Миров - сам. Целью моей было понять что это за штука с тем, чтобы инженерно прикинуть как следует разрабатывать:
(а) систему распределенных блогов.
(б) скрытую под ними систему сохранения и передачи "неубиваемой" информации - под которой я имел в виду прежде всего книги, статьи и проч., а не склады мусорной музыки в mp3.

Вторая цель пожалуй недостижима, учитывая сегодняшнее состояние технологии следилок, хотя отдельные "разговоры" и пересылки под распределенными блогами могли бы "теряться".
Первая цель, распределенные блоги, ради помехоустойчивости, ухода от цензуры провайдера/хозяина компании (но не от цензуры со стороны государства, Большого Брата) - и/или ради снижения нагрузки на серверы компании-провайдера и удешевления затрат на поддержание системы блогов в экономических целях достижима.
Сделанная оценка делает инженерное конструирование возможным (вместо лабания программ вслепую и потом подгонки по ходу без понимания что же получилось).

Ну и я не уверен что серьезный журнал принял бы такие оценки в качестве статьи.

Цитата:
muzyka_sfer
2006-05-02 08:42 pm UTC (ссылка)
Да и кстати я читал ваш труд, карта-результат замечательна по своей наглядности.

Авторы всех 3х интересных исследований ЖЖ, которые я видел в
[Error: Irreparable invalid markup ('<lj-user=lj_research>') in entry. Owner must fix manually. Raw contents below.]

Да и кстати я читал ваш труд, карта-результат замечательна по своей наглядности.

Авторы всех 3х интересных исследований ЖЖ, которые я видел в <lj-user=lj_research>, кстати, разговаривают по-русски.
Необъяснимый парадокс Wink)))



popunder
2006-05-03 06:59 am UTC
Спасибо, нашли себя на карте? У вас есть друг fuzzie
http://fuzzie.livejournal.com/
не из русскоговорящей коммьюнити Smile.

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Пт Окт 22, 2010 7:37 pm    Заголовок сообщения: Ответить с цитатой

Система мониторинга и анализа СМИ
в режиме реального времени

http://www.mlg.ru/
Цитата:
Федеральные, региональные, зарубежные и отраслевые издания
ТВ, радио, пресса, информагентства, интернет и блоги


Самые цитируемые СМИ - сентябрь 2010
http://www.mlg.ru/smi/ratings/1775/

Компания "Медиалогия" составила рейтинги цитируемости российских федеральных СМИ за сентябрь 2010 года.



Впервые на первую строчку поднялся журнал The New Times, переместившийся на две позиции вверх. В издании было опубликовано интервью с супругой господина Лужкова главой компании "Интеко" Еленой Батуриной, которое вызвало особый интерес у СМИ.



В сентябре СМИ активно обсуждали разоблачительные фильмы "Дорогая Елена Николаевна" и "Дело в кепке", которые анонсировал и демонстрировал НТВ, что позволило этому каналу удержать второе место в рейтинге. В свою очередь Юрий Лужков в интервью телеканалу РЕН (+2) отметил, что не намерен уходить в отставку из-за критики в СМИ.

Самое заметное перемещение в медиа-рейтинге у канала ТВ Центр (+5). В программе "Постскриптум" выступили сторонники Лужкова, а до начала "информационной войны" Юрий Лужков выступил в эфире канала по поводу незаконной парковки около ГД РФ.



Среди журналов в ТОП-10 августовского рейтинга вошел Русский пионер (new). СМИ сообщали, что премьер-министр РФ Владимир Путин написал колонку для этого издания, в которой объяснил, почему ему нравится общаться с учеными, и рассказал о том, чем ему нравятся "мероприятия с участием фауны" и как решаются в таких случаях вопросы безопасности.



Основой для построения рейтинга самых цитируемых российских СМИ стал Индекс Цитируемости (ИЦ) "Медиалогии"*. Рейтинг построен на основе базы СМИ системы "Медиалогия", которая включает на данный момент более 4 900 влиятельных источников РФ: ТВ, радио, газеты, журналы, информационные агентства, Интернет-СМИ и блоги. В данный рейтинг вошли российские СМИ федерального уровня, отраслевые СМИ при подсчете не учитывались.



Период исследования: сентябрь 2010 года.


Цитата:

Технологии
http://www.mlg.ru/technologies/about/
Система состоит из базы СМИ и автоматизированного аналитического модуля, который позволяет проводить самостоятельный поиск и анализ по количественным и качественным характеристикам за любой заданный период. Результаты доступны мгновенно.


Технологии аналитического модуля основаны на принципах математической лингвистики, а это значит, что предварительно все тексты "прочитываются" компьютером.


В текстах автоматически выделяются объекты.


Далее система определяет цитируемость СМИ, в котором появилась статья.


Также учитываются следующие параметры:

номер полосы или время выхода сюжета
размер статьи
наличие фотографии
главная или эпизодическая роль объекта
упоминание объекта в заголовке
наличие прямой речи
характер упоминания: негатив, нейтраль или позитив


Цитата:
Объектный поиск
http://www.mlg.ru/technologies/objects/
В системе наряду с контекстным применяется объектный поиск.



Объект в системе - это публичное физическое или юридическое лицо, наиболее часто упоминаемое в СМИ. Каждый объект для удобства сопровождается краткой справкой.



В объектах учитываются все возможные варианты написания слова, включая аббревиатуру, латиницу и даже типичные ошибки. Также принимается во внимание контекстное окружение объекта.



Например, для поиска всех упоминаний компании PricewaterhouseCoopers по объекту нужно просто указать в поисковой строке Price. Будут найдены сообщения со всеми вариантами написания компании: "PricewaterhouseCoopers, PwC, Pricewaterhouse Coopers, Pricewoterhouse Coopers, ПвК, Прайсвотерхаус Куперс, ПрайсвотерхаусКуперс" и так далее.



Для точного определения омонимичных объектов, например, для Сергея Иванова, учитывается лингвистическое окружение объекта. Таким образом, система позволяет легко отделить упоминания Иванова - вице-премьера от Иванова - депутата Государственной Думы РФ, а гостиницу Метрополь от одноименной инвесткомпании.



Благодаря наличию в системе объектного поиска достигается высокая точность результатов поиска (98%). С одной стороны, объект будет гарантированно найден, даже если возможны различные варианты его написания или названия. С другой стороны, минимизируется информационный шум.



В Медиалогии содержится более 27 500 объектов в ключевых отраслях российской и мировой экономики, политики и общественной жизни.


Цитата:
Индекс информационного благоприятствования (ИИБ)
http://www.mlg.ru/technologies/iib/


ИИБ® - показатель системы Медиалогия, предназначенный для качественного анализа СМИ с учетом влиятельности СМИ, яркости и характера упоминания.



Индекс рассчитывается автоматически с применением технологий лингвистического анализа по методике, разработанной компанией "Медиалогия" совместно с учеными-математиками и аналитиками масс-медиа и PR.



Значение ИИБ® определяется для каждого объекта (компании, персоны, бренда) в каждом сообщении СМИ. При расчете учитываются показатели:
влиятельность СМИ (1);
яркость сообщения (2);
яркость объекта (3);
характер упоминания (4).

Индекс может колебаться от -1000 до +1000 для каждого сообщения СМИ в зависимости от позитивного или негативного характера упоминания. При анализе ИИБ® за период все индексы по всем сообщениям СМИ с упоминанием объекта суммируются. Чем выше индекс, тем более ярко и позитивно представлен объект в СМИ.



1. Влиятельность СМИ



При расчете Индекса влиятельности СМИ анализируется цитируемость изданий в других СМИ. При этом учитывается влиятельность тех СМИ, которые ссылаются на данное издание. Чем чаще источник информации цитируют влиятельные издания, тем выше его Индекс влиятельности.



Индекс влиятельности СМИ - показатель в интервале от 0,001 до 1. Значение индекса обновляется ежеквартально.



2. Яркость сообщения



Яркость сообщения позволяет выявить публикации, привлекающие наибольшее внимание в каждом выпуске СМИ. Показатель учитывает расположение публикации на странице или время выхода передачи в эфир (прайм-тайм), объем материала, площадь иллюстраций, размер и экспрессивность заголовков.



3. Яркость объекта



Яркость объекта отражает масштаб упоминания объекта в каждом сообщении СМИ. На показатель яркости объекта влияют:
роль объекта в сообщении - эпизодическая или главная (публикация посвящена объекту);
количество упоминаний в тексте сообщения, упоминание в заголовке;
наличие прямой речи объекта;
наличие объекта на фото.

4. Характер упоминания



Характер упоминания - это положительная, нейтральная или отрицательная оценка, отражающая тональность упоминания для каждого объекта. Характер упоминания объекта оценивается по двум параметрам:
оценка факта;
тональность.

Разделение фактической и эмоциональной оценки позволяет более точно определить итоговый эффект публикации. При этом оценка тона оказывает большее влияние на

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Вс Окт 24, 2010 12:58 pm    Заголовок сообщения: Ответить с цитатой

Ответ на незаданные вопросы.
По поводу выложенных выше портянок с графами структур ЖЖ.

Идея такова:
Построить аналогичные графы для госструктур(госголема).
Оценить возможные ошибки постоения графов.
Выявить вершины и узлы графов.
Оценить устойчивость полученных сетей.
_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Добрый



Зарегистрирован: 26.10.2009
Сообщения: 1387
Откуда: Советский Союз

СообщениеДобавлено: Вс Окт 24, 2010 1:12 pm    Заголовок сообщения: Ответить с цитатой

Каким образом? Существуют ли таблицы с необходимыми для построения графов характеристиками?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Вс Окт 24, 2010 2:08 pm    Заголовок сообщения: Ответить с цитатой

Полных(непрерывных) массивов данных, думаю, ни у кого нет, даже у "Research and Development (RAND) Corporation".

Делается иначе(в том числе и RAND):
Строится математическая модель структуры госголема(или, там, ЖЖ и т.п.) а потом при помощи "вбросов" проверяется реакция реального объекта и мат. модели, на основании которой построен граф.

В этой связи интересна роль некоторых событий в нашей сегодняшней реальности как "тестовых воздействий", для проверки текущей версии мат. модели реала.

Эти идеи выявились в результате изучения цифр статистики в статьях косарекса(авантюриста, хазина и т.д.).
Плюс материалы по развалу СССР.

Жонглируя несвязанными статистическими данными, можно показать всё что угодно.
(например - что Китай Великая Держава а США - страна третьего мира Laughing, что доллар "падает", или доллар "растёт" Laughing )

В СССР работы по моделированию госструктур и созданию соответствующей АСУ(госголем без чиновников!) сначала были засекречены а затем свёрнуты.

Аналогично на ФИГШ. Тему начали и закрыли.

У Галковского - всё выродилось в литературное творчество.

Переслегин(СБП) окончательно съехал в изотерику.

Пример
Конец срача у косарекса о достоверности стат.данных и об их(стат.данных) интерпретации:
Цитата:
Re: Комплимант на комплимант продолжение
From: kosarex
Date: October 22nd, 2010 07:06 am (UTC)
http://kosarex.livejournal.com/526599.html?thread=2974983#t2974983

Задумов, вы уже работаете на публику и пытаетесь играть на её неосведомленности.
Скажем, выше вы утверждали, что не знаете, как обращаться ко мне, хотя я был не раз в клубе Утят, встречался с вами лично, всем представился и т.д.
Забыли - спросите у других мою фамилию.

Или сейчас цитирую Вас - А что если эти цифры означают, что экспорт упал с 40 до 9 процентов? - Интересное замечание для профессионального маркетолога, когда ещё этой весной весь мир отмечал, что КНР обогнала ФРГ по экспорту и стала второй экспортной державой в мире.
Вы уже сознательно врете, пытаясь вывести меня из себя.
Зря.
Ваша доверчивость к аналитикам, которые гнали волну дезинформации, и обида, что я на этих аналитиков не купился, ваша личная проблема.

По поводу "утят":
Цитата:
Есть три кита
filin7
20 марта, 23:05
http://filin7.livejournal.com/283553.html

<...>
...Галковский ведёт какой-то клуб утят (это вне интернета, в Москве где-то, с живыми людьми и утками) и проводит встречи "на общем форуме Гудилапа" (я об этом ничего не знаю), а пару лет назад он добивался встречи с английской королевой, которой писал длинные письма, согласовывая детали (суть послания не запомнил, кажется, там прошение).
<...>

Дмитрий Галковский
ДРУГ УТЯТ
http://gudilap.ru/film.htm


http://gudilap.ru/forum/forum.asp?frm_location=22

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ
http://gudilap.ru/zavo.htm

Цитата:
Как стать утёнком?




Естественно, можно не успеть к часу Х(БП).
Laughing
Будем оптимистами - можно надеятся, что полученные знания пригодятся кому-то в будущем.
_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Вс Окт 24, 2010 4:35 pm    Заголовок сообщения: Ответить с цитатой

Структурирование, построение графа по вбросу, например "лагерь Дон" или "Приморские Партизаны" позволяет выявить "центры влияния" в жж.
Тролли и "профессиональные ники" вычисляются сразу.

Например, решить вопрос о "никах подержки".

Поиск по ключу
Вот еще видимо пропагандистский блог для русских в Чечне под эгидой академика Кадырова
http://www.google.com/search?client=opera&rls=ru&q=%D0%92%D0%BE%D1%82+%D0%B5%D1%89%D0%B5+%D0%B2%D0%B8%D0%B4%D0%B8%D0%BC%D0%BE+%D0%BF%D1%80%D0%BE%D0%BF%D0%B0%D0%B3%D0%B0%D0%BD%D0%B4%D0%B8%D1%81%D1%82%D1%81%D0%BA%D0%B8%D0%B9+%D0%B1%D0%BB%D0%BE%D0%B3+%D0%B4%D0%BB%D1%8F+%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%B8%D1%85+%D0%B2+%D0%A7%D0%B5%D1%87%D0%BD%D0%B5+%D0%BF%D0%BE%D0%B4+%D1%8D%D0%B3%D0%B8%D0%B4%D0%BE%D0%B9+%D0%B0%D0%BA%D0%B0%D0%B4%D0%B5%D0%BC%D0%B8%D0%BA%D0%B0+%D0%9A%D0%B0%D0%B4%D1%8B%D1%80%D0%BE%D0%B2%D0%B0:&sourceid=opera&ie=utf-8&oe=utf-8
результат:
Цитата:
Исход русских с Кавказа – угроза для целостности России | Русский ...
5 апр 2010 ... Вот еще видимо пропагандистский блог для русских в Чечне под эгидой академика Кадырова:
http://oleggrozny.livejournal.com/. [ответить] ...
http://www.rus-obr.ru/ru-web/6247
- Сохраненная копия
(Примечание us998: этот коментарий там сразу зачистили, в том числе и из гугловского кэша)

http://www.rus-obr.ru/ru-web/6247#comment-31807
Прохожий
#27, 06/04/2010 - 13:41

Резюмирую это так: оружие и мы можем держать не хуже чем они, мы прирожденные солдаты, на нашей стороне вооружение и организация - против силы им никакая борзость не поможет, как не помогла в 1995-1996 и в 1999-20.. годах. Проблема в головах, пока не будет вот так вот, мы продолжим бежать от них:

http://kara-banoff.livejournal.com/34134.html

А мы бежим, просто бежим. Отдельное спасибо за расказачивание Соввласти...

Оффтоп.

Вот нашел кое-что интересное про нынешний Грозный:

http://kara-banoff.livejournal.com/26457.html

http://kara-banoff.livejournal.com/35435.html

http://kara-banoff.livejournal.com/34324.html
>>>


http://kara-banoff.livejournal.com/
http://chet-nik.livejournal.com/

Всемирный конгресс чеченского народа
Oct. 15th, 2010 at 12:44 PM

http://oleggrozny.livejournal.com/10643.html
Цитата:

ДЛя справки: Руслан Хасбулатов и яSmile

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Добрый



Зарегистрирован: 26.10.2009
Сообщения: 1387
Откуда: Советский Союз

СообщениеДобавлено: Вт Ноя 02, 2010 10:42 pm    Заголовок сообщения: Ответить с цитатой

Пример сбора статинформации:
http://redforum.s2.bizhat.com/viewtopic.php?p=8398#8398
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Пн Май 23, 2011 7:40 pm    Заголовок сообщения: Ответить с цитатой

Цитата:
Размеры половых членов по странам мира
http://ukhudshanskiy.livejournal.com/970949.html

Countries Average Penis Size
http://everyoneweb.com/worldpenissize/


+ таблица размеров по государствам мира.
Via procol_harum

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Пн Ноя 21, 2011 4:56 pm    Заголовок сообщения: Ответить с цитатой

Карта недели: пашни Земли
21.11.2011

http://ttolk.ru/?p=8213
Цитата:

Увеличение площадей пахотных земель в мире прекратилось, а рост населения продолжается. Наиболее сильно дефицит продовольствия в ближайшие годы будет ощущаться в Китае – там уже на человека приходится всего по 0,08 га пашни. Единственный резерв земель сохранился только в России.

Вверху – карта NASA, наблюдения американцев со спутников за динамикой распашки земли в 2004-2009 годах. Жёлтым обозначены «долгосрочные пашни», коричневым – территории, испытывавшие засуху в период наблюдений.

Наибольшая площадь пашен в мире приходится на США – 179 млн. га. Далее идут Индия (170 млн. га), Китай (135 млн. га) и Россия (130 млн. га). Неудивительно, что лидером по сбору зерновых и зернобобовых являются США – 500-550 млн. тонн ежегодно (из них 300-350 млн. приходится на кукурузу, на пшеницу – до 70 млн. тонн, остальное – ячмень, овёс, соя и др.) Это позволяет экспортировать Америке до 100 млн. тонн зерна ежегодно.

Однако более правильным будет учитывать не только площадь пашен, но и сколько обрабатываемой земли приходится на 1 человека в той или иной стране, также сбор зерновых на душу населения.
+++
+++
далее читать по ссылке оригинала

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
us998



Зарегистрирован: 05.12.2009
Сообщения: 8248
Откуда: СССР

СообщениеДобавлено: Чт Ноя 24, 2011 7:47 pm    Заголовок сообщения: Ответить с цитатой

Все они - дети лейтенанта Шмидта
monetarista wrote in [info]aftershock_2
November 21st, 23:45
http://aftershock-2.livejournal.com/98211.html
Цитата:
Оригинал взят у [info]monetaristaв Все они - дети лейтенанта Шмидта
http://monetarista.livejournal.com/25866.html
Я долго искала эти данные, нашла, наконец, в статистике ОЭСР. Сумма балансовых и забалансовых пассивов развитых стран. Балансовые-то все мы знаем, а вот забалансовые - с этим сложнее, у каждой страны свои тараканы в черной бухгалтерии, но кое-как посчитали. И вот что насчитали. Оказывается, народ парится из-за Испании с Италией почем зря. Италия вон сапог нашьет, а Испания хамона и вина наделает в счет долга - и все будут счастливы. А вот у этих, с рейтингом ААА - у тех реально проблемы, чисто ну очень большие.

Красненьким - пассив, то есть долги официальные, а синеньким - белая и черная бухгалтерия вместе. Проценты сверху рассчитаны от имеющегося ВНП.

А это вот гарантия того, что долги никогда выплачены не будут - это математически невозможно. График маргинального роста ВНП по отношению к росту суверенного долга. Цифры для США. Для Европы разница невелика будет. Если в середине 60-х прирост долга на 1 доллар давал рост ВНП в размере 90 центов, то ныне рост долга уже вызывает СОКРАЩЕНИЕ ВНП.

То есть проблема долга по определению будет решаться другими методами, нежели какая-то там экономия бюджета. И те, кто решает, и те, кто утверждает это решение, знают, что это все туман для отвода глаз. Галдеж, 3.14-здеж и провокация. Не из чего там отдавать по определению.


Цитата:

nick13_spb
2011-11-22 03:28 pm (UTC)
Да, долг платежом красен))

Киньте плиз ссылку на первоисточник по расчёту забалансовых пассивов.



monetarista
2011-11-22 04:16 pm (UTC)

Закрытый репорт Креди Сюисса, запостить первоисточник не могу. Исходные таблицы в открытом доступе на www.oecd.org., но там их много и необходим пересчет и выстраивание графиков, что Креди Сюисс и сделал.

_________________
новый http://9e-maya.com/index.php?action=forum
резерв http://9e-maya.org/forum/index.php
http://www.igstab.net./
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
Показать сообщения:   
Этот форум закрыт, вы не можете писать новые сообщения и редактировать старые.   Эта тема закрыта, вы не можете писать ответы и редактировать сообщения.    Список форумов Война -> Геополитика Часовой пояс: GMT
Страница 1 из 1

 
Перейти:  
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах


Powered by phpBB © 2001, 2002 phpBB Group
subRed style by ktauber
Web Hosting Directory

Free Web Hosting | File Hosting | Photo Gallery | Matrimonial


Powered by PhpBB.BizHat.com, setup your forum now!
For Support, visit Forums.BizHat.com