суббота, 14 февраля 2009 г.

Политики, корреляция и k среднее




С Димой проводили эксперимент, хотели связать политиков с остальными словали. Взяли одну неделю, взяли решетку по политикам, сделали контекст из слов без политиков, без war, blog, democra, kerry, и bush. Выбрали 20 наименне коррелируемых признаков, построили решетку, потом использовали эти слова, как центры для метода k средних. Получили 20 кластеров и построили решетку.

Рашили экстенсионально сравнить контексты. Получили, что понятия из решетки по политикам не связаны с понятиями из других контекстов. То есть можно предположить, что политики - это одна отдельная тема, а остальное - это другая тема, скорее всего про войны.

И тут еще странность, сравнили контексты по корреляции и по группам. Получилось, что понятия с каким-нибудь словом, не связано с группой, которая содержит это слово, но при это связана совершенно с другими группами. 

2 комментария:

  1. Правильно я понимаю, что "контексты по корреляции" --- это "Выбрали 20 наименне коррелируемых признаков, построили решетку", а "контексты по группам" --- это "Получили 20 кластеров и построили решетку"?

    Приведите, пожалуйста, примеры "странности", т.е. какое слово "контекста по корреляции" оказалось связанным с какой группой "контекста по группам".

    ОтветитьУдалить
  2. Правильно поняли)
    mexico[1]
    =(['september']
    =(['technology']

    global_warming[1]
    =(['gay']
    =(['foreign_policy']
    =(['abortion']
    =(['human_right']
    =(['jewish']
    'jewish[1]'
    =(['september']
    и так далее. Правда здесь связность без порога на размер пересечения. С порогом мало связей получается.

    ОтветитьУдалить