суббота, 4 апреля 2009 г.

Довел до ума фильтр слов. Вроде неплохо работает. Убирает слова, в которых мало букв, слишком длинные или короткие. Пытается разбить слово на несколько. Код структурирован лучше предыдущей версии.
Пример:
 Было:
246 Map 4930647 1 2007-09-02 16:36:38
246 Social_Software 4930647 1 2007-09-02 16:36:38
246 Web 4930647 1 2007-09-02 16:36:38
467 O.O 4622656 1 2007-09-02 21:34:34
467 europe 4622656 1 2007-09-02 21:34:34
20 by:OscarBronner 4787854 1 2007-09-03 05:51:15
20 fundamental-rights 4787853 1 2007-09-03 06:13:22
870 web2.0 3492253 1 2007-09-03 09:21:55
Стало:
246 map 4930647 1 2007-09-02 16:36:38
246 social 4930647 1 2007-09-02 16:36:38
246 software 4930647 1 2007-09-02 16:36:38
246 web 4930647 1 2007-09-02 16:36:38
467 europe 4622656 1 2007-09-02 21:34:34
20 oscar 4787854 1 2007-09-03 05:51:15
20 bronner 4787854 1 2007-09-03 05:51:15
20 fundamental 4787853 1 2007-09-03 06:13:22
20 rights 4787853 1 2007-09-03 06:13:22
870 web2.0 3492253 1 2007-09-03 09:21:55

Может он пригодится Никите, если он будет работь с новой бибсономией.

среда, 11 марта 2009 г.

Кластеризация признаков




Дабы немного отдохнуть от учебы, решил немного попрограммировать. Написал прогу, которая кластеризует слова из американских блогов. Сначала по контексту составил матрицу схожести слов - матрица слова-слова в которой "1" ставилась, если пересечение блогеров, которые использовали эти слова больше половины их объединения. Потом из полученной матрицы получал группы. Из каждой пары связных слов (из каждой "1" в матрице)  создавал группу, состоящую из этих двух слов и слов, всязных одновременно с ними обоим. 
Проделал все это с данными за одну неделю (78-84 дни) неделю. Получил такие 23 группы:
dollar financial
wall_street september french vietnam california national_security
terrorist peace violen threat terror islam
soldier terrorist peace violen
huckabee mitt_romney  giuliani john_mccain
hillary_clinton barack_obama
jewish palestin gaza
israel palestin
bush democra democrats
republicans democrats
afghan iran
bush iraq democra
vietnam national_security veterans french
california national_security
terror security terrorist
military terrorist threat
soldier peace
faith christian
military bush iraq
threat military security iraq
terror military security
jewish gaza
vietnam veterans  french
Создал контекст, в котором признаками были слова, а объектами - номера групп
Получил такие решетки:
1.  со всеми 23 группами
2. если выкинуть группы, состоящие из 2 слов (осталось 14 групп).
3. если из оставшихся 14 групп выбрать 7 наиболее устойчивых: 

Устойчивость считал как количество пар признаков, которые порождают эту группу, деленное на кол-во различных пар в группе. Вроде получаются логичные вещи.

суббота, 14 февраля 2009 г.

Политики, корреляция и k среднее




С Димой проводили эксперимент, хотели связать политиков с остальными словали. Взяли одну неделю, взяли решетку по политикам, сделали контекст из слов без политиков, без war, blog, democra, kerry, и bush. Выбрали 20 наименне коррелируемых признаков, построили решетку, потом использовали эти слова, как центры для метода k средних. Получили 20 кластеров и построили решетку.

Рашили экстенсионально сравнить контексты. Получили, что понятия из решетки по политикам не связаны с понятиями из других контекстов. То есть можно предположить, что политики - это одна отдельная тема, а остальное - это другая тема, скорее всего про войны.

И тут еще странность, сравнили контексты по корреляции и по группам. Получилось, что понятия с каким-нибудь словом, не связано с группой, которая содержит это слово, но при это связана совершенно с другими группами. 

Начнем

Пишу статью, подгоняю под тему "политология"