Data Mining *

ksavenkov 3 мая 2012 в 09:33

Как и многие люди технического склада ума, я с крайним недоверием отношусь к астрологии, гороскопам и прочим псевдонаукам. Моё мировозрение пошатнулось когда я от скуки решил изучить влияение времени года в которое рождается человек, на его психические особенности. Оценка психических особенностей производилась по результатам соционического теста из приложения VK, которое насчитывает более 500000 пользователей. Надёжность и валидность теста небольшая, да и вся соционическая модель имеет ряд проблем. Но нам важно другое: понять есть ли хоть какие-то отличия между людьми родившимися в разное время. Объём выборки в полмиллиона человек позволяет надеяться на положительный результат. В ходе исследования ожидалось получить линейную зависимость между продолжительностью светлого времени суток в день рождения человека и его психотипом, но получилось

нечто совсем иное.

+72

137

Конкурс рекомендательных систем MSD Challenge

1 мин

1.1K

Алгоритмы * Программирование * Data Mining *

26 апреля стартовал конкурс рекомендательных систем Million Song Dataset Challenge. Завершение — через три месяца, 9 августа. В ходе конкурса нужно построить систему, которая по 100% истории прослушивания музыки для 1М пользователей и 50% истории для 100К пользователей сможет максимально точно достроить недостающие 50%. При этом доступны не только данные по прослушиванию, но и обширная база метаданных и даных по контенту от The EchoNest, MusicXMatch и Last.fm. При желании можно пользоваться любыми другими данными (у многих других музыкальных сервисов есть API, через который можно выудить ценную информацию).

Организаторы — CAL UCSD, LabROSA CU, IMIRSEL и UIUC.

Как такового приза у конкурса нет, но компания Zvooq решила сделать его чуть более интересным для российских участников. Лучшая команда из России (вне зависимости от абсолютного места) получит $5000 и возможность бесплатно отправить одного участника на ISMIR 2012.

Условия получения этого бонуса — все участники команды должны проживать в РФ, должно быть опубликовано описание используемого подхода (например, на Хабре или arxiv.org), команда должна заявить о себе на challenge@zvooq.com.

Alefima 10 апр 2012 в 07:46

Клиентская аналитика: Большой Брат знает, что ты купишь завтра и когда сменишь провайдера

4 мин

38K

Блог компании КРОКData Mining *

Если вы знаете, что один из ваших клиентов завтра проснётся с мыслью о покупке нового планшета — можно уже сегодня прислать ему письмо с кодом на скидку. Если вы понимаете, что по всем признакам клиент собирается перейти к другому провайдеру, можно повысить ему скорость, снизить цену или предложить что-то ещё. Это клиентская аналитика.

Если вы не знаете, какой тарифный план из трёх предложенных стоит запустить по всей стране, надо воспользоваться клиентской аналитикой, которая возьмёт каждого отдельного человека из базы, оценит эмоциональные и практические мотивы перехода – и позволит понять, сколько людей будут пользоваться этим тарифом.

Именно так выглядит Data Mining в клиентской аналитике. И именно так это уже работает на практике в сотнях крупных компаний по всему миру и в нашей стране.

alizar 3 апр 2012 в 11:10

+26

Программа «Рыбка» решила королевский гамбит на 1 апреля

1 мин

8.1K

Data Mining * Высоконагруженные системы *

UPD 4.04. Новость оказалась первоапрельской шуткой ChessBase, которая из-за ошибки CMS была опубликована на сайте 2 апреля. Поверила даже Википедия, изменив статью про королевский гамбит.

Запустив шахматную программу Rybka на рабочей станции IBM POWER 7 с 2800 ядрами, автор программы сумел решить королевский гамбит — один из самых сложных и острых дебютов шахматной партии, который активно использовали Борис Спасский и Бобби Фишер. Компьютерная программа рассчитала исход всех вариантов развития шахматной партии и пришла к неожиданным результатам.

Оказывается, в случае принятия чёрными жертвы на f4 у белых остаётся только один ход, который ведёт к ничьей (в случае идеальной игры с обеих сторон) — слон на e2. Во всех остальных случаях белые получают мат.

mishadoff 2 апр 2012 в 07:36

+81

118

Алгоритмы сегментации текста

4 мин

15K

Здравствуйте.

В контексте анализа данных из твиттера возникла задача обработки хештегов. Нужно было взять хештег и разбить его на отдельные слова (#habratopic => habra topic). Задача казалась примитивной, но, получается, я ее недооценил. Пришлось перебрать несколько алгоритмов пока не было найдено то, что надо.

Эту статью можно считать некой хронологией решения задачи с анализом преимуществ и недостатков каждого из использованных алгоритмов. Поэтому, если вам интересна данная тема, прошу под кат.

denysA 26 мар 2012 в 18:12

+38

Система мониторинга мнений методом поточечной взаимной информации

4 мин

6.7K

Здравствуйте.
Если вы занимаетесь DataMining, анализом текстов на выявление мнений или вам просто интересны статистические модели для оценки эмоциональной окраски предложений — эта статья может оказаться интересной.
Далее, чтобы не тратить время потенциального читателя впустую на груду теории и рассуждений, сразу краткие результаты.
Реализованный подход работает приблизительно с 55% точностью в трех классах: негативный, нейтральный, позитивный. Как говорит Википедия, 70% точность приблизительно равна точности человеческих суждений в среднем (в силу субъективности трактований каждого).
Следует отметить, что существует немало утилит с точностью выше полученной мной, но описанный подход, можно достаточно просто усовершенствовать (будет описано ниже) и получить в итоге 65-70%. Если после всего вышеизложенного у вас осталось желание читать — добро пожаловать под кат.

Alefima 22 мар 2012 в 07:57

+11

Немного магии: как взять и сделать call-центр реально эффективным

5 мин

71K

Блог компании КРОКData Mining *

Вы звоните провайдеру. Приготовившись к разговору с вымученно-жизнерадостной девушкой о количестве зелёных лампочек на чёрной коробочке, даже немного теряетесь, когда вам отвечает натуральный сисадмин. И сразу же понимает суть проблемы и решает её. Вы кладёте трубку через 25 секунд разговора в лёгком шоке.

Потом перезваниваете с телефона сестры и получаете ласковое «А какого цвета у вас Интернет?», и начинаете понимать, в чём дело.

Да, это реально возможно на практике. Давайте для примера возьмём некий типовой call-центр и покопаемся в его уже собранных данных, а потом подключим немного математики.

alizar 10 мар 2012 в 13:04

+48

Стивен Вольфрам проанализировал свою жизнь

2 мин

20K

Разработчик программного пакета Mathematica и научной поисковой системы Wolfram Alpha Стивен Вольфрам выложил результаты анализа цифровых данных, которые скопились у него за годы. В числе прочего — визуализация 300 тыс. отправленных электронных писем с 1989 года, 100 миллионов нажатий клавиш с 2002 года, телефонные звонки, встречи, время редактирования файлов разного типа с 1980 года и т.д. В результате проявились некоторые интересные корреляции между различными аспектами жизни, а также структурные изменения, которые произошли в течение десятилетий.

Подобный личностный анализ может сделать каждый с помощью новых функций поисковика Wolfram Alpha Pro.

alizar 25 фев 2012 в 20:35

+93

Google Transit: тихая революция в общественном транспорте

2 мин

7.2K

Среди многочисленных проектов компании Google есть один очень важный проект, которым компания занимается уже более пяти лет, и в то же время он на удивление мало освещается в прессе. Речь идёт о стандарте GTFS (изначально Google Transit Feed Specification, но с 2009 года расшифровку сменили на General Transit Feed Specification) — общий протокол для расписания общественного транспорта, который компания Google предложила в 2006 году.

Сейчас Google получает информацию от 475 транспортных компаний США и Европы, но пока что расписание на Google Maps полноценно работает только в четырёх американских городах (Бостон, Портленд, Сан-Диего, Сан-Франциско) и двух европейских (Мадрид, Турин). Жители этих городов могут в привычном интерфейсе Google Maps смотреть, через сколько минут на остановку придёт нужный автобус, троллейбус или трамвай — c июня 2011 года для этих городов работает функция Live Transit Updates, то есть обновление в реальном времени информации о реальном местонахождении транспорта.

alizar 21 дек 2011 в 14:49

+45

США составили биометрическую базу данных на три миллиона иракцев

2 мин

1.6K

Несколько дней назад американцы объявили о выводе войск из Ирака. Они ушли не с пустыми руками, а увезли биометрические данные трёх миллионов иракских жителей (примерно 10% населения). В течение нескольких лет американские пехотинцы носили с собой портативные оптические сканеры, которые позволяют быстро в полевых условиях сделать снимок радужной оболочки глаза и снять отпечатки пальцев у любого прохожего.

Ценная база данных является собственностью американской армии и будет храниться в США.

wildmandnd 7 дек 2011 в 09:06

Data Mining в онлайн играх

11 мин

33K

Edunov 29 ноя 2011 в 10:52

Во всех онлайн сервисах и играх самая большая доля аудитории уходит прямо на старте – в первые же минуты и часы знакомства с продуктом. Этой теме уже посвящены сотни книг и статей с самыми различными гипотезами успеха и причин лояльности аудитории – уникальность, простота, юзабилити, бесплатность, обучение или инструкция, эмоциональность, и еще множество факторов считаются крайне важными.

Мы захотели узнать, почему уходят игроки и можно ли предсказать их уход. Предмет исследования – ММОРПГ Аион, однако наши результаты оказались применимы к широкому кругу игр и онлайн сервисов.

Заглянуть в будущее

+197

Какой инструмент вы используете для решения задач data mining?

1 мин

3.1K

oe24 22 ноя 2011 в 11:56

Facebook подтвердила предположение о шести рукопожатиях

1 мин

17K

shuttie 14 ноя 2011 в 12:21

Миланский университет и Facebook окончили исследование о теории шести рукопожатиях. За основу брался социальный граф Facebook. Были исследованы все аккаунты Facebook. В итоге получилось, что двух любых людей отделяют не 6, а 4,74 уровня связи.
И в США, кстати, количество звеньев меньше — 4,37 (по статистике более половины американцев старше 13 лет пользуются Facebook).
«Даже если взять самого территориально удаленного пользователя Facebook в сибирской тундре или перуанских джунглей, друг вашего друга, вероятно, знает друга их друга» — так отмечают исследователи.
Три года назад Microsoft провела аналогичное исследование на 242 миллионах пользователей MSN, написавших хоть одно сообщение за месяц. Их результат тогда был равен 6,6.
А вот исследование аудитории ВКонтакте, которое сделал shuttie, показывает, что этот результат в более локализованной сети — меньше, 5.65 пользователей.

+65

Теория шести рукопожатий: еще одно подтверждение

4 мин

78K

подробнее о том, что получилось

Однажды в студеную зимнюю пору я столкнулся с упоминанием того, что кто-то в Facebook пытается подтвердить теорию шести рукопожатий. Для тех кто не в курсе, эта теория заключается в том, что все жители земли в среднем знакомы друг с другом через цепочку из пяти друзей (т.е. шести рукопожатий). Подробнее об истории этой теории можно прочитать в википедии, там же можно узнать о том, что Майкрософт несколько лет назад пыталась подтвердить эту теорию на основе данных о контакт-листах мессенджера MSN — в результате у них получилось 6,6 рукопожатий, что вполне вписывается в теорию.

Очень мне захотелось эту теорию подтвердить самому, используя данные, которые есть под рукой — ВКонтакте. Для претворения моей странной идеи в жизнь надо было решить целый комплекс проблем:

На каких данных это все расчитывать.
Где эти данные взять.
Как эти данные сохранять.
Каким алгоритмом воспользоваться для расчетов.

+194

102

Nucleotide 12 окт 2011 в 15:51

Классификация документов методом опорных векторов

5 мин

19K

Потребовалось мне года три назад сделать классификатор текстов. В этой статье я расскажу о том как это заработало и вообще некоторые аспекты реализации и тестирования таких алгоритмов.

Классификация

Классификация, согласно википедии, это одна из задач информационного поиска, заключающаяся в отнесении документа к одной из нескольких категорий на основании содержания документа.
Этим мы и будем заниматься.

alizar 26 сен 2011 в 10:26

+38

Предсказание революций путём анализа открытых источников

2 мин

965

Разработчики Университета Иллинойса создали программное обеспечение, которое якобы способно предсказывать места новых «оранжевых революций» путём ретроспективного анализа «тона» информационных сообщений в СМИ за последние тридцать лет. Авторы заявляют, что их программа успешно предсказала начало революций в Египте и Ливии. Более того, задолго до его уничтожения Усамы бин Ладена программа установила Северный Пакистан как самое вероятное его местонахождение.

Программа анализирует информационные сообщения практически со всех стран мира. Основные источники — глобальные базы данных Open Source Center (финансируется правительством США для нужд внешней разведки) и аналогичная британская база BBC Monitoring, а также архив New York Times. В сумме, все эти источники содержат более 100 млн новостных статей, в результате картирования которых составлено около 100 трлн связей. Обработка информации осуществляется на суперкомпьютере SGI Altix мощностью 8,2 TFLOPS.

Alexey_mosc 30 авг 2011 в 19:54

-4

Теория информации в задаче проверки гипотезы о независимости значений, принимаемых случайной переменной, на примере индекса DJI

5 мин

7.2K

Попробуем проверить гипотезу о том, являются ли приращения значений индекса DJI статистически независимыми. При этом в качестве референсного источника данных, с которым будем проводить сравнение, возьмем искусственный временной ряд, сгенерированный из собственно приращений исходного ряда, но при этом случайно перемешанных. В качестве меры статистической независимости воспользуемся статистикой взаимной информации.

steveb 19 июл 2011 в 13:26

+31

Анализ текстов SMS пользователей ЗАО «Мегафон»

2 мин

3.5K

Мы проанализировали 862 уникальных текста SMS на частотность употребляемых слов, распределили по городам и сгруппировали по получателям. За основу были взяты тексты, находящиеся короткое время в открытом доступе на популярном поисковом сервисе.

Чтобы нельзя было идентифицировать получателя сообщения, мы удалили телефонные номера, тексты, содержащие пароли, и другую информацию, которая может повредить отправителям или получателям.

Данный проект интересен нам исключительно в исследовательских и промо целях.

Некоторые результаты под катом.

DimonSmart 12 июл 2011 в 07:49

+36

Использование графа, как основы для создания рубрикатора

6 мин

11K

Определения

В этой статье я опишу способы создания, и использования рубрикаторов, в основе которых лежит структура графа.
Рубрикатор, категоризатор, каталог категорий, предметный указатель, индекс. Для удобства будем считать, что все эти термины описывают примерно одно и то же. А там, где будут существенные отличия, мы будем явно на них указывать.
Информационный элемент – чаще всего файл, но в общем случае любая информация представленная как единое целое.

Введение

Рубрикаторы используются для решения самых разнообразных задач:

Для ускорения поиска и облегчения навигации по большим массивам информации.
Для пометки (тегирования) информации с целью организации выборок по определенным рубрикам
Для сортировки информации по:
областям знаний (физика, математика, биология)
способам использования (Книги — читать, музыка — слушать, фильмы — смотреть)
принадлежности (папки мои и общие документы)
важности (папки inbox и spam) и т.п.

DimonSmart 8 июл 2011 в 08:26

+21

Проблемы, подстерегающие любого создателя рубрикаторов

4 мин

10K

Введение

Работая в издательстве журнала, я много раз становился свидетелем попыток создания хорошего рубрикатора. Большинство попыток сводились или к делению одной большой рубрики на несколько мелких, или, наоборот, к объединению нескольких мелких рубрик в одну крупную. Все попытки создать идеальный рубрикатор превращались в нахождение компромисса между сложным и очень сложным рубрикатором.
Так же хотелось бы отметить, что все виденные мной рубрикаторы были организованны в виде классического дерева с глубиной вложенности 2-3 уровня. И не было замечено попыток организовать рубрикатор иным образом (Речь идет только о печатных рубрикаторах).
В итоге у меня накопился список вопросов, которые приходится решать любому составителю рубрикатора.