Обновить

Компания Brand Analytics временно не ведёт блог на Хабре

Сначала показывать

Зоопарк ML-моделей или лучший справочник на Хабре

Время на прочтение4 мин
Охват и читатели7.6K

Привет, Хабр!

Меня зовут Ирина, я работаю ML инженером в Brand Analytics. Моя работа тесно связана с NLP, ведь мы ежедневно получаем огромное количество текстовых данных со всего интернета. Сегодня я хочу поговорить о теме, которая беспокоила меня еще с тех времен, когда я только начала изучать SOTA-решения в задачах обработки естественного языка.

Читать далее

Как мы в Brand Analytics разработали Детектор сбоев и как вы можете помочь его улучшить

Время на прочтение9 мин
Охват и читатели2.8K

Привет, Хабр! Мы тут решили выйти из тени, на этот раз по-настоящему, технически, без маркетинговых текстов. А раз без маркетинга, то почитать про сам Brand Analytics можно на сайте или очень кратко под катом.

Меня зовут Островский Григорий, я CTO Brand Analytics. Сегодня расскажу, как за 4 недели мы запускали Детектор сбоев взамен ушедшему из рунета Downdetector: на какие задачки напоролись, как с ними боролись и как пришла идея — дать возможность сообществу улучшить определение сбоев на больших данных в нашем первом контесте.

Так как статью пишу здесь впервые, буду крайне признателен фидбеку, чтобы понять, на чём сделать больше акцент, нужно ли больше технических подробностей, какие темы остались не раскрыты и что ещё подкорректировать на будущее.

Читать дальше →

Элементарно, Ватсон, или анализ соцмедиа по-айбиэмовски

Время на прочтение6 мин
Охват и читатели4.4K
21 век можно по праву назвать веком социальных медиа. Бесчисленное количество постов, репостов, ответов на посты и комментариев, сотни ежесекундно загружаемых видео на Ютьюб и фотографий в Инстаграмм. Если ты не в сети — ты не в тренде. Крупнейшие университеты (как, например Массачусетский Институт Технологий MIT) выкладывают онлайн лекции и учебники. Вопросы, затрагивающие самые разные темы от политики и культуры до кулинарии и особенностей выполнения той или иной асаны в йоге, теперь обсуждаются не только и не столько на кухне или в курилке, а на интернет форумах. Что лучше? Правильная ли экранизация у книги? В том ли направлении двигается сюжет полюбившегося сериала? Будет ли новая модель телефона успешней и круче, чем у конкурентов? Сегодня на эти вопросы отвечает анализ биг дата, да и системы, производящие подобные исследование на данных социальных медиа, хотя еще и не вчерашний день, но уж утро сегодняшнего точно. Одна из подобных систем создана гигантом в сфере программного обеспечения и носит гордое имя верного соратника британского детектива. Стоит отметить, что речь пойдёт лишь о системе аналитики соцмедиа (IBM Watson Analytics for Social Media), а это лишь часть знаменитой когнитивной системы Watson, и приведенные ниже плюсы и минусы касаются непосредственно данного сервиса, который для простоты упоминания в дальнейшем условимся называть просто Ватсоном.
Читать дальше →

Четыре слова, которые нельзя (часть 2)

Время на прочтение4 мин
Охват и читатели13K
По просьбе хабрачан продолжим публикации об исследовании обсценной лексики. (Если кто не читал первую часть, то можете ознакомиться).

Начнем сразу с картинок.

Итак, картинка первая.


Рис.1. Распределение обсценной лексики по источникам.
Читать дальше →

Десять трендов аналитики социальных медиа в 2016 году

Время на прочтение6 мин
Охват и читатели4.9K
Хорошая статья, заслуживающая перевода для ознакомления что нам ждать от ближайщего будущего. Небольшие неточности, которые будут заметны экспертам, никак не влияют на крепкую базу собранных в одном месте тенденций и трендов развития нового «социального общества», черты которого все явственнее проявляются в рельности: и чат-боты, и эмодзи, и самоуничтожающаяся информация, сдвиг инфо-потребления и инфо-генерации в сторону видео, лингвистическая обработка и выявления фактов в гигантских объемах неструктурированного контента… Так что почитать настоятельно советуем. Почитать и сравнить с собственным видением развития окружающего вас мира.

Краткий вывод: «Общий тренд – данных все больше, используются они более эффективно – для создания умной „автоматики“, которая и будет формировать информационный образ будущего.»


[Картинка с сайта Sostav.ru]
Читать дальше →

Четыре слова, которые нельзя (исследование русской обсценной лексики на материалах соц.медиа)

Время на прочтение5 мин
Охват и читатели34K
Один мой приятель, учитель латинского языка, в начале урока спрашивал своих студентов, выполнили ли они домашнее задание. Как правило, если не первый, то второй или третий ученик сознавался: простите, господин Учитель, я ничего не сделал. «Фак!» — говорил учитель. «Фак!» — повторял он, вводя в еще большее недоумение своих чад. «Сегодня мы будем проходить глагол третьего спряжения facio делать», который в повелительном наклонении единственного числа так и произносится: fac! – делай!

Нет, мы не собираемся витийствовать о том, что не бывает хороших и плохих слов, а есть наша оценка оных. Также мы не будем говорить об истоках и функциях русской брани, не будем обсуждать моральную сторону вопроса, как и искать причинно-следственные связи ее употребления. Мы проведем небольшое исследование обсценной лексики на материалах русскоязычных соц. медиа, сделаем ряд замеров и расчетов на большой выборке из интернет-источников.
Читать дальше →

«Индекс Любви» на карте России, весна 2016: исследование эмоционального состояния пользователей социальных медиа

Время на прочтение5 мин
Охват и читатели5.7K
Весна – пора любви. И пусть начало календарной весны ознаменовалось для россиян экстремальными снегопадами и погодными катаклизмами – любовь вновь победила. Brand Analytics представляет новые данные по эмоциональному состоянию пользователей социальных сетей в регионах России. Шестое исследование показало очередной рекорд соотношения позитивных и негативных эмоций в публичных сообщениях российских пользователей соцмедиа: «Индекс Любви» в феврале-марте 2016г составил 5,9, что означает, что россияне оставили в социальных медиа в 6 раз больше сообщений о любви, чем о ненависти.

Читать дальше →

Самое полное руководство по анализу социальных медиа

Время на прочтение11 мин
Охват и читатели16K
В современном динамичном мире нам, человекам, свойственно всё и всех быстренько разложить по полочкам и засунуть в привычные ящички. Иначе не выжить.

Отсюда и «попадалово»: пока одни рассовывают по старым ящичкам, лидеры – создают новые. Кто первый встал – того и тапки (ящичек). В помощь будущим лидерам маркетинга, PR и Big Data Scientist мы сделали очередной полезный перевод с подробным объяснением чем отличается «Анализ Social Media» от ящичка «Мониторинг Social Media».



P.S. Предварительное замечание от переводчика: используемый термин «Умная/глубокая аналитика» (в статье Social Media Intelligence) предполагает активное насыщение сторонними мета-данными исходных текстов/фото/видео, и, главное, что так близко к умной работе Штирлица и Джеймса Бонда – использование данных для анализа и прогнозирования развития событий. Не зря разведслужбы Англии называются «Intelligence Service».

Текст большой, для знатоков наверняка будут очевидности-занудности, но зато разжевано по полочкам и с примерами для каждой соцсети. Запасайтесь чайком и углубляйтесь в умную аналитику человечества.
Читать дальше →

Может ли аналитика социальных медиа заменить традиционные исследования рынка?

Время на прочтение5 мин
Охват и читатели4.2K
Года 3-4 назад, сказать социологам/ресечерам «Включите в ваши исследования данные социальных медиа» – вызывало в лучшем случае смех. Замечательно, что первым из социлогов публично «рискнул» ВЦИОМ (Валерий Федоров сам по себе замечательная личность) – несколько прорывных публичных кейсов за 12-13-ые годы доступны на сайте VoxPopuli (http://vox-populi.ru).

Дальше – больше: теперь, когда многие крупные бренды, государственные и частные компании, агентства, СМИ, исследовательские структуры уже являются многолетними и активными пользователями систем мониторинга и анализа соцмедиа, тенденция повернулась на 180 градусов – теперь уже социологи/ресечеры вынуждены искать свою нишу, встраиваясь в тенденцию.

В принципе, никто и не против – накопленный индустрией опыт и методологии – очень хороший багаж для сотрудничества и совместного усиления. Кроме того, аналитика социальных медиа позволяет решать задачи, которые:

  1. Невозможно решить стандартными методами – см. например, «Кнопка Обамы» (http://megamozg.ru/company/palitrumlab/blog/13682/)
  2. Дорого – например, исследование «Любовь и ненависть по регионам России» (http://br-analytics.ru/blog/lyubov-i-nenavist-na-karte-rossii-leto-2015-issledovanie-emocionalnogo-sostoyaniya-35-mln-polzovatelej-socialnyx-media/) можно провести опросными методами, но стоимость будет фантастическая
  3. Табуировано – темы, которые люди не готовы обсуждать с незнакомыми людьми.

image
Читать дальше →

Найдите золотую середину с персональными мобильными предложениями: От Гартнер для маркетологов

Время на прочтение4 мин
Охват и читатели1.8K
На наших глазах свершается или уже даже свершилась революция в маркетинге. Это теперь не просто маркетинг, это, с известным допущением, именно интернет-маркетинг. Даже сейчас, в непростой экономической ситуации вакансии интернет-маркетологов публикуются практически ежедневно.

Чтобы самим находиться в форме и дать вам возможность отслеживать самые свежие тренды в маркетинге, Brand Analytics запускает цикл переводных материалов ведущих западных изданий и ресурсов.

Будем рады, если публикации будут вам полезны. Свои пожелания и предложения просим оставлять в комментариях к статьям.

image

Сегодня мы вас знакомим с публикацией вице-президента Gartner, одной из ведущих исследовательских и консалтинговых компаний, специализирующейся на рынках информационных технологий. В статье Майк МакГуайр размышляет о том, как использовать личные данные для создания персональных предложений и не потерять доверие потребителя. Возможно ли это? Автор уверен, что знает ответ на этот вопрос.
Читать дальше →

Сколько твитов нужно, чтобы узнать ваш характер?

Время на прочтение3 мин
Охват и читатели17K
Экстенсивный рост количества неструктурированных данных (твитов, постов, комментов, фото и видео), генерируемый человечеством – и фантастические возможности, и головная боль для многих старых и новых индустрий.

На днях мы уже приводили фактографию по объемам количества сообщений, производимых человечеством в сутки, понятно, что миллиарды высказываний требуют совершенно других решений и технологий. «Старые» (ужас, прошло 3-5 лет, и уже старые) подходы и люди, их разрабатывающие, борются за место под солнцем. Но…

image

В качестве классического примера приводим перевод недавнего материала от подразделения IBM Watson:
Читать дальше →

Сентимент анализ текста

Время на прочтение6 мин
Охват и читатели25K
Сентимент-анализ информационных потоков имеет большой потенциал применения для мониторинговых, аналитических и сигнальных систем, для систем документооборота и рекламных платформ, таргетированных по тематике веб-страниц.

Данный материал знакомит с понятием сентимент-анализа, основными методами определения тональности и новыми подходами в этой области.


Читать дальше →

«Любовь и ненависть» на карте России, лето 2015: исследование эмоционального состояния 25 млн пользователей социальных медиа

Время на прочтение4 мин
Охват и читатели5.4K
Специально ко Дню России Brand Analytics представляет новые данные по эмоциональному состоянию пользователей социальных сетей в регионах России. Пятое юбилейное измерение показало стабилизацию соотношения позитивных и негативных эмоций в публичных сообщениях российских пользователей соцмедиа: «Индекс Любви» остался на том же уровне, что и в декабрьском исследовании.


Читать дальше →

Социальные сети в России, весна 2015. Цифры, тренды, прогнозы

Время на прочтение8 мин
Охват и читатели8.2K
Представляем новые данные исследования цикла «Социальные сети в России сегодня: цифры, тренды, прогнозы», за первое полугодие 2015 г. Шестая регулярная публикация содержит актуальные данные о проникновении социальных медиа по регионам России, демографический анализ аудитории, а также динамику публикационной активности в социальных сетях.
Читать дальше →

Ближайшие события

Рейтинг цитируемости IT-ресурсов за Апрель 2015: «Нацеленность на людей»

Время на прочтение1 мин
Охват и читатели3.3K
Аналитический центр Brand Analytics представляет регулярный ежемесячный индустриальный рейтинг цитируемости российских IT-ресурсов в социальных медиа за апрель 2015 г.

Мартовский рейтинг цитируемости IT-ресурсов мы назвали «Позитивная IT-весна». И у нас на то были причины. Четырнадцать из пятнадцати финалистов рейтинга показали рост цитируемости. Помог им в этом традиционно долго непрекращающийся поток новостей с прошедшего в конце февраля Mobile World Congress и, конечно, долгожданный мартовский анонс Apple Watch, который уже в который раз толкнул рынки и новости вперед.
Читать дальше →

Сериал: Big Data — как мечта. 8-я серия. Нетехническая. Модульная журналистика  

Время на прочтение8 мин
Охват и читатели2.9K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. BD — еще и Bolt Data. Аналитики BD. В этой серии поговорим о влиянии BD на такую нетехническую индустрию, как журналистика.

Очень схематично — программисты сродни журналистам: обе индустрии используют прошлые навыки (применяют знания предыдущих поколений, разработчиков методик и языков), обе профессии нацелены на модернизацию текущего и происходящего (улучшить жизнь конкретным людям), передовики обоих направлений стремятся подняться на следующий уровень, нацеленный на будущее — стать архитекторами и писателями, влияющими на огромные коллективы последователей и народы.
Читать дальше →

Сериал: Big Data — как мечта. 7-я серия. Большие вакансии для Больших Данных

Время на прочтение4 мин
Охват и читатели5.3K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. BD — еще и Bolt Data. В этой серии — как стать Аналитиком BD?

На днях в сетях появилось объявление от московских госструктур о наборе в штат 50-ти аналитиков BD на з/п 100тр. Простые прикидки «на пальцах» покажут, что это соответствует расходам на зарплату, налоги, офис и технику ~150 млн. руб. в год. Пора начинать радоваться, что в столице появились проекты c аналитикой Big Data, да еще в области здравоохранения, полезность для жителей и гос.кармана которых оценивается в сотни миллионов рублей ежегодно?

Поскольку у нас есть опыт «взращивания» аналитиков BD, есть экспертиза работы с «аналитиками» заказчиков из разных стран, регионов и индустрий, то … пожелаем удачи, и понадеемся на положительный результат — в конце концов, не Боги горшки обжигают. Ниже представим краткий обзор индустрий, выходцы которых вполне могут себя попробовать на новом поприще. А также серьезный инструментарий для игры «Почувствуй себя аналитиком».


Читать дальше →

Сериал: Big Data — как мечта. 6-я серия. BD (Bolt Data) — Быстрые Big Data данные

Время на прочтение5 мин
Охват и читатели4.3K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data. В новой серии впервые упомянем о новом E-ngine — воплощении мечт IBM, Google и др.

Только ленивый (включая и сценаристов нашего сериала) уже не высказался со своим мнением по поводу «Who is Big Data?» Сегодня давайте порассуждаем не про объемы, а про скорострельность потоков данных. Англоязычное слово Bolt имеет так много смыслов, что легко можно подобрать другой смысл для двухбуквия BD вместо Big Data — Bolt Data, в том числе: удар молнии, вылетать, выболтать, говорить быстро и невнятно.
Читать дальше →

Сериал: Big Data — как мечта. Незапланированная 5-я серия: Большая игра. Частное мнение

Время на прочтение4 мин
Охват и читатели4.1K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data.
 
11 апреля Twitter объявил о прекращении контракта с DataSift. Казалось бы, ну и что? Фактически это означает начало Большой Игры, результаты которой можно сравнить с III Мировой. Звучит жутковато? Давайте расставим фигуры на доске и посмотрим.
Читать дальше →

Сериал: Big Data — как мечта. 4-я серия. Революция мозгов

Время на прочтение4 мин
Охват и читатели6.8K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A.

В мире есть множество самых великих книг, которые пережили столетия и даже тысячелетия. Заложенные в этих книгах знания — универсальны. Китайские военные стратегмы, Библия, индийская Махабхарата содержат в том числе шаблоны и каноны, которые могут быть применимы к взаимоотношениям людей и в I, и в XI, и в XXI с XXXI веках. Но промышленной революции XIX-XXI веков (паровозы-космос-компьютеры-интернет) нужна была своя философия.

Читать дальше →
1