Обновить
128K+

Открытые данные *

Данные будут свободны!

12,77
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Доморощенный OSINT для соискателя. Краткая инструкция

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели25K

Это всё о том, сколько чудесного и неожиданного можно узнать о потенциальном работодателе из открытых данных, и что делать, чтобы не проработать месяц-два бесплатно и не обмануться с другими ожиданиями. Спойлер: увидеть можно многое — от потенциального банкротства компании до дела о мошенничестве. 

Никто из работодателей не напишет на сайте или в описании вакансии: «Ну да, так-то у нас иногда кассовые разрывы бывают, но мы тут держимся». Вместо этого будет: «Мы — признанные лидеры там-то и сям-то, нам доверяют, мы меняем мир, мы —  динамично развивающаяся компания с сильным корпоративным духом (да, такие описания и кислотой не вытравить) и прочие «выше нас только горы». 

Самое замечательное может начаться, если найти 10-15 минут времени и всмотреться в эту бездну успеха. 

Где и что искать

Продолжение археологии трейдинга: 2016–2020 годы по материалам S&C

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели2.6K

Это четвёртая часть цикла об идеях из Technical Analysis of STOCKS & COMMODITIES. Мы уже прошлись по 2001-2005, 2006-2010, 2011–2015. Теперь период 2016-2020 годы, когда трейдеры постепенно адаптируются к новым реалиям рынка. Появляются роботы, но и индикаторы никуда не деваются - они обновляются и перерабатываются.

Читать далее

Генератор синтетических документов для обучения моделей ИИ

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели2.7K

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Читать далее

Археология трейдинга: какие системы предлагали в STOCKS & COMMODITIES (2011–2015)

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.1K

В период 2011-2015 годов трейдинг переживал революцию. После мирового кризиса рынки восстанавливались при поддержке программ количественного смягчения, но трейдеры уже не довольствовались классическими инструментами. Алгоритмы и высокочастотная торговля меняли правила игры, а журнал Technical Analysis of STOCKS & COMMODITIES фиксировал эту трансформацию.

Читать полный текст

Как мы строили систему для проверки людей и компаний

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели2.9K

Это моя первая статья на Хабре. Формат нащупываю. Хотелось бы сразу с кейсами и диаграммами, но решил начать с простого — краткий разбор архитектуры нашего сервиса и того, как мы пришли к текущему состоянию.

Сервис — это проверка физических и юридических лиц по открытым источникам. Пользователь вводит ИНН или ФИО и получает отчёт: есть ли долги, исполнительные производства, признаки банкротства, участие в сомнительных организациях и так далее. Отчёт собирается на лету по 10+ источникам.

Система существует давно. Код — не идеален. Архитектура — не микросервисная. Docker и Kubernetes у нас не прижились, зато есть реальный боевой опыт. Ниже — краткий разбор, как оно устроено, какие ошибки мы прошли и как всё это выживает под нагрузкой.

Читать далее

Почему синтетические данные редко используются в реальных задачах

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели1.3K

Синтетические данные – это искусственно сгенерированные наборы, имитирующие структуру и статистические закономерности реальных данных. В последние годы вокруг этой технологии возник значительный ажиотаж. Еще недавно аналитики прогнозировали, что уже к 2024 году до 60% данных, используемых для разработки ИИ, будут синтетическими. Однако на практике полностью перейти на «искусственные» данные пока не удалось. Экспертные отчеты отмечают, что возможности синтетических данных сейчас несколько переоценены и что они вряд ли смогут в ближайшем будущем полностью заменить реальные данные. В разных отраслях синтетические данные используются скорее точечно, а не повсеместно. Ниже мы рассмотрим ключевые причины, почему применение таких данных остается редким – от технических ограничений и бизнес-факторов до правовых барьеров.

Читать далее

Каталог данных: что за зверь и с чем его едят

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели2.7K

Всем привет! Меня зовут Роман Грибов, я директор по развитию данных и аналитики в «Спортмастере». Вместе с моей коллегой Татьяной Шишкиной, руководителем направления «Каталог данных», мы расскажем о том, что это за инструмент, как он работает и как позволяет сделать проще жизнь аналитиков, архитекторов и многих других (включая даже тех из нас, кто просто когда-либо смотрел на аббревиатуру «GMV» с немым вопросом «Что ты такое?»), а еще объясним главные цели его внедрения.

Читать далее

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели8.3K

В современном мире анализ рынка труда становится критически важным как для соискателей, ищущих актуальные возможности, так и для компаний, изучающих конкурентную среду. Для решения этой задачи были выбраны два ключевых ресурса — HH.ru и SuperJob.

В этой статье мы разберем, как объединить мощь C# для бэкенда и элегантность WPF для фронтенда, чтобы создать инструмент, который не только собирает данные, но и превращает их в ценную информацию.

Парсим данные

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели2.5K

Приходит заказчик и говорит: «Мы новую систему строим, проконсультируйте нас, пожалуйста. Вы же адресами занимаетесь. Нам нужно сделать универсальную адресную модель. Вот у вас «Единый адрес» есть, какая там модель? Мы примем ее за эталонную и будем в своих системах использовать».

Ребята, я вас сейчас разочарую. В «Едином адресе» не одна адресная модель, а несколько. И ни одну из них копировать просто так не нужно. 

Эта статья для архитекторов, аналитиков и разработчиков. В ней я расскажу, в чем подводные камни в работе с адресами и что нужно учитывать при проектировании адресных моделей. 

Читать далее

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели11K

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы. 

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Читать далее

BookStack: мой опыт настройки и использования open-source базы знаний

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели23K

Как я поднял базу знаний за 15 минут — без бюджета и опыта

Почему я выбрал именно BookStack

Мы в команде давно искали удобный инструмент для хранения технической документации и инструкций. Пробовали всё подряд — от Wiki.js до Confluence. Но то санкции, то интерфейс перегружен, то кастомизация страдает. В какой-то момент я наткнулся на BookStack — лёгкую, симпатичную open-source платформу на Laravel. Решил попробовать. В итоге — развернул, настроил, и теперь она у нас в проде.

Читать далее

Подборка систем и индикаторов за 2006-2010 одного старейшего журнала по техническому анализу

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели3.4K

Это вторая часть погружения в идеи из журнала Technical Analysis of STOCKS & COMMODITIES. В первой части мы разобрали публикации за 2001–2005 годы - если вы её ещё не читали, рекомендую начать с неё: первая часть здесь.

Теперь мы переносимся во времена перемен — 2006–2010 годы. Это период перед мировым финансовым кризисом, в его разгар и в первые годы восстановления. Рынки лихорадит, волатильность зашкаливает, а авторы Traders' Tips ищут устойчивые подходы, предлагают свежие индикаторы и экспериментируют с управлением рисками.

Мы продолжаем исследовать эти идеи и смотреть можно ли их адаптировать к современным условиям. Все ссылки — только на оригинальные материалы на официальном сайте журналаникакого пиратства, только уважение к источнику.

Читать далее

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

Время на прочтение3 мин
Охват и читатели849

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?

Читать далее

Ближайшие события

Подборка систем и индикаторов за 2001-2005 одного старейшего журнала по техническому анализу

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели3.4K

Понимаю, что тема технического анализа не соответствует привычному формату Хабра, но считаю, что этот архив представляет собой действительно ценный и полезный ресурс.

В статье собрана коллекция торговых систем и индикаторов, опубликованных в журнале Technical Analysis of STOCKS & COMMODITIES за период с 2001 по 2005 год. Это издание считается одним из наиболее авторитетных в мире в области технического анализа.

Материалы могут быть интересны трейдерам, разработчикам торговых стратегий, программистам и инвесторам, стремящимся расширить свои знания и набор инструментов. Все представленные идеи сопровождаются официальными ссылками на сайт журнала, что обеспечивает соблюдение авторских прав и делает подборку легальной и надежной.

TACS с 2001 по 2005 год

Книга: «OSINT. Руководство по сбору и анализу открытой информации в интернете»

Время на прочтение4 мин
Охват и читатели28K
Привет, Хаброжители!

В современном цифровом мире сбор информации — залог безопасности. Книга Дейла Мередита «OSINT. Руководство по сбору и анализу открытой информации в интернете» знакомит читателей с миром профессиональной работы с открытыми источниками данных. Погрузитесь в мир цифровых расследований с книгой, которая станет вашим ключом к пониманию современных угроз и методов защиты от них. Шаг за шагом читатель последовательно проходит все этапы работы с открытыми источниками: от основ кибербезопасности до тонкостей разведки по открытым источникам (OSINT). Новинка от издательства Sprint book.
Читать дальше →

Как я за год написал шесть больших научных статей и несколько маленьких

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели8.3K

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

Читать далее

«Надо учить не знанию, а пониманию»

Время на прочтение12 мин
Охват и читатели4.6K

14 февраля в Российском новом университете – сдвоенный праздник: день рождения гениального физика и популяризатора науки Сергея Петровича Капицы и День всех влюблённых. По инициативе Студенческого научного общества он синтезировался в День влюблённых в науку.

Читать далее

7 опорных функций, которые должны быть в вашей системе Data Governance

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели2.1K

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.

Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.

Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

Читать далее

Python для OSINT в Telegram: автоматизация Threat intelligence

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели17K

Привет, на связи лаборатория кибербезопасности компании AP Security.

Узнайте, как создать парсер Telegram на Python с использованием Telethon для осинта и сбора данных об угрозах. Пошаговое руководство с практическими примерами.

Читать далее

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

Время на прочтение7 мин
Охват и читатели6.4K

Данный отчет представляет собой аналитическое исследование авиапроисшествий, произошедших в период с 2014 по 2024 годы и расследованных МАК. В основу анализа легли данные о происшествиях, включающие сведения о типах воздушных судов, числе погибших, географическом расположении инцидентов, а также причинах катастроф

Читать далее