Все потоки

Открытые данные *

Данные будут свободны!

12,77

Рейтинг

СтатьиПостыНовостиАвторыКомпании

sierra_xr 27 июн 2025 в 07:32

Доморощенный OSINT для соискателя. Краткая инструкция

Простой

9 мин

25K

Карьера в IT-индустрииИскусственный интеллектОткрытые данные * Лайфхаки для гиковУправление персоналом *

Мнение

Это всё о том, сколько чудесного и неожиданного можно узнать о потенциальном работодателе из открытых данных, и что делать, чтобы не проработать месяц-два бесплатно и не обмануться с другими ожиданиями. Спойлер: увидеть можно многое — от потенциального банкротства компании до дела о мошенничестве.

Никто из работодателей не напишет на сайте или в описании вакансии: «Ну да, так-то у нас иногда кассовые разрывы бывают, но мы тут держимся». Вместо этого будет: «Мы — признанные лидеры там-то и сям-то, нам доверяют, мы меняем мир, мы — динамично развивающаяся компания с сильным корпоративным духом (да, такие описания и кислотой не вытравить) и прочие «выше нас только горы».

Самое замечательное может начаться, если найти 10-15 минут времени и всмотреться в эту бездну успеха.

Где и что искать

+46

empenoso 23 июн 2025 в 14:48

Продолжение археологии трейдинга: 2016–2020 годы по материалам S&C

Простой

8 мин

2.6K

Финансы в ITОткрытые данные *

Ретроспектива

Это четвёртая часть цикла об идеях из Technical Analysis of STOCKS & COMMODITIES. Мы уже прошлись по 2001-2005, 2006-2010, 2011–2015. Теперь период 2016-2020 годы, когда трейдеры постепенно адаптируются к новым реалиям рынка. Появляются роботы, но и индикаторы никуда не деваются - они обновляются и перерабатываются.

Читать далее

+1

Travvy 20 июн 2025 в 13:55

Генератор синтетических документов для обучения моделей ИИ

Средний

4 мин

2.7K

Блог компании Институт системного программирования им. В.П. Иванникова РАНOpen source * Искусственный интеллектМашинное обучение * Открытые данные *

Кейс

Где взять пару миллионов документов с разметкой для обучения модели ИИ? Сгенерировать синтетически! Меня зовут Никита, я работаю в ИСП РАН и веду блог по ИИ. Выложил в открытый доступ проект, который поможет дата-саентистам самостоятельно создавать датасеты сканированных документов с разметкой, используя только CPU. Подойдет для предобучения мультимодальных трансформеров, OCR и проч.

Читать далее

+6

empenoso 11 июн 2025 в 05:40

Археология трейдинга: какие системы предлагали в STOCKS & COMMODITIES (2011–2015)

Простой

8 мин

3.1K

Открытые данные * Финансы в IT

Ретроспектива

В период 2011-2015 годов трейдинг переживал революцию. После мирового кризиса рынки восстанавливались при поддержке программ количественного смягчения, но трейдеры уже не довольствовались классическими инструментами. Алгоритмы и высокочастотная торговля меняли правила игры, а журнал Technical Analysis of STOCKS & COMMODITIES фиксировал эту трансформацию.

Читать полный текст

+2

kutepovfedor 8 июн 2025 в 11:40

Как мы строили систему для проверки людей и компаний

Простой

3 мин

2.9K

Анализ и проектирование систем * Информационная безопасность * Открытые данные * SaaS / S+S *

Из песочницы

Это моя первая статья на Хабре. Формат нащупываю. Хотелось бы сразу с кейсами и диаграммами, но решил начать с простого — краткий разбор архитектуры нашего сервиса и того, как мы пришли к текущему состоянию.

Сервис — это проверка физических и юридических лиц по открытым источникам. Пользователь вводит ИНН или ФИО и получает отчёт: есть ли долги, исполнительные производства, признаки банкротства, участие в сомнительных организациях и так далее. Отчёт собирается на лету по 10+ источникам.

Система существует давно. Код — не идеален. Архитектура — не микросервисная. Docker и Kubernetes у нас не прижились, зато есть реальный боевой опыт. Ниже — краткий разбор, как оно устроено, какие ошибки мы прошли и как всё это выживает под нагрузкой.

Читать далее

-1

psitronic 3 июн 2025 в 12:35

Почему синтетические данные редко используются в реальных задачах

Простой

13 мин

1.3K

Искусственный интеллектОткрытые данные * Машинное обучение * Информационная безопасность *

Обзор

Синтетические данные – это искусственно сгенерированные наборы, имитирующие структуру и статистические закономерности реальных данных. В последние годы вокруг этой технологии возник значительный ажиотаж. Еще недавно аналитики прогнозировали, что уже к 2024 году до 60% данных, используемых для разработки ИИ, будут синтетическими. Однако на практике полностью перейти на «искусственные» данные пока не удалось. Экспертные отчеты отмечают, что возможности синтетических данных сейчас несколько переоценены и что они вряд ли смогут в ближайшем будущем полностью заменить реальные данные. В разных отраслях синтетические данные используются скорее точечно, а не повсеместно. Ниже мы рассмотрим ключевые причины, почему применение таких данных остается редким – от технических ограничений и бизнес-факторов до правовых барьеров.

Читать далее

+1

dev_flex 22 мая 2025 в 12:58

Каталог данных: что за зверь и с чем его едят

Средний

5 мин

2.7K

Блог компании SM LabУправление продуктом * Data Engineering * Управление проектами * Открытые данные *

Кейс

Всем привет! Меня зовут Роман Грибов, я директор по развитию данных и аналитики в «Спортмастере». Вместе с моей коллегой Татьяной Шишкиной, руководителем направления «Каталог данных», мы расскажем о том, что это за инструмент, как он работает и как позволяет сделать проще жизнь аналитиков, архитекторов и многих других (включая даже тех из нас, кто просто когда-либо смотрел на аббревиатуру «GMV» с немым вопросом «Что ты такое?»), а еще объясним главные цели его внедрения.

Читать далее

+4

PB_Academy 22 мая 2025 в 07:01

От данных к интерфейсу: как спарсить вакансии с HH и SuperJob на C#

Средний

23 мин

8.3K

Открытые данные * Windows * Проектирование и рефакторинг * C# *

Туториал

В современном мире анализ рынка труда становится критически важным как для соискателей, ищущих актуальные возможности, так и для компаний, изучающих конкурентную среду. Для решения этой задачи были выбраны два ключевых ресурса — HH.ru и SuperJob.

В этой статье мы разберем, как объединить мощь C# для бэкенда и элегантность WPF для фронтенда, чтобы создать инструмент, который не только собирает данные, но и превращает их в ценную информацию.

Парсим данные

+30

TaniaB 19 мая 2025 в 09:56

Мой адрес — не дом и не улица: как создать нужную бизнесу адресную модель

Средний

9 мин

2.5K

Блог компании HFLabsОткрытые данные * Хранение данных *

Туториал

Приходит заказчик и говорит: «Мы новую систему строим, проконсультируйте нас, пожалуйста. Вы же адресами занимаетесь. Нам нужно сделать универсальную адресную модель. Вот у вас «Единый адрес» есть, какая там модель? Мы примем ее за эталонную и будем в своих системах использовать».

Ребята, я вас сейчас разочарую. В «Едином адресе» не одна адресная модель, а несколько. И ни одну из них копировать просто так не нужно.

Эта статья для архитекторов, аналитиков и разработчиков. В ней я расскажу, в чем подводные камни в работе с адресами и что нужно учитывать при проектировании адресных моделей.

Читать далее

+11

bi-denvic 15 мая 2025 в 08:09

OLAP-системы: многомерная модель данных и её применение. Правила Кодда: библия для разработчиков реляционных баз данных

Средний

8 мин

11K

Базы данных * Открытые данные * Визуализация данных * Хранение данных *

FAQ

Для анализа и обработки больших объёмов данных применяются специальные системы — OLAP (Online Analytical Processing). Мы разберём основные принципы их работы, преимущества и примеры использования.

Определение OLAP-систем

OLAP-системы — это инструменты для анализа данных, которые позволяют быстро и эффективно находить ответы на сложные вопросы.

Они находят применение в разных сферах, таких как финансы, производство, розничная торговля и другие.

Пример использования OLAP-технологии

«В компании, занимающейся продажей цифровых товаров и программного обеспечения, многомерный куб помогает анализировать данные».

Читать далее

+1

Project-2501 14 мая 2025 в 06:16

BookStack: мой опыт настройки и использования open-source базы знаний

Простой

7 мин

23K

DevOps * IT-инфраструктура * Open source * Базы данных * Открытые данные *

Из песочницы

Как я поднял базу знаний за 15 минут — без бюджета и опыта

Почему я выбрал именно BookStack

Мы в команде давно искали удобный инструмент для хранения технической документации и инструкций. Пробовали всё подряд — от Wiki.js до Confluence. Но то санкции, то интерфейс перегружен, то кастомизация страдает. В какой-то момент я наткнулся на BookStack — лёгкую, симпатичную open-source платформу на Laravel. Решил попробовать. В итоге — развернул, настроил, и теперь она у нас в проде.

Читать далее

+7

empenoso 6 мая 2025 в 01:20

Подборка систем и индикаторов за 2006-2010 одного старейшего журнала по техническому анализу

Простой

8 мин

3.4K

Открытые данные * Финансы в IT

Ретроспектива

Это вторая часть погружения в идеи из журнала Technical Analysis of STOCKS & COMMODITIES. В первой части мы разобрали публикации за 2001–2005 годы - если вы её ещё не читали, рекомендую начать с неё: первая часть здесь.

Теперь мы переносимся во времена перемен — 2006–2010 годы. Это период перед мировым финансовым кризисом, в его разгар и в первые годы восстановления. Рынки лихорадит, волатильность зашкаливает, а авторы Traders' Tips ищут устойчивые подходы, предлагают свежие индикаторы и экспериментируют с управлением рисками.

Мы продолжаем исследовать эти идеи и смотреть можно ли их адаптировать к современным условиям. Все ссылки — только на оригинальные материалы на официальном сайте журнала — никакого пиратства, только уважение к источнику.

Читать далее

+3

MrSotnik 29 апр 2025 в 08:39

Data Science в рекрутинге: как структурировать хаос резюме и находить лучших кандидатов. (часть 1)

3 мин

849

Big Data * Открытые данные * ИнтервьюData Engineering * Data Mining *

Подбор персонала — это поиск иголки в стоге сена, с одной оговоркой: иголка должна хотеть работать именно у вас. Когда на входе — сотни резюме с hh.ru, а на выходе нужно выбрать топ-5 кандидатов, без автоматизации не обойтись. Но как научить алгоритм отличать будущего топ-менеджера от человека, который в графе «Опыт работы» указал «10 лет в Minecraft»?

Читать далее

+2

empenoso 27 апр 2025 в 02:02

Подборка систем и индикаторов за 2001-2005 одного старейшего журнала по техническому анализу

Простой

10 мин

3.4K

Открытые данные * Финансы в IT

Ретроспектива

Понимаю, что тема технического анализа не соответствует привычному формату Хабра, но считаю, что этот архив представляет собой действительно ценный и полезный ресурс.

В статье собрана коллекция торговых систем и индикаторов, опубликованных в журнале Technical Analysis of STOCKS & COMMODITIES за период с 2001 по 2005 год. Это издание считается одним из наиболее авторитетных в мире в области технического анализа.

Материалы могут быть интересны трейдерам, разработчикам торговых стратегий, программистам и инвесторам, стремящимся расширить свои знания и набор инструментов. Все представленные идеи сопровождаются официальными ссылками на сайт журнала, что обеспечивает соблюдение авторских прав и делает подборку легальной и надежной.

TACS с 2001 по 2005 год

+1

ph_piter 23 апр 2025 в 10:56

Книга: «OSINT. Руководство по сбору и анализу открытой информации в интернете»

4 мин

28K

Блог компании Издательский дом «Питер»Информационная безопасность * Открытые данные * Профессиональная литература *

Привет, Хаброжители!

В современном цифровом мире сбор информации — залог безопасности. Книга Дейла Мередита «OSINT. Руководство по сбору и анализу открытой информации в интернете» знакомит читателей с миром профессиональной работы с открытыми источниками данных. Погрузитесь в мир цифровых расследований с книгой, которая станет вашим ключом к пониманию современных угроз и методов защиты от них. Шаг за шагом читатель последовательно проходит все этапы работы с открытыми источниками: от основ кибербезопасности до тонкостей разведки по открытым источникам (OSINT). Новинка от издательства Sprint book.

Читать дальше →

+6

Semin_Pavel 21 апр 2025 в 08:17

Как я за год написал шесть больших научных статей и несколько маленьких

Средний

14 мин

8.3K

Лайфхаки для гиковГеоинформационные сервисы * Открытые данные * R * Занимательные задачки

Кейс

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

Читать далее

+11

alyonayurchenko 17 апр 2025 в 12:41

«Надо учить не знанию, а пониманию»

12 мин

4.6K

Открытые данные * Управление персоналом * Управление продуктом * Управление проектами * Управление сообществом *

Репортаж

Recovery Mode

14 февраля в Российском новом университете – сдвоенный праздник: день рождения гениального физика и популяризатора науки Сергея Петровича Капицы и День всех влюблённых. По инициативе Студенческого научного общества он синтезировался в День влюблённых в науку.

Читать далее

-1

Tinkao 16 апр 2025 в 06:53

7 опорных функций, которые должны быть в вашей системе Data Governance

Средний

7 мин

2.1K

Блог компании РСХБ.Цифра (Россельхозбанк)Открытые данные * Управление проектами * IT-стандарты * Хранение данных *

Аналитика

Привет, Хабр! Я Татьяна, в РСХБ-Интех работаю с данными, в прошлый раз я рассказывала про свои любимые фреймворки для повышения эффективности бизнеса. В этот раз статья посвящена Data Governance.

Data Governance управляет не самими данными и их потоками, а метаданными, которые сопровождают их во всех точках ввода, обработки, хранения и перемещения, вплоть до уничтожения.

Наиболее прогрессивные компании сегодня имеют целые экосистемы по управлению жизненным циклом данных. Такие экосистемы могут включать в себя несколько приложений или программных продуктов, которые дирижируются Data Governance процессом, выстроенным внутри организации.

Читать далее

+9

ap_security 13 апр 2025 в 17:45

Python для OSINT в Telegram: автоматизация Threat intelligence

Простой

10 мин

17K

Python * Мессенджеры * Открытые данные *

Туториал

Перевод

Привет, на связи лаборатория кибербезопасности компании AP Security.

Узнайте, как создать парсер Telegram на Python с использованием Telethon для осинта и сбора данных об угрозах. Пошаговое руководство с практическими примерами.

Читать далее

+3

KiraD 2 апр 2025 в 10:07

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

7 мин

6.4K

Открытые данные * Визуализация данных * Python * Статистика в IT

Аналитика

Данный отчет представляет собой аналитическое исследование авиапроисшествий, произошедших в период с 2014 по 2024 годы и расследованных МАК. В основу анализа легли данные о происшествиях, включающие сведения о типах воздушных судов, числе погибших, географическом расположении инцидентов, а также причинах катастроф

Читать далее

+8

4

5 6 ...