Блог Книжки Блогрол

Тег «Аналітика»

Знайдено 5 постів

Як збирали кількість знищених цілей за 2023-й рік (+ датасет)
Як збирали кількість знищених цілей за 2023-й рік (+ датасет)

Пару тижнів тому у твітері розлетілась моя інфографіка, від якої у дизайнерів (і у мене теж) ледь не зупинилось серце від зменшеного масштабу ракет та дронів, але на якій прекрасно видно масштаб кількості збитих шахедів – зображення навіть опублікувало Міноборони.

На редіт зображення теж потрапило з досить цікавими коментарями:

Збір та аналіз

Інформації про кількість збитих цілей кожного дня у відкритому доступі та зручному форматі за рік не було – в офіційних звітах Генштаб публікує лише загальну інформацію за ракети/БПЛА. Повітряні Сили публікують кожного дня зображення, тому ми вирішили спробувати їх розібрати. За весь рік зібралось 246 зображень, і Clark from InVision Михайло з Alerts.in.ua зібрав їх з соціальних мереж. Звіти публікують не кожного дня, але у деякі дні можна побачити декілька звітів.

Парсинг та обробка

Спочатку треба було всі дані перевести в текстовий формат. Я так і не знайшов гарних бібліотек, які витягнули б цей текст з зображень з українським текстом, але gpt-4 вміє у vision – може розпізнавати зображення та те, що на них бачить, тому він ідеально впорався з цією задачею!

Разом з gpt я трохи відредагував трохи промпти, щоб він повертав лише значення з зображень та нічого не перекладали та не змінювати, і почав обробляти ці всі 246 файлів. GPT взяв за це якісь $3, і віддав через пару хвилин, що він розпізнав! Якість розпізнаного тексту була ідеальною, тому кожен цент був витрачений не дарма!

До речі, деякі розробники розпізнають кількість овочів та фруктів на зображеннях, і переводять це все в json формат:

В зображеннях варіативність значень знищеної техніки та різних форматів (наприклад, коли було знищено ВДК «Новочеркаськ» або ракети залетіли в простір НАТО) та gpt не вміє в математику. Був сенс лише автоматизувати розпізнавання лише тексту, а не агрегувати всі витягнуті значення, а далі вже писати регулярні вирази для категоризації.

Через те, що цікавить лише все, що між «ЗНИЩЕНО» та «Повітряні Сили», було дуже легко зібрати список всього, що взагалі згадується та розбити все по категоріях знищених БПЛА, ракет та авіації.

Діаграми та Metabase

Якось Стас мені розповів, що вони на Джинні використовують metabase – мені стало цікаво його спробувати для побудови діаграм – з sqlite він так собі працює та повертає часто помилки (але я впевнений, що він гарно працює з чимось складним, а не звичайним .sqlite файлом), але графіки побудував успішно!

Наприклад, кількість збитих шахедів за кожен місяць року:

Та загальна кількість збитих ракет:

Що по авіації?

Дуже багато зʼявилось питань та конспірологічних теорій, чому авіації на інфографіці не було. Причини дві: я не встигав перевести іконки авіації у вектори та Повітряні Сили не публікували всю інформацію про збиту авіацію. У звітах від Повітряних Сил є інформація лише про 17 одиниць техніки, хоча Генштаб повідомляв за 44 збитих за рік.

Є датасет?

Так, ось:

Трохи більше інформації по полях:

  • uav_drones – це дрони, про які згадувалось «оперативно-тактичного рівня», «отр», «розвідувальн*» або «бпла». Також якщо в одному рядку згадувались дві різні моделі дронів (наприклад, «4 БПЛА "Орлан-10", "Supercam"») – вони входили в цю категорію
  • missiles – кількість ракет, які не вдалось додати в будь-яку іншу категорію. Наприклад, «11 ракет "Іскандер-М", "Іскандер-К"» – це крилаті та балістичні ракети, тому я зберігав їх як 11 missiles, але «10 балістичних ракет (тип уточнюється)» зберігаються як ballistic_missiles, а якщо вказується найменування ракети – вона зберігається вже під конкретною назвою.
  • helicopter – звіти вигляду «1 вертоліт (тип уточнюється)».
  • Звіт з ВДК «Новочеркаськ» від 26-го грудня в цей файл не потрапив.

Якщо будете використовувати та будувати якусь інфографіку – додайте посилання, будь ласка! ❤️

Рік в тривогах – 2023
Рік в тривогах – 2023

Після релізу Spotify Wrapped зʼявилась думка спробувати зробити підсумки по тривогах та обстрілах країни, і рівно за три тижні (тобто сьогодні) стався реліз – wrapped.alerts.in.ua!

Спочатку здалось, що можна додати лише загальну інформацію та графіки про напрямки руху шахедів, але потім це розрослось майже до 50 задач, і остання закрилась буквально пару годин тому.

У кожній області є свої сторіз з важливими новинами за рік, відео та різними графіками та важливими цифрами. Ще цікаво подивитись, як відрізняється пелюсткова діаграма (aka radar chart) в різних областях країни – прифронтових та ті, які знаходяться подалі від фронту.

Ми ще думали, що станеться швидше – чи почнеться голосування на премії ДОУ (яке повинно було початись вже як два тижні тому), чи Повернись Живим закриє збір «Запакуй небо», чи релізнуться сторіз – виявилось, що ми все-таки перші!

Через те, що у Wrapped є посилання на збір ППО, а збір від «Повернись Живим» вже на 98%, то можна вважати, що саме ми закриємо цей збір!

Круасанний блекаут. Коли закінчується випічка у Завертайлі
Круасанний блекаут. Коли закінчується випічка у Завертайлі

Нещодавно на просторах інтернету я знайшов бота, який перевіряє, чи є хліб у Спельті (бо він швидко закінчується), і настав час вияснити, які круасани найбільше за все у дефіциті у завертайлівської шляхти.

Через те, що вся ця інформація про наявність круасанів є в меню на сайті, то досить швидко з копайлотом написав скрипт, який постійно перевіряє всі позиції, де згадуються круасани. Я хотів ще додати пекарні «Leilia Bakery» та «Bonco», але у них хоч і меню онлайн є, але немає інформації про наявність. Ну і цін тут, звісно, не буде, щоб вирівнювався класовий розрив, але завжди можна подивитись меню та ціни на Подолі та біля Софії.

В обох Завертайлах за останній тиждень завжди були в наявності звичайні круасани (насправді, його не було 10 хвилин в одному закладі, але виглядає, що це якась помилка була), круасани з лососем, круасани з індичкою та круасани з ростбіфом та томатним айолі – скоріш, це все те, що не готується заздалегідь, а по запиту.

Також в меню є «Перша шпальта» – схоже на рекомендації, які оновлюють протягом дня та дублюють круасани з інших розділів сюди. Проблема в тому, що іноді десь забували оновлювати стан круасанів (в меню було недоступно, але на шпальті було в наявності або навпаки), тому за джерело правди була завжди перша шпальта – мені здалось, що там її оновлюють частіше.

Завертайло біля Софії

Перше та друге місце ділить фісташковий круасан – його не було в наявності протягом останнього тижня приблизно 44 години (тут і далі: це години роботи закладу, нічний час я не рахував) та круасан з маскарпоне та чорницею (~42 години).

Круасан фісташковий

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан з маскарпоне та чорницею

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Темніший колір означає, що якоїсь випічки не було приблизно повну годину (але 40-45 хвилин округляються та вважаються за одну годину), а трохи світліший – менше ніж годину (наприклад, 15 хвилин). Тому не обовʼязково кількість годин буде дорівнювати кількості квадратів.

Далі в рейтингу круасан тірамісу (32 години), круасан крем-брюле – 30 годин, та круасан Борис Джонсонюк (28 годин).

Круасан Тірамісу

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан крем-брюле

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан Борис Джонсонюк

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан з маком та вишнями

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Цікаво, що у більшості випадків деякі круасани закінчуються більш-менш рівномірно, а фенсі- та незвичні круасани, наприклад, шоколад-бергамот – саме на вихідних. Чатжпт не впорався з задачею раціоналізувати це, тому ця задача залишається читачу :)

Рейтинг закриває шляхетський круасан 5 ягід (18 годин), круасан з заварним кремом та полуничним кулі (17 годин), круасан слива-черемха (16 годин), круасан з капустою та круасан з мигдалевим франжипаном (15 годин) та круасан з шоколадним заварним кремом (6 годин).

Завертайло на Подолі

А тут на першому місці круасан шоколад-бергамот – 36 годин був недоступним, і він дуже цікаво виглядає!. На другому місці круасан шоколад-лимон (22 години).

Круасан шоколад-бергамот

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан шоколад-лимон

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

На третьому місці, круасан з маскарпоне та чорницею (21 година) та круасан крем-брюле (19 годин) круасан Борис Джонсонюк (19 годин) та круасан з маком та вишнями (15 годин).

Круасан з маскарпоне та чорницею

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан крем-брюле

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан Борис Джонсонюк

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

Круасан з маком та вишнями

8:00
12:00
16:00
19:00
Пн
Вт
Ср
Чт
Пт
Сб
Нд

І, нарешті, круасан з заварним кремом та полуничним кулі та круасан з капустою (по 14 годин), круасан з шоколадним заварним кремом, круасан з мигдалевим франжипаном (10 годин). Завершує рейтинг круасан фісташковий (7 годин), шляхетський круасан 5 ягід (6 годин), круасан Тірамісу (4 години) та круасан слива-черемха (півтори години).


Сумарно перемагає круасан, який не залишить байдужим (з маскарпоне та чорницею), тому якщо раптом його хочецця – бажано рано зранку та увечері не шукати щастя :)

Ну і цікаво було побачити, що та випічка, яка в одному закладі швидко закінчується, в іншому ще досить довго є в наявності.


Тепер можна знати, коли виходити за круасаном з класового розриву, а коли за звичайним! © Ліна

Діаграма накруту #укртві
Діаграма накруту #укртві

Поки компанія Ілона Маска ще не закрила безплатний доступ до апі твітера та на основі твітів (🚬🚬🚬 та «якось буде») останніх днів, зʼявилась мікроідея – подивитись, як такі повідомлення впливають на спільноту, тому за пару годин вдалось побудувати цю діаграму.

За основу взяті твіти з текстом «Стало краще»/«Стало гірше»/«Накрут» (+ в різних родах)/«Розкрут» та схожі.

Аттеншн: ніякої цінності це все може не мати (так як ці фрази іноді дуже не в контексті використовуються), тому не використовуйте це все у своїх дипломних роботах на тему як лідери думок впливають на твітер-спільноту.

Оновлено: API прикрили на початку червня, тому тут буде історична ретроспектива з лютого місяця.

😵‍💫 Завантаження… 😵‍💫
(Оновлюється час від часу. Останнє оновлення: 😵‍💫)

Статистика оновлюється кожну годину та буде працювати до останніх сил, доки Ілон Маск і його компанія дозволять це робити. Час від часу можна переглядати цей пост, і якщо дані перестануть оновлюватись – це знак, що розробники твітера забили ще один цвях в розвиток платформи.

Бережіть себе! 🇺🇦

Книжечки під час війни: що читають в українському гудрідз
Книжечки під час війни: що читають в українському гудрідз

В перші дні війни досить багато (оціночне судження :) людей поклало в свою тривожну валізку хоч якусь книжку. В твітерах з'явились треди з цікавими відповідями про те, хто яку книжку взяв або хотів би взяти, і там досить цікаві відповіді.

Не дивлячись на п'ятий місяць війни, читачі повертаються до книжок для пошуку нових сенсів, і мені стало цікаво, що українці читають під час війни.

За декілька днів перед війною я імпульсивно придбав Ласощі для Медора Андрія Бондара з есеями. Ця книжка стала першою прочитаною через декілька тижнів після початку, а формат став приємним відкриттям – наче читаєш ?треди? інфлюенсерів в твітері, але на папері! Виявилось, що там були досить актуальні роздуми, так що мої рекомендації для всіх professional thinkers!

На жаль, доступів до статистики книжкових маркетплейсів немає, але є Гудрідз, який показує статистику книг за останні 4 місяці, тому можливо зібрати приблизну статистику в цій бульбашці. Гудрідз — досить закрита платформа-монополіст, який створює багато проблем для розробників, тому хоч він і показує базову статистику, але все ще була проблема зібрати список книг – загального списку книг українських видавництв в відкритому вигляді ніде немає.

Першим рішенням було зібрати список з одного великого книжкового маркетплейсу з категорії «Xіти продажу» — це спрацювало, але виявилось, що в тому списку там немає книг, яких вже в наявності немає. Далі я зібрав список електронних книг, і це дало додатковий результат, але все одно було недостатньо. Виявилось, що Український Інститут Книги якраз прямо зараз збирає каталог української літератури, і це було те, що потрібно! Після об'єднання всіх списків з'явився список з 2300 книг.

?
1. З списку були видалені всі книжки іноземних видавництв та іноземними мовами — гудрідз не дозволяє фільтрувати по локації користувачів, тому рахувались лише книги українською
2. Через специфіку, в книжках, де назва повністю співпадає з російською, можливі були помилки. Я намагався виправити, але можливо, що щось залишилось
3. Не всі книжки видавництв тут присутні — повний список книг є внизу сторінки. Якщо є актуальніший список – напишіть мені, будь ласка! Наприклад, лише одна книга Снайдера, але наймейнстрімніша в цьому списку є. Те саме з книжками Грицака
4. Дані з 24 лютого по 14 липня 2022 року
5. Дякую Джефу Безосу за те, що все ще не заблокував мій акаунт в гудрідз після великої кількості запитів!

ТОП-25 прочитаного за воєнний час

На першому місці очікувано «Інтернат» Жадана – роман про російськомовного вчителя української мови, який вивозить племінника з інтернату з окупованої території. За весь час його додало в список для читання 1120 читачів, а прочитало — 390. До речі, рекомендую (навіть більше, чим книжку Любки) випуск подкаста «Наразі без назви», де обговорюється саме цей роман. Цей роман було перекладено на англійську та інші мови, тому цікаво, що 24-го лютого ми всі ховались по сховищах, а весь світ активно додавав цей роман в свій список для читання:

Переклади Українське видання
CleanShot-2022-07-17-at-13.56.39 CleanShot-2022-07-17-at-13.59.06

Я будував та дивився інші графіки по книгам, але якихось незвичайних та різких перепадів не було, тому я не став їх включати. В більшості це схоже на графік праворуч (на початку війни майже нічого, а лише через два-три тижні почало відновлюватись).

На другому місці мімімішна книга «Спитайте Мієчку» Євгенії Кузнєцової. Близько 800 користувачів додало, та 337 прочитало. Це чомусь стало відкриттям – здавалось, що абсолютно нічого пов'язаного з війною немає, але це єдина книжка, яку твітеряни хотіли взяти з собою.

На третьому місці «Тигролови» Івана Багряного. Близько 590 читачів додало в список для читання та 224 прочитало.

# Назва Додано на поличку Прочитано % прочитаних від доданих
1 Сергій Жадан – Інтернат (Меридіан Черновіц) 1121 392 34%
2 Євгенія Кузнєцова – Спитайте Мієчку (Видавництво Старого Лева) 804 337 41%
3 Іван Багряний – Тигролови (Видавництво Фоліо) 558 224 40%
4 Володимир Станчишин – Стіни в моїй голові. Жити з тривожністю і депресією (Віхола) 531 170 32%
5 Ілларіон Павлюк – Я бачу, вас цікавить пітьма (Видавництво Старого Лева) 442 136 30%
6 Віра Агеєва – За лаштунками братерства: есеї про українсько-російські культурні відносини (Віхола) 437 63 14%
7 Станіслав Асєєв (пер. з російською Вікторія Стах) – «Світлий Шлях»: історія одного концтабору (Видавництво Старого Лева) 390 95 24%
8 Дмитро Кулеба – Війна за реальність. Як перемагати у світі фейків, правд і спільнот (Книголав) 349 77 22%
9 Сергій Плохій – Брама Європи. Історія України від скіфських воєн до незалежності (Книжковий клуб "Клуб Сімейного Дозвілля") 339 79 23%
10 Френк Герберт – Дюна (Книжковий клуб "Клуб Сімейного Дозвілля") 326 178 54%
11 Софія Андрухович – Фелікс Австрія (Видавництво Старого Лева) 323 133 41%
12 Тамара Горіха Зерня – Доця (Білка) 311 83 26%
13 Тімоті Снайдер (пер. англійської з Галина Герасим) – Шлях до несвободи: росія, Європа, Америка (Човен) 307 56 18%
14 Катерина Негодюк – Матера вам не наймичка, або Чому діти це... прекрасно (Віхола) 304 116 38%
15 Ліна Костенко – Записки українського самашедшого (А-ба-ба-га-ла-ма-га) 275 96 34%
16 Артем Чех – Хто ти такий? (Меридіан Черновіц) 271 78 28%
17 Дорж Бату – Моцарт 2.0 (Видавництво Старого Лева) 269 141 52%
18 Елізабет Ґілберт – Місто дівчат (Видавництво Старого Лева) 268 139 51%
19 Ореста Осійчук – Абрикосова книгарня (Наш Формат) 264 89 33%
20 Софія Андрухович – Амадока (Видавництво Старого Лева) 260 40 15%
21 Дорж Бату – Франческа. Повелителька траєкторій (Видавництво Старого Лева) 256 136 53%
22 Марі Карачина – Never Stop (Видавництво Старого Лева) 253 100 39%
23 Всеволод Нестайко – Тореадори з Васюківки (А-ба-ба-га-ла-ма-га) 247 105 42%
24 Фредрік Бакман – Чоловік на ім'я Уве (Книголав) 219 111 50%
25 Дорж Бату – Таємниця старого Лами (Видавництво Старого Лева) 208 100 48%

Видавництва

Так як була інформація за видавництва, які видали книжки, то є можливість побудувати статистику по агрегованим книгам видавництв, якими цікавляться. На першому місці ВСЛ, а далі неочікувано опинились КСД та Фоліо

# Назва Додано на поличку Прочитано % прочитаних від доданих
1 Видавництво Старого Лева 11618 5132 44%
2 Книжковий клуб "Клуб Сімейного Дозвілля" 6588 3352 50%
3 Видавництво Фоліо 3861 1538 39%
4 Віхола 2974 926 31%
5 Меридіан Черновіц 2746 1083 39%
6 Наш Формат 2740 926 33%
7 Віват 2627 1074 40%
8 Книголав 2500 1016 40%
9 А-ба-ба-га-ла-ма-га 2373 1167 49%
10 Якабу 1904 753 39%
11 Комора 1504 439 29%
12 Букшеф 1502 776 51%
13 Мультимедийное издательство Стрельбицкого 1035 474 45%
14 Навчальна книга – Богдан 829 351 42%
15 Фабула 773 305 39%
16 Лабораторія 710 239 33%
17 Видавництво Жупанського 635 231 36%
18 Nebo BookLab Publishing 625 285 45%
19 Човен 501 119 23%
20 Білка 438 128 29%
21 Жорж 385 150 38%
22 Видавництво Анетти Антоненко 376 157 41%
23 КМ-БУКС 371 170 45%
24 Книги ХХІ 293 131 44%
25 Дискурсус 231 99 42%
26 Урбіно 220 111 50%
27 Знання 211 118 55%
28 Видавництво 21 208 86 41%
29 Ранок 201 108 53%
30 Аннета Антоненко 200 105 52%

Список книг

Список цих 2300 за посиланням.

Висновки

В мене постійно була чомусь в голові ідея в тому, що багато читачів зануряться в історичний нон-фікшн, але по факту вийшло, що проза на перших місцях. Цікаво, що книжки, які пояснюють історію (Снайдер, Агеєва, Плохій з рейтингу), з дуже низьким коефіцієнтом читання (14-20% прочитало їх).

Але не варто забувати, що це лише бульбашка гудрідзу – в книгарнях, можливо, взагалі інша ситуація.

Замість кінцівки буде один з моїх хоум-мейд телеграмних стікерочків з Тімооотііі:

🇺🇦 ❤️ 🇺🇦

Посилань на buymeacoffee знову не буде – підтримайте волонтерів та військових, але ви всі, котики, і так це знаєте :)

© Клименко Вадим
[email protected]
Підписочка
На e-mail або RSS
Соцмережі
Твітер / Блускай / Фейсбук
Цікавеньке
Блогрол
Створено під час повітряних бледін у  Fill 3 Києві