№22: Delta Lake – чесний опенсорс чи датабріксовий вендор лок
Manage episode 338701368 series 3361795
В гостях – Олександр з Zalando
🔞 Ми перестали вирізати матюки 🔞
Робочі посилання в каналі https://t.me/midnight_chatter
- 00:00-00:30 Дисклеймер
- 00:30-01:50 Інтро і 🇩🇪Data See
- 01:51-02:31 Озвучуємо тему: Delta Lake представлений на Data & AI Summit, і супутній Open Source delta.io
- 02:31-04:00 Звідки назва? Дельта формат і дата лейк
- 04:00-08:25 А що таке дельта формат? Як це виглядає на файловій системі
- 08:25-10:06 Чи хтось перевинайшов Redshift Spectrum?
- 10:06-13:40 Історія і мотивація переходу до дата лейків в роботі Олександра. А потім і до дельта лейків
- 13:40-14:46 Неструктуровані дані і дельта лейк
- 14:46-15:52 Співіснування дата і дельта лейку, їх подальше використання
- 15:52-18:30 Чому люди всередині компанії хочуть мігрувати на дельта лейк
- 18:30-19:28 Стрімінг в дельті - це і в опенсорсі є чи щось пропрієтарне
- 19:28-22:15 Як дельта лейк працює на запис
- 22:15-34:00 І знову, що в опенсорсі, що пропрієтарне. OPTIMIZE & VACUUM команди. Адаптери для читання і як читати дельту руками. Unity Catalog. Delta Live Tables. Delta Sharing.
- 34:00-35:59 Неймдропаємо і пробігаємося по альтернативам: Palantir Foundry, Iceberg, Hudi. (Допис з порівнянням). Мінісрач “хто опенсорснійший”.
- 35:59-36:26 Милі котусики сперечаються, хто кого більше любить
- 36:26-42:07 Коли обирати дельту замість Snowflake чи BigQuery.
- 42:07-44:47 Time Travel & снепшоти - чи дорого і навіщо взагалі?
- 44:47-47:37 Зручніть розгортання копій таблиць
- 47:37-48:57 Які найбільші проблеми формату? [згадуємо Structured Streaming]
- 48:57-50:00 Заглядаємо в саму суть дельти ака висновки
- 50:00-51:34 Outro
Долучайтесь до нашого телеграм каналу https://t.me/midnight_chatter
Twitter: @O_Balachky
TikTok: @o_balachky
Музика: https://www.streambeats.com/ | @stas_gee
46 episodes