· Joseph · Today I Learn  · 3 min read

[TIL] New service sharing: Hex.tech

Podcast source: Hex: Data Project Sharing with Caitlin Colgrove and Barry McCardel

最近迷上聽podcast,裡面專門介紹新服務跟技術,同時可以練練聽力跟學習新知,既然學了乾脆把它寫成心得分享出來。今天來介紹一個新聽到的服務: Hex,在解決大數據專案資料共享的問題。

Hex screenshot

雖然我不是個資料工程師,但曾經使用過Python Jupyter Notebook,而且中間又經歷過換電腦,要重跑都得安裝一堆有的沒的,每次用起來都很不方便。但這次聽到這個服務也是讓我滿臉問號,Jupyter不是已經很多人用了?為什麼又有一個類似的服務出來?

這次訪問到的兩個人Caitlin跟Barry是Palantir的同事,Palantir共同創辦人是Paypal的Peter,他們的客戶都是赫赫有名的大公司大企業或政府機關,但Caitlin跟Barry在Palantir裡看到客戶們導入Data-driven時的種種困難,才衍伸出這個Hex產品。當資料越來越多,就出現共享資料的問題;當團隊越來越大,就出現共同討論的問題。更宏觀一點來看,其實Hex是為了解決整個workflow的問題,會不會我在測試的方法別人用過了?會不會我用同樣的方法可以但你用同樣的方法不行?每次溝通都要透過切換軟體?討論結果還得匯出成PDF傳給對方?Hex可以讓data team的workflow又可以解決討論跟共享的問題,這很像真的挺有價值的。

中間訪問到技術面如何解決共享問題時,Caitlin提到了一個Conflict-free replicated data type(CRDT)演算法,還有另一套Operational Transformation(OT),這兩個都是他們在處理real-time功能時的tradeoff。再加上他們優化了Apollo跟GraphQL,最後才達到他們想要的協作體驗。

這篇podcast還提到了很多很多資料科學領域會用到的tools跟一些BI的工具,甚至是新的data pipeline,而這些也是現在資料科學家要一直學習的東西。或許未來pipeline會不一樣,但他們應該也會更快整合並讓大家使用。

Related Posts

View All Posts »
Algorithm - hash map and set

Algorithm - hash map and set

import { YouTube } from 'astro-embed'; Set and Map 平常就有在用,map存的是Key-value pair、Set存的是unique value。而且操作上來說平均都是O(1)時間複雜度。這篇就來看看他們適合解哪些題型吧。

System design - Consistent hashing

System design - Consistent hashing

ByteByteGo這篇介紹的是一致性雜湊,一般來說會用到雜湊,目的是為了把流量透過固定的演算法,分散到某台機器上面,那什麼是一致性雜湊,不好的雜湊演算法又會有什麼問題呢?這篇筆記來說一下ByteByteGo怎麼介紹的。

System design - A rate limiter

System design - A rate limiter

這篇要介紹的是Rate Limiter,是ByteByteGo System design裡面第一個design環節。現在很多後端主流框架都有內建或有對應套件,但對應的演算法卻被封裝起來,知其然不知其所以然。 今天這篇靠AI生成點簡單的示意圖,讓一張圖道盡千言萬語。

Two Pointers Algorithm

import demo from './demo.mp4'; import triplet from './triplet.mp4'; import palindrome from './palindrome.mp4'; import largest_container from './largest_container.mp4'; import shift_zero from './shift_zero.mp4'; import next_permutation from './next_permutation.mp4'; 最近買了ByteByteGo裡的Lifetime Plan方案,才把Coding interview patterns裡的Two pointers algorithm跟System design interview裡的Design A Rate Limiter念完,就先用這篇來筆記一下Two pointers algorithm