關鍵要點
我們正在推出一個新的多源、經過清理、富含人工智慧的公司資料集
資料集包含 3500 多萬家具有多個識別碼的公司
資料集中的每筆記錄都包含來自各種資料集合的資料點,包括公司統計資料、成長洞察、財務資料、技術統計資料等等
以 JSONL、CSV 或 Parquet 格式取得數據
我們很高興地宣布推出我們的最新創新—多源公司數據。這款新的旗艦數據產品代表了我們在提供網路數據方面的重大飛躍,首次引入了多源、清潔且富含人工智慧的數據集。我們首先將來自多個公共 台灣數據 網路來源的公司資料匯總成一個單一的、全面的、有凝聚力的資料集。
什麼是多源公司資料?
多源公司數據是一個數據集,它匯總了來自各個領先的業務平台和其他來源的信息,為超過 3500 萬家公司創建詳細而全面的資料。資料集中的每個公司資料都包含多個標識符,以便於處理和整合。
此資料集包含 300 多個資料點,可 JSONL、CSV 或 Parquet 格式傳送給客戶端。
以下是此資料集中資料集合的概述:
主要公司資訊(公司統計)
基於歷史數據的成長洞察
線上狀態和評論
財務和融資
技術圖表和產品
更多內容
我們如何處理這個資料集中的資料?
多源公司資料集的處理分為幾個關鍵步驟:
過濾。我們對核心資料集進行了過濾,刪除了空的或低價值的記錄。
打掃。標準化日期格式和刪除 HTML 標籤等操作可以使資料集更具可讀性、一致性和可操作性。
豐富。我們使用專有方法添加附加字段,包括專門指導的大型語言模型 (LLM),它使我們能夠提取更準確的公司描述、類別和關鍵字。
製圖。我們將清理後的資料映射到其他來源,並將所有內容統一為單一輸出。
主要優勢
減少資料集大小。透過匯總和提煉來自多個來源的數據,我們顯著減少了您需要處理的數據集的大小。這意味著更快的數據處理和更容易的數據管理。
節省數據工程資源。我們代表客戶處理耗時的資料收集和處理步驟,這意味著節省寶貴的資料工程資源。處理資料清理的所有細節意味著您的資料工程師可以專注於策略任務而不是常規資料處理。
價值實現時間更短。刪除低價值記錄並僅使用相關且乾淨的欄位簡化資料結構意味著我們的客戶將有更多時間從資料中提取價值,而不是解決原始資料有時出現的挑戰。
提高數據品質。我們對該資料集進行了廣泛的處理,包括清理、聚合和豐富的附加價值,消除了冗餘並確保了資料的全面性和高品質。
來自歷史數據的見解。對於該數據集,我們還匯總歷史數據,標記某些公司指標隨時間變化的百分比,這些指標表明增長趨勢,例如員工人數、社交追隨者、活躍職位發布數量和評論。透過我們的任何其他數據產品都無法輕鬆獲得如此細粒度的數據。