apache
検索エンジンを構築したところが抜けてます。すみません 1. Apache Solrとは Apache Solrとは、Apache Luceneをベースとして開発された、人気で、非常に高速で、オープンソースの検索エンジンです。 1.1 特徴 Apache Luceneをベースとして開発された検索エン…
本記事 本記事はApache SupersetのmacOSでのインストール、セットアップをして、実際にMySQLにあるデータを可視化しようと思います。 ゴールは以下のようなダッシュボードです。 1. Apache Supersetとは エンタープライズで使えるモダンなBIアプリケーション…
本記事 今回はApache DruidをmacOSにインストールして、実際にSQLでデータを入れたりしてみようと思います。 1. Apache Druidとは 公式サイトを直訳すると、 Apache Druidとはイベント駆動開発のための高パフォーマンスを持つ解析データストア です。 1.1 概…
Apache Prestoとは Treasure Dataさんから非常に詳しい記事があるので紹介させていただきます。 tug.red Apache Zeppelinとは 以下の記事で以前、解説させていただきました。 www.1915keke.com 記事の目的 以前の記事では問題がありました。 今回は完全に個…
はじめに 本記事はApache Beamを使ってPipelineを構築します。 次回、自分の得意なGolangで書くエントリを執筆します。 今回は他のApache Stormなどのストリーム処理システムでは一般的なJavaを使おうと思います。 注意 Apache Beam Quickstartでは、なぜかP…
本記事 この記事はApache Beamのコンセプトや開発方針を調査します。 別の記事にて、実際にApache BeamのPipelineを開発してみようと思います。 1. Apache Beamとは Apache Beamとは、 Apache Beamとは、バッジ処理とストリーム処理を統合されたプログラミン…
本記事 Apache SAMOAというApache財団のIncubatorプロジェクトがあります。 特に、日本語の記事が全くないので記事にしようと思いました。 Apache SAMOAとは 分散ストリーム機械学習フレームワークです。 SAMOAが大文字なのは略語であるからです。 S: Scalab…
1. Apache Flinkとは Apache Flinkとは、データストリーム上でのステートフルな処理システムである 注意:本記事で使う画像は参考文献から引用させていただきます 1.1 特徴 ストリーム処理をするようなあらゆるユースケースでフィットすることができる イベ…
本記事 Apache Zeppelinを実際に触ってみて、動作や運用条件の雰囲気を掴みたいので、そのための備忘録である。 実際に動かしているアプリケーションで使ってみる。 注意 Apache Zeppelinとなると、Apache Hadoopなどに対して使う人が多いのではないかと思い…
本記事 この記事は随時、更新します。 ストリームエンジンの多さや、その周辺技術のOSSが多すぎで、把握するのもキャッチアップするのも難しいです。 なので、これまでのチュートリアルや自分の個人プロジェクトとして学んだものを記事にしてまとめています…
本記事について 勉強不足の甲斐もあって、Apache Kafka, Flink, Storm, Heron...など聞くだけでいうと、どれも同じではないのか?って疑問に持ちました。 これまで、少しづつ手元で動かしてみて、包括的経験として積み重ねています。 その中でも、少し他のと…
Apache Heronとは 公式サイトから。 A realtime, distributed, fault-tolerant stream processing engine from Twitter 日本語訳。 Twitter発のリアルタイム、分散、ミス許容ストリーム処理エンジン 注目する点としては、 Apache Stormのトポロジーがmavenの…
Apache StormをhomebrewでインストールしてKafkaに繋ぐまでの記事です。 動機 Mac開発環境の人は多くいる中で、Macでのセットアップ方法が書かれている記事がここ一年だと皆無なので、記事を書こうと思いました。 以下が検索結果である。 Apacheにひっかかて…
はじめに 本記事はバージョン1.0以上です。 Apache Stormは分散リアルタイム処理システムであります。 分散システムである以上、デバッグが付きまといますが、どのようにすれば良いのかわからないケースがあります。 そこで、いろんなレベルに分けて解説しよ…
本記事ではApache Stormのトポロジーを中心しに解説していこうと思います。 前提知識 StormのAPIがデザインパターンBuilderを使用しますので知らなければ学習してください。 簡単にインストールできます。 brew install storm 用語 topology: SpoutとBoltか…
本記事 Apache Azkaban, Airflow, Luige, Oozieのこれらはワークフロー管理に使われるOSSです。 HadoopやSparkなどを使って分散処理をナイトリーに行なっている場合、そのスケージュールリングだったり監視などが大変になってきます。 そのような中で、ワー…
対象読者 分散SQL環境を構築したい方 Prestoに入門したい方 Kafkaの中身にクエリを投げたい方 Prestoとは 分散SQLクエリエンジン 以下のようなアーキテクチャです。 特徴 - 分散しているので高速なクエリが叩ける。Hiveはバッジ処理を目的とするため遅い。 -…
本記事 Apache Kafkaなどメッセージ配送のためのOSSを使用していると何かしらシリアライズすることになります。 そこでXMLやJSON, ASN.1など選択しないといけません。どれが一体良いのでしょうか? 本記事では、どのようにしてシリアライズすればいいかを解説…
本記事 Apache Kafkaとよく似たApache Pulsarと呼ばれる新しいOSSが登場しました。 本記事はPub/Sub型メッセージ配送方法の信頼性について解説し、Pulsarで登場したセマンティクスEffectively-onceを解説します。 メッセージ配送方式とは Pub/Sub型メッセー…