Kekeの日記

エンジニア、読書なんでも

apache

Apache Solrで検索エンジンについて学んでみる

検索エンジンを構築したところが抜けてます。すみません 1. Apache Solrとは Apache Solrとは、Apache Luceneをベースとして開発された、人気で、非常に高速で、オープンソースの検索エンジンです。 1.1 特徴 Apache Luceneをベースとして開発された検索エン…

Apache SupersetでMySQLに入っている家計簿データをかっこよく可視化する

本記事 本記事はApache SupersetのmacOSでのインストール、セットアップをして、実際にMySQLにあるデータを可視化しようと思います。 ゴールは以下のようなダッシュボードです。 1. Apache Supersetとは エンタープライズで使えるモダンなBIアプリケーション…

Apache DruidのコンセプトとOSXで起動するまで

本記事 今回はApache DruidをmacOSにインストールして、実際にSQLでデータを入れたりしてみようと思います。 1. Apache Druidとは 公式サイトを直訳すると、 Apache Druidとはイベント駆動開発のための高パフォーマンスを持つ解析データストア です。 1.1 概…

Apache Prestoを使ってApache Zeppelinから分散クエリを投げて可視化する

Apache Prestoとは Treasure Dataさんから非常に詳しい記事があるので紹介させていただきます。 tug.red Apache Zeppelinとは 以下の記事で以前、解説させていただきました。 www.1915keke.com 記事の目的 以前の記事では問題がありました。 今回は完全に個…

Apache BeamのJavaによるPipelineの書き方

はじめに 本記事はApache Beamを使ってPipelineを構築します。 次回、自分の得意なGolangで書くエントリを執筆します。 今回は他のApache Stormなどのストリーム処理システムでは一般的なJavaを使おうと思います。 注意 Apache Beam Quickstartでは、なぜかP…

Apache Beamのコンセプトと開発指南書

本記事 この記事はApache Beamのコンセプトや開発方針を調査します。 別の記事にて、実際にApache BeamのPipelineを開発してみようと思います。 1. Apache Beamとは Apache Beamとは、 Apache Beamとは、バッジ処理とストリーム処理を統合されたプログラミン…

分散ストリーム機械学習プラットフォームApache SAMOA

本記事 Apache SAMOAというApache財団のIncubatorプロジェクトがあります。 特に、日本語の記事が全くないので記事にしようと思いました。 Apache SAMOAとは 分散ストリーム機械学習フレームワークです。 SAMOAが大文字なのは略語であるからです。 S: Scalab…

Apache FlinkのExactly-onceを探ってみる

1. Apache Flinkとは Apache Flinkとは、データストリーム上でのステートフルな処理システムである 注意:本記事で使う画像は参考文献から引用させていただきます 1.1 特徴 ストリーム処理をするようなあらゆるユースケースでフィットすることができる イベ…

Apache ZeppelinでLine Botのデータを可視化する

本記事 Apache Zeppelinを実際に触ってみて、動作や運用条件の雰囲気を掴みたいので、そのための備忘録である。 実際に動かしているアプリケーションで使ってみる。 注意 Apache Zeppelinとなると、Apache Hadoopなどに対して使う人が多いのではないかと思い…

Apache Software Projectまとめ

本記事 この記事は随時、更新します。 ストリームエンジンの多さや、その周辺技術のOSSが多すぎで、把握するのもキャッチアップするのも難しいです。 なので、これまでのチュートリアルや自分の個人プロジェクトとして学んだものを記事にしてまとめています…

Apache Nifiをmacで10分データフローを構築

本記事について 勉強不足の甲斐もあって、Apache Kafka, Flink, Storm, Heron...など聞くだけでいうと、どれも同じではないのか?って疑問に持ちました。 これまで、少しづつ手元で動かしてみて、包括的経験として積み重ねています。 その中でも、少し他のと…

Apache Heron概要とApache Stormとの比較

Apache Heronとは 公式サイトから。 A realtime, distributed, fault-tolerant stream processing engine from Twitter 日本語訳。 Twitter発のリアルタイム、分散、ミス許容ストリーム処理エンジン 注目する点としては、 Apache Stormのトポロジーがmavenの…

MacにApache StormをインストールしてApache Kafkaに繋ぐ

Apache StormをhomebrewでインストールしてKafkaに繋ぐまでの記事です。 動機 Mac開発環境の人は多くいる中で、Macでのセットアップ方法が書かれている記事がここ一年だと皆無なので、記事を書こうと思いました。 以下が検索結果である。 Apacheにひっかかて…

Apache Stormのデバッグ方法

はじめに 本記事はバージョン1.0以上です。 Apache Stormは分散リアルタイム処理システムであります。 分散システムである以上、デバッグが付きまといますが、どのようにすれば良いのかわからないケースがあります。 そこで、いろんなレベルに分けて解説しよ…

Apache Stormのトポロジーチュートリアル

本記事ではApache Stormのトポロジーを中心しに解説していこうと思います。 前提知識 StormのAPIがデザインパターンBuilderを使用しますので知らなければ学習してください。 簡単にインストールできます。 brew install storm 用語 topology: SpoutとBoltか…

Apache Azkaban, Airflow, Luige, Oozie比較

本記事 Apache Azkaban, Airflow, Luige, Oozieのこれらはワークフロー管理に使われるOSSです。 HadoopやSparkなどを使って分散処理をナイトリーに行なっている場合、そのスケージュールリングだったり監視などが大変になってきます。 そのような中で、ワー…

PrestoでApache Kafkaに分散クエリを投げる

対象読者 分散SQL環境を構築したい方 Prestoに入門したい方 Kafkaの中身にクエリを投げたい方 Prestoとは 分散SQLクエリエンジン 以下のようなアーキテクチャです。 特徴 - 分散しているので高速なクエリが叩ける。Hiveはバッジ処理を目的とするため遅い。 -…

Apache AvroとProtocol Buffers

本記事 Apache Kafkaなどメッセージ配送のためのOSSを使用していると何かしらシリアライズすることになります。 そこでXMLやJSON, ASN.1など選択しないといけません。どれが一体良いのでしょうか? 本記事では、どのようにしてシリアライズすればいいかを解説…

メッセージングセマンティクスEffectively-once

本記事 Apache Kafkaとよく似たApache Pulsarと呼ばれる新しいOSSが登場しました。 本記事はPub/Sub型メッセージ配送方法の信頼性について解説し、Pulsarで登場したセマンティクスEffectively-onceを解説します。 メッセージ配送方式とは Pub/Sub型メッセー…