都市奇门医圣,共享最全大数据名词合集,我的青春期

联系数据库办理体系(RDBMS)

MySQL:国际最盛行的开源数据库;

PostgreSQL:国际最先进的开源数据库;

Oracle 数据库:目标-联系型数据库办理体系。

结构

Apache Hadoop:散布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(散布式文件体系);

Tigon:高吞吐量实时流处理结构。

散布式编程

AddThis Hydra :开始在AddThieasypanels上开发的散布式数据处理和存储体系;

AMPLab SIMR:用在Hadoop MapReduce v1上运转Spark;

Apache Beam:为一致的模型以及一套用于界说和履行数据处理作业流的特定SDK言语;

梁梓靖

Apache Crunch:一个简略的Java API,用于履行在一般的MapReduce完结时比较单调的衔接、数据聚合等使命;

Apache DataFu:由Linke托拉菌素dIn开发的针对Hadoop and 和Pig的用户界说的函数调集;

Apache Flink:具有高功用的履行时刻和主动程序优化;

Apache Gora:内存中的数据模型和耐久性结构;

Apache Hama:BSP(全体同步并行)核算结构;

Apache MapReduce :在集群上运用并行、散布式算法处理大数据集的编程模型;

Apache Pig :Hadoop中,用于处理数据剖析程序的高档查询言语;

Apache REEF :用来简化和一致低层大数据体系的保存性评价履行结构;

Apache S4 :S4中流处理与完结的结构;

Apache Spark :内存集群核算结构;

Apache Spark Streaming :流处理结构,一同是Spark的一部曾一琦分;

Apache Storm :Twitter流处理结构,也可用于YARN;

Apache Samza :根据Kafka和YARN的流处理结构;

Apache Tez :根据YARN,用于履行使命中的杂乱DAG(有向无环图);

Apache Twill :根据YARN的抽象概念,用于削减开发散布式运用程序的杂乱度;

Cascalog:数据处理和查询库;

Cheetah :在MapReduce之上的高功用、自界说数据仓库;

Concurrent Cascading :在Hadoop上的数据办理/剖析结构;

Damballa Parkour :用于Clojure的MapReduce库;

Datasalt Pangool :可选择的MapReduce典范;

DataTorrent StrAM :为实时引擎,用于以尽或许疏通的方法、最小的开支和对功用最小的影响,完结散布式、异步、实时的内存大数据核算;

Facebook Corona :为Hadoop做优化处理,然后消除单点毛病;

Facebook Peregrine :MapReduce结构;

Facebook Scuba :散布式内存数据存储;

Google Dataflow :创立数据管道,以协助其剖析结构;

Netflix PigPen :为MapReduce,用于编译成Apache Pig;

Nokia Disco :由Nokia开发的MapReduc获取、转化和剖析数据;

Google MapReduce :MapReduce结构;

Google MillWheel :容错流处理结构;

JAQL :用于处理结构化、半结构化和非结构化数据作业的声明性编程言语;

Kite :为一组库、东西、实例和文档集,用于使在Hadoop的生态体系上树立体系愈加简略;

Metamarkets Druid :用于大数据集的实时e结构;

Onyx :散布式云核算;

Pinterest Pinlater :异步使命履行体系;

Pydoop :用于Hadoop的Python MapReduce和HDFS API;

Rackerlabs Blueflood :多租户散布式测度处理体系;

Stratosphere :通用集群核算结构;

Streamdrill :用于核算根据不一同间窗口的事情流的活动,并找到最活泼的一个;

Tuktu :易于运用的用于分批处理和流核算的渠道,经过Scala、 Akka和Play所建;

Twitter Scalding:根据Cascading,用于Map Reduce作业的Scala库;

Twitter Summingbird :在Twitter上运用Scalding和Storm串流MapReduce;

Twitter TSAR :Twitter上的时刻序列聚合器。

散布式文件体系

Apache HDFS:在多台机器上存储大型文件的方法;

BeeGFS:曾经是FhGFS,并行散布式文件体系;

Ceph Filesystem:规划的软件存储渠道;

Disco DDFS:散布式文件体系;

Facebook Haystack:目标存储体系;

Google Colossus:散布式文件体系(GFS2);

Google GFS:散布式文件体系;

Google Megastore:可扩展的、高度可用的存储;

GridGain:兼容GGFS、Hadoop内存的文件体系;

Lustre file system:高功用散布式文件体系;

Quantcast File System QFS:开源散布式文件体系;

Red Hat GlusterFS:向外扩展的附网存储(Network-attached Storage)文件体系;

Seaweed-FS:简略的、高度可扩展的散布式文件体系;

Alluxio:以牢靠的存储速率在跨集群结构上文件同享;

Tahoe-LAFS:散布式云存储体系;

文件数据模型

Actian Versant:商用的面向目标数据库办理体系;

Crate Data:是一个开源的大规划可扩展的数据存储,需求零办理形式;

Facebook Apollo:Facebook的Paxos算法,相似于NoSQL数据库;

jumboDB:根据Hadoop的面向文档的数据存储;

LinkedIn Espresso:可横向扩展的面向文档的NoSQL数据存储;

MarkLogic:形式不可知的企业版NoSQL数据库技术;

MongoDB:面向文档的数据库体系;

RavenDB:一个业务性的,开源文档数据库;

RethinkDB:支撑衔接查询和群组根据等查询的文档型数据库。

Key Map 数据模型

留意:业界存在一些术语紊乱,有两个不同的东西都叫做“列式数据库”。这儿列出的有一些是环绕“key-map”数据模型而建的散布式、继续型数据库,其间一切的数据都有(或许归纳了)键,并与映射中的键-值对相关联。在一些体系中,多个这样的值映射能够与键相关联,而且这些映射被称为“列族”(具有映射值的键被称为“列”)。

另小寡妇上坟哭十二月苦一组也可称为“列式数据库”的技术因其存储数据的方法而有别于前一组,它在磁盘上或在存储器都市奇门医圣,同享最全大数据名词合集,我的芳华期中——而不是以传统方法,即一切既定键的键值都相邻着、逐行存储。这些体系也互相相邻来存储一切列值,可是要得到给定列的一切值却不需求曾经那么繁复的作业。

前一组在这儿被称为“key map数据模型”,这两者和Key-value 数据模型之间的边界是适当含糊的。后者对数据模型有更多的存储格局,可在列式数据库中列出。若想了解更多关于这两种模型的区别,可阅览Daniel Abadi的博客:Distinguishing two major types of Column Stores。

Apabeargayche Accumulo:内置在Hadoop上的散布式键/值存储;

Apache Cassandra:由BigTable授权,面向列的散布式数据存储;

Apache HBase:由BigTable授权,面向列的散布式数据存储;

Facebook HydraBase:Facebook所开发的HBase的衍化品;

Google BigTable:面向列的散布式数据存储;

Google Cloud Datastore:为彻底办理型的无形式数据库,用于存储在BigTable上非联系型数据;

Hypertable:由BigTable授权,面向列的散布式数据存储;

InfiniDB:经过MySQL的接口拜访,并运用大规划并行处理进行并行查询;

Tephra:用于HBase处理;

Twitter Manhattan:Twitter的实时、多租户散布式数据库。

键-值数据模型

Aerospike:支撑NoSQL的闪存优化,数据存储在内存。开源,“’C'(不是Java或Erlang)中的效劳器代码可精确地调整然后防止上下文切换和内存仿制”。

Amazon DynamoDB:散布式键/值存储,Dynamo论文的完结;

Edis:为代替Redis的协议兼容的效劳器;

ElephantDB:专门研究Hadoop中数据导出的散布式数据库;

EventStore:散布式时刻序列数据库;

GridDB:适用于存储在时刻序列中的传感器数据;

LinkedIn Krati:简略的耐久性数据存储,具有低推迟和高吞吐量;

Linkedin Voldemort:散布式键/值存储体系;

Oracle NoSQL Database:Oracle公司开发的散布式键值数据库;

Redis:内存中的键值数据存储;

Riak:涣散式数据存储;

Storehaus:Twitter开发的异步键值存储的库;

Tarantool:一个高效的NoSQL数据库和Lua运用效劳器;

TiKV:由Google Spanner和HBase授权,Rust供给技术支撑的散布式键值数据库;

TreodeDB:可仿制、同享的键-值存储,能供给多行原子写入。

图形数据模型

Apache Giraph:根据Hadoop的Pregel完结;

Apache Spark Bagel:可完结Pregel,为Spark的一部分;

ArangoDB:多层模型散布式数据库;

DGraph:一个可扩展的、散布式、低时延、高吞吐量的图形数据库,旨在为Google生产水平规划和吞吐量供给满足的低推迟,用于TB级的结构化数据的实时用户查询;

Facebook TAO:TAO是facebook广泛用来存储和效劳于交际图形的散布式数据存储;

GCHQ Gaffer:GCHQ中的Gaffer是一个易于存储大规划图形的结构,其间节点和边际都有核算数据;

Google Cayley:开源图形数据库;

Google Pregel :图形处理结构;

GraphLab PowerGraph:中心C ++ GraphLab API和树立在GraphkinkcafeLab API之上的高功用机器学习和数据发掘东西包的调集;

GraphX:Spark中的弹性散布式图形体系;

Gremlin:图形追寻言语;

Infovore:以RDF为中心的Map / Reduce结构;

Intel GraphBuilder:在Hadoop上构建大规划图形的东西;

MapGraph:用于在GPU上大规划并行图形处理;

Neo4j:彻底用Java写入的图形数据库;

OrientDB:文档和图形数据库;

Phoebus:大型图形处理结构;

Titan:建于Cassandra的散布式图形数据库;

Twitter FlockDB:散布式图形数据库。

NewSQL数据库

Actian Ingres:由商业支撑,开源的SQL联系数据库办理体系;

Amazon RedShift:根据PostgreSQL的数据仓库效劳;

BayesDB:面向核算数值的SQL数据库;

CitusDB:经过分区和仿制横向扩展PostgreSQL;

Cockroach:可扩展、地址可仿制、买卖型的数据库;

Datomic:旨在发生可扩展、活络的智能运用的分湖南旭荣制衣有限公司布式数据库;

FoundationDB:由F1授意的散布式数据库;

Google F1:树立在Spanner上的散布式SQL数据库;

Google Spanner:全球性的散布式半联系型数据库;

H-Store:是一个实验性主存并行数据库办理体系,用于联机业务处理(OLTP)运用的优都市奇门医圣,同享最全大数据名词合集,我的芳华期化;

Haeinsa:根据Percolator,HBase的线性可扩展多行多表买卖库;

HandlerSocket:MySQL/MariaDB的NoSQL插件;

InfiniSQL:无限可扩展的RDBMS;

MemSQL:内存中的SQL数据库,其间有优化的闪存列存储;

NuoDB:SQL / ACID兼容的散布式数据库;

Oracle TimesTen in-Memory Database:内存中具有耐久性和可恢复性的联系型数据库办理体系;

Pivotal GemFire XD:内存中低延时的散布式SQL数据存储,可为内存列表数据供给SQL接口,在HDFS中较耐久化;

SAP HANA:是在内存中面向列的联系型数据库办理体系;

SenseiDB:散布式实时半结构化的数据库;

Sky:用于行为数据的活络、高功用剖析的数据库;

SymmetricDS:用于文件和数据库同步的开源软件;

Map-D:为GPU内存数据库,也为大数据剖析和可视化渠道;

TiDB:TiDB是散布式SQL数据库,根据谷歌F1的规划创意;

VoltDB:自称为最快的内存数据库。

列式数据库

留意:请在键-值数据模型 阅览相关注释。

Columnar Storage:解说什么是列存储以及何时会需求用到它;

Actian Vector:面向列的剖析型数据库;

C-Store:面向列的DBMS;

MonetDB:列存储数据库;

Parquet:Hadoop的列存储格局;

Pivotal Greenplum:专门规划的、专用的剖析数据仓库,相似于传统的根据行的东西,供给了一个列式东西;

Vertica:用来办理大规划、快速增长的许多数据,当用于数据仓库时,能够供给非常快的查询功用;

Google BigQuery :谷歌的云产品,由其在Dremel的开创作业供给支撑;

Amazon Redshift :亚马逊的云产品,它也是根据柱状数据存储后端。

时刻序列数据库

Cube:运用MongoDB来存储时刻序列数据;

Axibase Time Series Database:在HBase之上的散布式时刻序都市奇门医圣,同享最全大数据名词合集,我的芳华期列数据库,它包含内置的Rule Engine、数据预测和可视化;

Heroic:根据Cassandra和Elasticsearch的可扩展的时刻序列数据库;

InfluxDB:散布式时刻序列数据库;

Kairosdb:相似于OpenTSDB但会考虑到Cassandra;

OpenTSDB:在HBase上的散布式时刻序列数据库;

Prometheus:一种时刻序列数据库和效劳监测体系;

Newts:一种根据Apache Cassandra的时刻序列数据库。

类SQL处理

Actian SQL for Hadoop:高功用交互式的SQL,可拜访一切的Hadoop数据;

Apache Drill:由Dremel授意的交互式剖析结构;

Apache HCatalog:Hadoop的表格和存储办理层;

Apache Hive:Hadoop的类SQL数据仓库体系;

Apache Optiq:一种结构,可答应高效的查询翻译,其间包含异构性及联合性数据的查询;

Apache Phoenix:Apache Phoenix 是 HBase 的 SQL 驱动;

Cloudera Impala:铝质跳板由Dremel授意的交互式剖析结构;

Concurrent Lingual:Cascading中的类SQL查询言语;

Datasalt Splout SQL:用于大数据集的完好的SQL查询东西;

Facebook PrestoDB:散布式SQL查询东西;

Google BigQuery:交互式剖析结构,Dremel的完结;

Pivotal HAWQ:Hadoop的类SQL的数据仓库体系;

RainstorDB:用于存储大规划PB级结构化和半结构化数据的数据库;

Spark Catalyst:用于Spark和Shark的查询优化结构;

SparkSQL:运用Spark操作结构化数据;

Splice Machine:一个全功用的Hadoop上的SQL RDBMS,并带有ACID业务;

Stinger:用于Hive的交互式查询;

Tajo:Hadoop的散布式数据仓库体系;

Trafodion:为企业级的SQL-on-HBase针对大数据的业务或业务作业负载的解决方案。

数据吸取

Amazon Kinesis:大规划数据流的实时处理;

Apache Chukwa:数据收集体系;

Apache Flume:办理许多日志数据的效劳;

Apache K都市奇门医圣,同享最全大数据名词合集,我的芳华期afka:散布式发布-订阅音讯体系;

Apache Sqoop:在Hadoop和结构化的数据存储区之间传送数据的东西;

Cloudera Morphlines:协助 Solr、HBase和HDFS完结ETL的结构;

Facebook Scribe:流日志数据聚合器;

Fluentd:收集事情和日志的东西;

Google Photon:实时衔接多个数据流的散布式核算机体系,具有高可扩展性和低推迟性;

Heka:开源流处理软件体系;

HIHO:用Hadoop衔接不同数据源的结构;

Kestrel:散布式音讯行列体系;

LinkedIn Databus:对数据库更改捕获的事情流;

LinkedIn Kamikaze:紧缩已分类整型数组的程序包;

LinkedIn White Elephant:日志聚合器和仪表板;

Logstash:用于办理事情和日志的东西;

Netflix Suro:像根据Chukwa 的Storm和Samza相同的日志聚合器;

Pinterest Secor:是完结Kafka日志耐久性的效劳;

Linkedin Gobblin:LinkedIn的通用数据吸取结构;

Skizze:是一种数据存储略图,运用概率性数据结构来处理计数、略图等相关的问题;

StreamSets Data Collector:接连大数据收集的根底设施,可简略地运用IDE。

效劳编程

Akka Toolkit:JVM中散布性、容错事情驱动运用程序的运转时刻;

Apache Avro:数据序列化体系;

Apache Curator:Apache ZooKeeper的Java库;

Apache Karaf:在任何OSGi结构之上运转的OSGi运转时刻;

Apache Thrift:构建二进制协议的结构;

Apache Zookeeper:流程办理会集式效劳;

Google Chubby炮灰乡村媳:一种松耦合散布式体系锁效劳;

Linkedin Norbert:集群办理器;

OpenMPI:音讯传递结构;

Serf:效劳发现和协调的涣散化解决方案;

Spotify Luigi:一种构建批处理作业的杂乱管道的Python包,它能够处理依赖性解析、作业流办理、可视化、毛病处理、命令行一体化等等问题;

Spring XD:数据吸取、实时剖析、批量处理和数据导出的散布式、可扩展体系;

Twitter Elephant Bird:LZO紧缩数据的作业库;

Twitter Finagle:JVM的异步网络仓库。

调度

Apache Aurora:在Apache Mesos之上运转的效劳调度程序;

Apache Falcon:数据办理结构;

Apache Oozie:作业流作业调度程序;

Chronos:散布式容错调度;

Linkedin Azkaban:批处理作业流作业调度;

Schedoscope:Hadoop作业活络调度的Scala DSL;

Sparrow:调度渠道;

Airflow:一个以编程方法编写、调度和监控作业流的渠道。

机器学习

Apache Mahout:Hadoop的机器学习库;

brain:Java中的神经网络;

Cloudera Oryx:实时大规划机器学习;

Concurrent Pattern:Cascading的机器学习库;

convnetjs:Java中的机器学习,在浏览器中练习卷积神经网络(或一般网络);

Decider:Ruby中活络、可扩展的机器学习;

ENCOG:支撑多种先进算法的机器学习结构,一同支撑类的标准化和处理数据;

etcML:机器学习文本分类;

Etsy Conjecture:Scalding中可扩展的机器学习;

Google Sibyl:Google中的大规划机器学习体系;

GraphLab Create:Python的机器学习渠道,包含ML东西包、数据工程和布置东西的广泛调集;

H2O:Hadoop核算性的机器学习和数学运转时刻;

MLbase:用于BDAS仓库的散布式机器学习库;

MLPNeuralNet:针对iOS和Mac OS X的快速多层感知神经网络库;

MonkeyLearn:使文本发掘更为简略,从文本中提取分类数据;

nupic:智能核算的Numenta渠道,它是一个启示大脑的机器智力渠道,根据皮质学习算法的精准的生物神经网络;

PredictionIO:建于Hadoop、Mahout和Cascading上的机器学习效劳器;

SAMOA:散布式流媒体机器学习结构;

scikit-learn:scik西门无恨之无恨泪it-learn为Python中的机器学习;

Spark MLlib:Spark中一些常用的机器学习(ML)功用的完结;

Vowpal Wabbit:微柔和yahoo建议的学习体系;

WEKA:机器学习软件套件;

BidMach:CPU和加快GPU的机器学习库。

基准测验

Apache Hadoop Benchmarking:测验Had都市奇门医圣,同享最全大数据名词合集,我的芳华期oop功用的微基准;

Berkeley SWIM Benchmark:实际大数据作业负载基准测验;

Intel HiBench:Hadoop基准测验套件;

PUMA Benchmarking:MapReduce运用的基准测验套件;

Yahoo Gridmix3:yahoo工程师团队的Hadoop集群基准测验。

茎组词

安全性

Apache Knox Gateway:Hadoop集群安全拜访的单点;

Apache Sentry:存储在Hadoop的数据安全模块。

体系布置

Apache Ambari:Hadoop办理的运作结构;

Apache Bigtop:Hadoop生态体系的布置结构;

Apache Helix:集群办理结构;

Apache Mesos:集群办理器;

Apache Slider:一种YARN运用,用来布置YARN中现有的散布式运用程序;

Apache Whirr:运转云效劳的库集;

Apache YARN:集群办理器;

Brooklyn:用于简化运用程序布置和办理的库;

Buildoop:根据Groovy言语,和Apache BigTop相似;

Cloudera HUE:和Hadoop进行交互的Web运用程序;

Facebook Prism:多数据中心仿制体系;

Google Borg:作业调度和监控体系;

Google Omega:作业调度和监控体系;

Hortonworks HOYA:可在YARN上布置HBase集群的运用;

Marathon:用于长时刻运转效劳的Mesos结构。

运用程序

Adobe spindle:运用Scala、Spark和Parquet处理的下一代web剖析;

Apache Kiji:根据HBase,实时收集和剖析数据的结构;

Apache Nutch:开源网络爬虫;

Apache OODT:用于NASA科学档案中数据的捕获、处理和同享;

Apache Tika:内容剖析东西包;

Argus:时刻序列监测和报警渠道;

Countly:根据Node.js和MongoDB,开源的手机和网络剖析渠道;

Domino:运转、规划、同享和布置模型——没有任何根底设施;

Eclipse BIRT:根据Eclipse的陈述体系;

Eventhub:开源的事情剖析渠道;

Hermes:建于Kafka上的异步音讯署理;

HIPI Library:在Hadoop’s MapReduce上履行图画处理使命的API;

Hunk:Hadoop的Splunk剖析;

Imhotep:大规划剖析渠道;

MADlib:RDBMS的用于数据剖析的数据处理库;

Kylin:来自eBay的开源散布式剖析东西;

PivotalR:Pivotal HD / HAWQ和PostgreSQL中的R;

Qubole:为主动缩放Hadoop集群,内置的数据衔接器;

Sense:用于数据科学和大数据剖析的云渠道;

SnappyData:用于实时运营剖析的散布式内存数据存储,供给树立在Spark单一集成集群中的数据流剖析、OLTP(联机业务处理)和OLAP(联机剖析处理);

Snowplow:企业级网络和事情剖析,由Hadoop、Kinesis、Redshift 和Postgres供给技术支撑;

SparkR:Spark的R前端;

Splunk:用于机器生成的数据的剖析;

Sumo Logic:根据云的艳照剖析仪,用于剖析机器生成的数据;

Talend:用于YARN、Hadoop、HBASE、Hive、HCatalog和Pig的一致开源环境;

Warp:运用大数据(OS X app)的实例查询东西。

查找引擎与结构

Apache Lucene:查找引擎库;

Apache Solr:用于Apache Lucene的查找渠道;

ElasticSearch:根据Apache Lucene的查找和剖析引擎;

Enigma.io:为免费增值的健壮性web运用,用于探求、挑选、剖析、查找和导出来自网络的大规划数据集;

Facebook Unicorn:交际图形查找渠道;

Google Caffeine:接连索引体系;

Google Percolator:接连索引体系;

TeraGoogle:大型查找索引;

HBase Coprocessor:为Percolator的完结,HBase的一部分;

Lily HBase Indexer:快速、轻松地查找存储在HBase的任何内容;

LinkedIn Bobo:彻底由Java编写的分面查找的完结,为Apache Lucene的延伸;

LinkedIn Cleo:为一个一个活络的软件库,使得部分、无序、实时预输入的查找完结了快速开展;

LinkedIn Galene:LinkedIn查找架构;

LinkedIn Zoie:是用Java编写的实时查找/索引体系;

Sphinx Search Server:全文查找引擎

MySQL的分支和演化

Amazon RDS:亚马逊云的MySQL数据库;

Drizzle:MySQL的6.0的演化;

Google Cloud SQL:谷歌云的MySQL数据库;

MariaDB:MySQL的增强版嵌入式代替品;

MySQL Cluster:运用NDB集群存储引擎的MySQL完结;

Percona Server:MySQL的增强版嵌入式代替品;

ProxySQL:MySQL的高功用署理;

TokuDB:用于MySQL和 M谢文华ariaDB的存储引擎;

WebScaleSQL:运转MySQL时面对相似应战的几家公司,它们的工程师之间的协作。

PostgreSQL的分支和演化

Yahoo Everest – multi-peta-byte database / MPP derived by PostgreSQL.

HadoopDB:MapReduce和DBMS的混合体;

IBM Netezza:高功用数据仓库设备;

Postgres-XL:根据PostgreSQL,可扩展的开源数据库集群;

RecDB:彻底树立在PostgreSQL内部的开源引荐引擎;

Stado:开源MPP数据库体系,只针对数据仓库和数据集市的运用程序;

Yahoo Everest:PostgreSQL能够推导多字节P比特数据库/MPP。

Memcached的分支和演化

Facebook McDipper:闪存的键/值缓存;

Facebook Memcached:Memcache的分支;

Twemproxy:Memcached和Redis的快速、轻型署理;

Twitter Fatcache:闪存的键/值缓存;

Twitter Twemcache:Memcache的分支。

嵌入式数据库

Actian PSQL:Pervasive Software公司开发的ACID兼容的DBMS,在运用程序中嵌入了优化;

BerkeleyDB:为键/值数据供给一个高功用的嵌入式数据库的一个软件库;

HanoiDB:Erlang LSM BTree存储;

LevelDB:谷歌写的一个快速键-值存储库,它供给了从字符串键到字符串值的有序映射;

LMDB:Symas开发的超快、超紧凑的键-值嵌入的式数据存储;

RocksDB:根据性LevelDB,用于快速存储的嵌入式继续性键-值存储。

商业智能

BIME Analytics:商业智能云渠道;

Chartio:精益业务智能渠道,用于可视化和探求数据;

datapine:根据云的自助效劳商业智能东西;

Jaspersoft:功用强壮的商业智能套件;

Jedox Palo:定制的商业智能渠道;

Microsoft:商业智能软件和渠道;

Microstrategy:商业智能、移动智能和网络运用软件渠道;

Pentaho:商业智能渠道;

Qlik:商业智能和剖析渠道;

Saiku:开源的剖析渠道;

SpagoBI:开源商业智能渠道;

Tableau:商业智能渠道;

Zoomdata:大数据剖析;

Jethrodata:交互式大数据剖析。

数据可视化

Airpal:用于PrestoDB的网页UI;

Arbor:运用网络作业者和jQuery的图形可视化库;

Banana:对存储在Kibana中Solr. Port的日志和时戳数据进行可视化;

Bokeh:一个功用强壮的Python交互式可视化库,它针对要展现的现代web浏览器,旨在为D3.js风格的别致的图形供给高雅简练的规划,一同在大规划数据或流数据会集,经过高功用交互性来表达这种才能;

C3:根据D3可重复运用的图表库;

CartoDB:开源或免费增值的虚拟主机,用于带有强壮的前端修改功用和API的地舆空间数据库;

chartd:只带Img标签的反响活络、兼容Retina的图表;

Chart.js:开源的HTML5图表可视化作用;

Chartist.js:另一个开源HTML5图表可视化作用;

Crossfilter:Java库,用于在浏览器中探求多元大数据集,用Dc.js和D3.js.作用很好;

Cubism:用于时都市奇门医圣,同享最全大数据名词合集,我的芳华期间序列可视化的Java库;

Cytoscape:用于可视化杂乱网络的Java库;

DC.js:维度图表,和Crossfilter一同运用,经过D3.js出现出来,它比较拿手衔接图表/附加的元数据,然后徜徉在D3的事情邻近;

D3:操作文件的Java库;

D3.compose:从可重复运用的图表和组件构成杂乱的、数据驱动的可视化;

D3Plus:一组适当强壮的可重用的图表,还有D3.js的款式;

Echarts:百度企业场景图表;

Envisionjs:动态HTML5可视化;

FnordMetric:写SQL查询,回来SVG图表,而不是表;

Freeboard:针对IOT和其他Web混搭的开源实时仪表盘构建;

Gephi:屡获荣誉的开源渠道,可视化和操作大型图形和网络衔接,有点像Photoshop,可是针对于图表,适用于Windows和Mac OS X;

Google Charts:简略的图表API;

Grafana:石墨仪表板前端、修改器和图形组合器;

Graphite:可扩展的实时图表;

Highcharts:简略而活络的图表API;

IPython:为交互式核算供给丰厚的架构;

Kibana:可视化日志和时刻标记数据;

Matplotlib:Python绘图;

Metricsgraphic.js:树立在D3之上的库,针对时刻序列数据进行最优化;

NVD3:d3.js的图表组件;

Peity:渐进式SVG条形图,折线和饼图;

Plot.ly:易于运用的Web效劳,它答应快速创立从热图到直方图等杂乱的图表,运用图表Plotly的在线电子表格上传数据进行创立和规划;

Plotly.js:支撑plotly的开源Java图形库;

Recline:简略但功用强壮的库,朴实运用Java和HTML构建数据运用;

Redash:查询和可视化数据的开源渠道;

Shiny:针对R的Web运用程序结构;

Sigma.js:Java库,专门用于图形制作;

Vega:一个可视化语法;

Zeppelin:一个笔记本式的协作数据剖析;

Zing Charts:用于大数据的Java图表库。

物联网和传感器

TempoIQ:根据云的传感器剖析;

2lemetry:物联网渠道;

Pubnub:数据流网络;

ThingWorx:ThingWorx 是让企业快速创立和运转互联运用程序渠道;

IFTTT:IFTTT 是一个被称为 大数据学习沟通扣qun 74零零加413八yi“网络主动化神器” 的创新式互联网效劳,它的全称是 If this then that,意思是“假如这样,那么就那样”;

Evrythng:Evrythng则是一款真实意义上的群众物联网渠道,使得身边的许多产品变得智能化。

文章引荐

NoSQL Comparison(NoSQL 比较)- Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris comparison;

Big Data Benchmark(大数据基准)- Redshift, Hive, Shark, Impala and Stiger/Tez的基准;

The big data successor of the spreadsheet(电子表格的大数据继承者) – 电子表格的继承者应该是大数据。

论文

2015 – 2016

2015 – Facebook – One Trillion Edges: Graph Processing at Facebook-Scale.(一兆边:Facebook规划的图画处理)

2013 – 2014

2014 – Stanford – Mining of Massive Datasets.(海量数据集发掘)

2013 – AMPLab – Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices. (Presto: 稀少矩阵的散布式机器学习和图画处理)

2013 – 周安琪AMPLab – MLbase: A Distributed Machine-learning System. (MLbase:散布式机器学习体系)

2013 – AMPLab – Shark: SQL and Rich Analytics at Scale. (Shark: 大规划的SQL 和丰厚的剖析)

2013 – AMPLab – GraphX: A Resilient Distributed Graph System on Spark. (GraphX:根据Spark的弹性散布式图核算体系)

2013 – Google – HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm. (HyperLogLog实践:一个艺术形状的基数预算算法)

2013 – Microsoft – Scalable Progressive Analytics on Big Data in the Cloud.(云端大数据的可扩展性渐进剖析)

2013 – Metamarkets – Druid: A Real-time Analytical Data Store. (Druid:实时剖析数据存储)

2013 – Google – Online, Asynchronous Schema Change in F1.(F1中在线、异步形式的改变)

2013 – Google – F1: A Distributed SQL Database That Scales. (F1: 散布式SQL数据库)

2013 – Google – MillWheel: Fault-Tolerant Stream Processing at Internet Scale.(MillWheel: 互联网规划下的容错流处理)

2013 – Facebook – Scuba: Diving into Data at Facebook. (Scuba: 深化Facebook的数据国际易遥重生文)

2013 – Facebook – Unicorn: A System for Searching the Social Graph. (Unicorn: 一种查找交际图的体系)

2013 – Facebook – Scaling Memcache at Facebook. (Facebook 对 Memcache 伸缩性的增强)

2011 – 2012

2012 – Twitter – The Unified Logging Infrastructure for Data Analytics at Twitter. (Twitter数据剖析的一致日志根底结构)

2012 – AMPLab –Blink and It’s Done: Interactive Queries on Very Large Data. (Blink及其完结:超大规划数据的交互式查询)

2012 – AMPLab –Fast and Interactive Analytics over Hadoop Data with Spark. (Spark上 H都市奇门医圣,同享最全大数据名词合集,我的芳华期adoop数据的快速交互式剖析)

2012 – AMPLab –Shark: Fast Data Analysis Using Coarse-grained Distributed Memory. (Shark:运用粗粒度的散布式内存快速数据剖析)

2012 – Microsoft –Paxos Replicated State Machines as the Basis of a High-Performance Data Store. (Paxos的仿制状态机——高功用数据存储的根底)

2012 – Microsoft –Paxos Made Parallel. (Paxos算法完结并行)

2012 – AMPLab – BlinkDB:BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.(超大规划数据中有限差错与有界呼应时刻的查询)

2012 – Google –Processing a trillion cells per mouse click.(每次点击处理一兆个单元格)

2012 – Google –Spanner: Google’s Globally-Distributed Database.(Spanner:谷歌的全球散布式数据库)

2011 – AMPLab –Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.(Scarlett:应对MapReduce集群中的偏向性内容)

2011 – AMPLab –Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.(Mesos:数据中心中细粒度资源同享的渠道)

2011 – Google –Megastore: Providing Scalable, Highly Available Storage for Interactive Services.(Megastore:为交互式效劳供给可扩展,高度可用的存储)

2001 – 2010

2010 – Facebook – Finding a needle in Haystac一世为奴k: Facebook’s photo storage.(探求Haystack中的纤细之处: Facebook图片存储)

2010 – AMPLab – Spark: Cluster Computing with Working Sets.(Spark:作业组上的集群核算)

2010 – Google – Storage Architecture and Challenges.(存储架构与应战)

2010 – Google – Pregel: A System for Large-Scale Graph Processing.(Pregel: 一种大型图形奥斯达蓄电池处理体系)

2010 – Google – Large-scale Incremental Processing Using Distributed Transactions and Noti?cations ba陈怡芬se of Percolator and Caffeine.大数据学习沟通扣群 74零零4一3八yi(运用根据Percolator 和 Caffeine渠道散布式业务和告诉的大规划增量处理)

2010 – Google – Dremel: Interactive Analysis of Web-Scale Datasets.(Dremel: Web规划数据集的交互剖析)

2010 – Yahoo – S4: Distributed Stream Computing Platform.(S4:散布式流核算渠道)

2009 – HadoopDB:An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.(混合MapReduce和DBMS技术用于剖析作业负载的的架构)

2008 – AMPLab – Chukwa: A large-scale monitoring system.(Chukwa: 大型监控体系)

2007 – Amazon – Dynamo: Amazon’s Highly Available Key-value Store.(Dynamo: 亚马逊的高可用的要害价值存储)

2006 – Google – The Chubby lock service for loosely-coupled distributed systems.(面向松懈耦合的散布式体系的锁效劳)

2006 – Google – Bigtable: A Distributed Storage System for Structured Data.(Bigtable: 结构化数据的散布式存储体系)

2004 – Google – MapReduce: Simplied Data Processing on Large Clusters.(MapReduce: 大型集群上简化数据处理)

2003 – Google – The Google File System.(谷歌文件体系)

笔记 模型 AP
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。