'
Den snabba utbyggnaden av digital data via datorer, mobil, video, sociala medier, digitala sensorer etc. kombinerat med stora genombrott inom billigare processorkraft, databaser med öppen källkod och bredare bandbredd har väckt stort intresse i hela näringslivet framväxande området för Big Data-vetenskap och analys.
Stora data i stora ostrukturerade volymer är för stora för att hanteras och analyseras med traditionella metoder. Den stora mängden och hastigheten i dagens data gör att fånga, filtrera, lagra och analysera en verklig utmaning. Nya produkter utvecklas regelbundet för att hantera detta vilket kräver nya färdigheter och expertis. Det finns ett växande behov av individer som kan integrera ny infrastruktur, plattformar och processer i organisationen såväl som de som kan bygga ny analys och algoritmer som kan skapa enorm intelligens av stort affärsvärde. För mer information, läs vårt blogginlägg på
Relevans av datavetenskap i olika branscher:
Data Science & Analytics har tillämpning inom alla branscher:
- e-handel - Anpassnings- och rekommendationsmotorer som ökar försäljningen.
- Reklam - Mycket riktad, realtids annonsvisning till konsumenter.
- Media & underhållning - Anpassad innehållsutveckling som maximerar användarengagemanget.
- Sociala media - Ökad webbplats 'klibbighet', användartillväxt, förmåga att spåra snabba trender baserat på konsumenternas känslor.
- Finansiella tjänster –Optimerade utlåningsmetoder som minimerar risker och bedrägerier.
- Farma / bioinformatik - Förbättrad upptäckt av läkemedel, effektivare behandlingar av hotande sjukdomar, förbättringar av genteknik.
- Sjukvård - Bättre poängsättning av medicinska patienter för hälsorisker samt förväntningar och tidigt förebyggande av sjukdomar.
- Kraftenergi - Smart intelligens, användningseffektivitet, energibesparingar och minskad stilleståndstid.
- Informationssäkerhet - Starkt förbättrad stölddetektering och övervakning av värdefull företagsinformation och tillgångar.
Nyckelfärdigheter för datavetenskapspersonal:
Data Science Domain kräver yrkesverksamma som:
- Förstå dataanalys och beslutsvetenskap
- Är väl insatta i IT
- Ha stark affärsförmåga
- Har förmågan att kommunicera effektivt med beslutsfattare
Läs mer: Kärnkompetens som krävs för att vara en datavetare.
hur man använder uppsättningar i Java
Vanliga tekniker associerade med datavetenskapspraxis:
- Databaser
Oracle, SQL Server, Teradata
Cassandra, Hadoop, MapReduce, HBase
Aster, Greenplum, Netezza
- språk
Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala
Hive, Pig, Lucene, Mahout, Solr
- Statistik & prognoser
Angoss, MATLAB, R, SAS, SPSS
ARCH, GARCH, SVAR, VAR, VEC, GAUSS
- Datavisualisering
QlikView, Spotfire, Tableau, yWorks, R
- BI & Rapportering
BusinessObjects, Cognos, MicroStrategy
Vad är Cassandra?
- Apache Cassandra är ett databashanteringssystem med öppen källkod som är utformat för att hantera stora mängder data över många varuservrar.
- Cassandra erbjuder hög tillgänglighet utan någon enda felpunkt.
- Cassandra erbjuder robust stöd för kluster som spänner över flera datacenter, med asynkron reproduktion utan huvud som möjliggör låg latensåtgärd för alla klienter.
För mer information, läs vårt blogginlägg på .
Hur använder datavetenskap Cassandra?
Cassandra är & blyg & blyg en distribuerad databas för tjänster med låg latens, hög kapacitet som hanterar arbetsbelastningar i realtid bestående av hundratals uppdateringar per sekund och tiotusentals läsningar per sekund.
vilken ide är bäst för java
Cassandra Användningsfall - PROS:
PROS är ett Big Data-mjukvaruföretag med förskrivningsanalys i sin programvara som underlättar för sina kunder att analysera sina data och få insikter och vägledning för att optimera sin prissättning, försäljning och intäktshantering.
De har en realtidstjänst som beräknar flygbolagens tillgänglighet, dynamiskt med hänsyn till intäktsstyrningsdata och lagernivåer som kan förändras många hundra gånger per sekund.
Den här tjänsten efterfrågas flera tusen gånger per sekund, vilket kan översättas till tiotusentals datauppslag. Deras backendlagringslager för denna tjänst är Cassandra.
För sin realtidslösning insåg PROS ett behov av:
vad är en virtuell metod
- En distribuerad cache som är mycket tillgänglig.
- Lätt skalbar.
- Med en master-mindre arkitektur.
- Med datareplikering nära realtid även över datacenter.
- Det kan hantera läsningar och skrivningar i realtid.
PROS utvärderade Cassandra mot Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort och Redis. Apache Cassandra toppade ganska enkelt listan.
PROS och Cassandra
- PROS använder Cassandra som en distribuerad databas för tjänster med låg latens, hög kapacitet som hanterar arbetsbelastningar i realtid som består av hundratals uppdateringar per sekund och tiotusentals läsningar per sekund.
- Till exempel har de en realtidstjänst som beräknar flygbolagens tillgänglighet dynamiskt med hänsyn till intäktsstyrningsdata och lagernivåer som kan förändras många hundra gånger per sekund. Den här tjänsten efterfrågas flera tusen gånger per sekund, vilket kan översättas till tiotusentals datauppsökningar. Deras backendlagringslager för denna tjänst är Cassandra. Några av deras SaaS-erbjudanden använder Cassandra som backendbutik för att hantera en kombination av realtids- och Hadoop-baserade batch-arbetsbelastningar.
- När vi pratar om Hadoop och Cassandra tar de ut data från Cassandra och lägger in dem i Hadoop och kör batch och analys på det, och sedan går det tillbaka till Cassandra. Detta uppnås genom Cassandras Hadoop-integration.
- Hadoop-jobben drar ut data från Cassandra, tillämpar jobbspecifika transformationer eller analyser och skjuter tillbaka data till Cassandra. De använder inte Datastax (officiell Cassandra Maintainer) Enterprise-utgåva för denna integration bara den öppna källkodsinstallationen Hadoop med Cassandra.
Datamodellering med Cassandra:
När man vill ersätta en nyckelvärdesbutik med något mer kapabelt i realtidsreplikering och datadistribution, visar forskning om Dynamo, CAP-satsen och eventuell konsistensmodell att Cassandra passar den här modellen ganska bra. När man lär sig mer om datamodelleringsfunktioner går vi gradvis mot nedbrytande data.
Om man kommer från en relationsdatabasbakgrund med stark ACID-semantik, måste man ta sig tid att förstå den eventuella konsistensmodellen.
Förstå Cassandras arkitektur väldigt bra och vad den gör under huven. Med Cassandra 2.0 får du lätta transaktioner och utlösare, men de är inte desamma som de traditionella databastransaktioner man kanske känner till. Det finns till exempel inga utländska nyckelbegränsningar tillgängliga - det måste hanteras av en egen applikation. Att förstå ens användningsfall och datatillgångsmönster tydligt innan man modellerar data med Cassandra och att läsa all tillgänglig dokumentation är ett måste.
Slutsats:
Apache Cassandra utvecklas snabbt och vi lär oss och förstår dess kapacitet - särskilt på datamodelleringssidan. Vi ser det som en distribuerad NoSQL-databas som valts för våra Big Data-tjänster och lösningar.
Edureka erbjuder en omfattande för dem som vill bli datavetare. Kursen omfattar en rad Hadoop-, R- och maskininlärningstekniker som omfattar den fullständiga datavetenskapliga studien. Edureka tillhandahåller också som hjälper dig att behärska NoSQL-databaser. Denna kurs är utformad för att ge kunskap och färdigheter för att bli en framgångsrik Cassandra-expert.