Twitter iPhone pliant OnePlus 11 PS5 Disney+ Orange Livebox Windows 11

quels logiciels pour un entrepot de données ?

9 réponses
Avatar
thomas
bonjour :-)


on m'a demandé de chercher quels logiciels pourraient servir à faire un
entrepot de données

avec ce que j'ai trouvé avec google, je sais qu'il y a le SGBD et
l'ETL, qui sont 2 parties differentes,
mais je ne sais pas comment m'y prendre / par où commencer pour trouver
les logiciels proprement dits

est ce que qqn pourait m'aider à demarrer svp ? :-)

9 réponses

Avatar
Jerome PAULIN
thomas a écrit :
bonjour :-)

on m'a demandé de chercher quels logiciels pourraient servir à faire un
entrepot de données

est ce que qqn pourait m'aider à demarrer svp ? :-)





Salut,

Monter un DataWareHouse est une démarche un peu plus compliquée/complexe
que simplement mettre un SGDB et un ETL, surtout si tu souhaite avoir
des performances correctes au niveau du rendu...

Tu peux regarder du coté de la modélisation en étoile/flocon pour la
partir modélisation (ca pourrait être un peu difficile si tu ne l'as
jamais fait, la dénormalisation oblige à une gymnastique d'esprit qui va
à l'opposé de ce qu'un développeur a tendance à faire).

Pour le rendu il existe tout un tas d'outils, certains libres (pentaho
ou spagobi par exemple, Talend Open Studio pour l'ETL), d'autres payant
(Business Objects par exemple), d'autres intégrés directement dans un
SGDB (SQLServer, Oracle par exemple).

gg
Avatar
thomas
Il se trouve que Jerome PAULIN a formulé :
thomas a écrit :
bonjour :-)



on m'a demandé de chercher quels logiciels pourraient servir à faire un
entrepot de données





je suis stagiaire au service informatique

la société projete (environ 2 ans -- mon stage fait 2 mois) de mettre
en oeuvre un entrepot de données pour centraliser des données qui sont
actuellement eparpillées

on m'a donné pour mission de debrousailler le terrain
(pour savoir ce qui existe, avec quelles fonctionnalitées, ...)


(grace à ce que j'ai lu pendant 1 j et demi, j'ai appris à mon
superieur ce que c'est qu'un hypercube)


est ce que qqn pourait m'aider à demarrer svp ? :-)





Salut,

Monter un DataWareHouse est une démarche un peu plus compliquée/complexe que
simplement mettre un SGDB et un ETL, surtout si tu souhaite avoir des
performances correctes au niveau du rendu...



je n'ai pas pour mission de le mettre en production


Tu peux regarder du coté de la modélisation en étoile/flocon pour la partir
modélisation (ca pourrait être un peu difficile si tu ne l'as jamais fait, la
dénormalisation oblige à une gymnastique d'esprit qui va à l'opposé de ce
qu'un développeur a tendance à faire).



c'est quoi la dénormalisation ?
c'est pas de la normalisation, qu'on doit faire, pour pouvoir faire
rentrer les données de nature diverse dans l'entrepot ?


Pour le rendu il existe tout un tas d'outils, certains libres (pentaho ou
spagobi par exemple, Talend Open Studio pour l'ETL), d'autres payant
(Business Objects par exemple), d'autres intégrés directement dans un SGDB
(SQLServer, Oracle par exemple).



merci pour les mots clés :-)
j'ai deja regardé pentaho, spagobi et Talend Open Studio, et ca a l'air
tres bien,

mais j'ai pas compris d'apres ton msg pour chacun d'entre eux si ils
font entrepot de données complet, ou seulement l'ETL, le stockage ou le
rendu
et j'ai pas bien reussi à determiner ca d'apres leur site non plus


pour l'instant je ne connais pas encore les contraintes de
l'environnement dans lequel ca sera (probablement) mis en oeuvre,
ce que j'ai à faire c'est un "inventaire" de ce qui existe comme
solutions possibles
(si possible libres, sinon gratuites, sinon tant pis payantes)
Avatar
Jerome PAULIN
thomas a écrit :

mais j'ai pas compris d'apres ton msg pour chacun d'entre eux si ils
font entrepot de données complet, ou seulement l'ETL, le stockage ou le
rendu
et j'ai pas bien reussi à determiner ca d'apres leur site non plus




Sur le principe, un DataWareHouse correspond à l'ensemble des DataMarts
qui eux mêmes correspondent à des domaines fonctionnels (c'est comme
cela que je procède lors d'une mise en place). Bien entendu, il est
possible d'alimenter un DataMart à partir d'autres DataMarts (par
exemple lorsque l'on souhaite consolider des données issues de plusieurs
domaines fonctionnels).

L'ETL sert à alimenter les DataMarts.

L'outil de rendu puise les informations dans les DataMarts pour la
présenter à l'utilisateur final, souvent après consolidation (fonctions
sum() et compagnie).

Lorsque tu structure tes données dans un but d'analyse, tu peux
dénormaliser les données de production, c'est à dire que, dans un
objectif de performances, tu t'autorise à créer des champs en double
dans tes dimensions.
Par exemple, il peut être intéressant de retrouver le code de ton
produit dans la dimension des phases de production. Du coup tu abouti à
un schéma en "étoile" dans lequel tu as une table "faits", avec des
références vers des tables de "dimension".


pour l'instant je ne connais pas encore les contraintes de
l'environnement dans lequel ca sera (probablement) mis en oeuvre,
ce que j'ai à faire c'est un "inventaire" de ce qui existe comme
solutions possibles
(si possible libres, sinon gratuites, sinon tant pis payantes)





Pour le libre, je te suggère SpagoBI ou Pentaho, couplé à Talend pour l'ETL.
Avatar
tdecontes
On 5 fév, 08:29, Jerome PAULIN wrote:
thomas a écrit :

> mais j'ai pas compris d'apres ton msg pour chacun d'entre eux si ils
> font entrepot de données complet, ou seulement l'ETL, le stockage ou le
> rendu
> et j'ai pas bien reussi à determiner ca d'apres leur site non plus

Sur le principe, un DataWareHouse correspond à l'ensemble des DataMarts
qui eux mêmes correspondent à des domaines fonctionnels (c'est comme
cela que je procède lors d'une mise en place). Bien entendu, il est
possible d'alimenter un DataMart à partir d'autres DataMarts (par
exemple lorsque l'on souhaite consolider des données issues de plusieur s
domaines fonctionnels).



ce que j'ai compris c'est que les DataMarts, par définition, c'est des
BD périphériques qui reprennent des données de la BD principale dans
un but d'optimisation
c'est pas ça ?

par contre je sais pas si cette BD principale a un nom,
parce que ce qu'on appelle "entrepôt de données" c'est ETL + BD
principale + DataMarts + tout ce qui sert au rendu, c'est bien ça ?


L'ETL sert à alimenter les DataMarts.



j'ai déjà lu qqes trucs, donc je connais très grossièrement les
principes de bases :-)
par exemple je trouve que cette page explique très bien :
http://www.journaldunet.com/solutions/dossiers/pratique/entrepot-donnees.sh tml



> pour l'instant je ne connais pas encore les contraintes de
> l'environnement dans lequel ca sera (probablement) mis en oeuvre,
> ce que j'ai à faire c'est un "inventaire" de ce qui existe comme
> solutions possibles
> (si possible libres, sinon gratuites, sinon tant pis payantes)

Pour le libre, je te suggère SpagoBI ou Pentaho, couplé à Talend po ur l'ETL.



merci :-)

donc Talend ne fait que de l'ETL ?
et SpagoBI et Pentaho ne font pas d'ETL mais autre chose ? quoi
exactement ?

mais surtout, je ne te demande pas de me donner tout cuit ce que je
dois rendre,
mais j'aimerais apprendre à trouver sur les sites des logiciels les
infos que je cherche
j'arrive pas à tout décrypter

par exemple, on m'a demander de regarder de près celui de ms pour des
raisons de compatibilité avec l'existant, même si c'est payant
comment analyser ce que donne le site de ms pour savoir ce qu'ils
proposent, etc ?
Avatar
Jerome PAULIN
a écrit :

ce que j'ai compris c'est que les DataMarts, par définition, c'est des
BD périphériques qui reprennent des données de la BD principale dans
un but d'optimisation
c'est pas ça ?




Le DataWareHouse est constitué par l'ensemble des DataMarts. En général,
un DataMart=(1 table de fait + n tables de dimensions), et les tables de
dimensions sont définies une seule fois dans le DataWareHouse.

par contre je sais pas si cette BD principale a un nom,
parce que ce qu'on appelle "entrepôt de données" c'est ETL + BD
principale + DataMarts + tout ce qui sert au rendu, c'est bien ça ?




un WareHouse c'est un entrepot en anglais
donc un DataWareHouse est un entrepot de données , CQFD

donc Talend ne fait que de l'ETL ?
et SpagoBI et Pentaho ne font pas d'ETL mais autre chose ? quoi
exactement ?



Talend est un outil d'ETL, son objectif est de fournir un moyen pour
alimenter le DataWareHouse / les DataMarts , en effectuant les taches
Extract, Transform and Load (ETL). Le point fort d'un tel produit est de
permettre de mixer des informations venant de produits hétérogènes.

SpagoBI est un outil de rendu : il te permet de créer un portail
Intranet qui va contenir les états, cubes OLAP, les requetes, ... qui
seront visualisées par les utilisateurs finaux.
Pentaho fait sensiblement la même chose.


mais surtout, je ne te demande pas de me donner tout cuit ce que je
dois rendre,
mais j'aimerais apprendre à trouver sur les sites des logiciels les
infos que je cherche
j'arrive pas à tout décrypter

par exemple, on m'a demander de regarder de près celui de ms pour des
raisons de compatibilité avec l'existant, même si c'est payant
comment analyser ce que donne le site de ms pour savoir ce qu'ils
proposent, etc ?



Désolé, je ne connait le produit MS que de nom...
C'est l'ELT qui permet la compatibilité entre les systèmes ...

Par exemple sur le DWH que je suis en train de mettre en place :
- 9 tables de faits (12 à terme je pense)
- 34 dimensions (peut etre encore une ou deux non identifiées)
- les données seront issues de :
- fichiers Excel (qualité)
- fichiers texte alignés (comptabilité)
- fichiers texte avec séparateur (paye)
- bases firebird (gestion commerciale 1)
- bases MySQL (gestion commerciale 2 et suivi de production)
- bases MySQL (relevés de temps = pointages)
- le DataWareHouse utilisera MySQL ou PostgreSQL (pas encore défini à ce
stade du projet)
- l'ETL sera TalendOpenStudio
- le rendu des données sera fait via SpagoBI (Indicateurs, Etats, Cubes
OLAP)

Les informations que tu trouve sur le net ne sont pas assez complètes à
mon gout, elles sont orientées technique, mais n'expliquent pas la
"philosophie Business Intelligence" (je n'en n'ai pas trouvé).

gg
Avatar
thomas
Il se trouve que Jerome PAULIN a formulé :
a écrit :

ce que j'ai compris c'est que les DataMarts, par définition, c'est des
BD périphériques qui reprennent des données de la BD principale dans
un but d'optimisation
c'est pas ça ?




Le DataWareHouse est constitué par l'ensemble des DataMarts.



ah, donc en fait t'utilises la Définition de Kimball

je viens de lire http://fr.wikipedia.org/wiki/Datamart
et c'est bizarre, dans la meme page ils donnent 2 Définitions
incompatibles, et ensuite ils semblent n'utiliser que la Définition
d'Inmon (sans prevenir !)
... ce qui a fait que je ne comprenais pas ce que tu disais ...

comment savoir, à un moment donné, laquelle de ces 2 deffinitions
utiliser ? :-/


En général, un
DataMart=(1 table de fait + n tables de dimensions), et les tables de
dimensions sont définies une seule fois dans le DataWareHouse.



ah bon ?
il me semble que meme avec la Définition de Kimball, les DataMarts sont
"orientés metier", et peuvent donc contenir plusieurs tables de faits



par contre je sais pas si cette BD principale a un nom,
parce que ce qu'on appelle "entrepôt de données" c'est ETL + BD
principale + DataMarts + tout ce qui sert au rendu, c'est bien ça ?




un WareHouse c'est un entrepot en anglais
donc un DataWareHouse est un entrepot de données , CQFD



et C'est quoi QFD ??


pour repondre à ma question, il me semble, d'apres ce que j'ai lu en
plus,
que ce qu'on appelle "entrepôt de données" c'est seulement la BD
principale, et pas ce qu'il y a autour,
et que ETL et rendu c'est autour de l'entrepôt, pas dedans, meme si
c'est indispensable

je me trompe ?


donc Talend ne fait que de l'ETL ?
et SpagoBI et Pentaho ne font pas d'ETL mais autre chose ? quoi
exactement ?



Talend est un outil d'ETL, son objectif est de fournir un moyen pour
alimenter le DataWareHouse / les DataMarts , en effectuant les taches
Extract, Transform and Load (ETL). Le point fort d'un tel produit est de
permettre de mixer des informations venant de produits hétérogènes.

SpagoBI est un outil de rendu : il te permet de créer un portail Intranet qui
va contenir les états, cubes OLAP, les requetes, ... qui seront visualisées
par les utilisateurs finaux.
Pentaho fait sensiblement la même chose.



merci bcp :-)



mais surtout, je ne te demande pas de me donner tout cuit ce que je
dois rendre,
mais j'aimerais apprendre à trouver sur les sites des logiciels les
infos que je cherche
j'arrive pas à tout décrypter

par exemple, on m'a demander de regarder de près celui de ms pour des
raisons de compatibilité avec l'existant, même si c'est payant
comment analyser ce que donne le site de ms pour savoir ce qu'ils
proposent, etc ?



Désolé, je ne connait le produit MS que de nom...



ma question etait générale, le produit MS c'etait un exemple

C'est l'ELT qui permet la compatibilité entre les systèmes ...



donc en fait tu penses que grace à Talend je ne devrait avoir aucun pb
de compatibilité nullepart, puisqu'il est fait pour ca,
meme si a priori il y a certains logiciels qui sont plus faits pour
etre ensemble que d'autres ?


Par exemple sur le DWH que je suis en train de mettre en place :
- 9 tables de faits (12 à terme je pense)
- 34 dimensions (peut etre encore une ou deux non identifiées)
- les données seront issues de :
- fichiers Excel (qualité)
- fichiers texte alignés (comptabilité)
- fichiers texte avec séparateur (paye)
- bases firebird (gestion commerciale 1)
- bases MySQL (gestion commerciale 2 et suivi de production)
- bases MySQL (relevés de temps = pointages)
- le DataWareHouse utilisera MySQL ou PostgreSQL (pas encore défini à ce
stade du projet)
- l'ETL sera TalendOpenStudio



à propos, est ce qu'il y aurait un logiciel alternatif ?

- le rendu des données sera fait via SpagoBI (Indicateurs, Etats, Cubes OLAP)



par curiosité, pourquoi SpagoBI plutot que Pentaho ?
(juste parce qu'il fallait en choisir un ?)


Les informations que tu trouve sur le net ne sont pas assez complètes à mon
gout, elles sont orientées technique, mais n'expliquent pas la "philosophie
Business Intelligence" (je n'en n'ai pas trouvé).



ah ?

alors pourrais tu me donner un debut d'explication stp ? :-)

la "philosophie Business Intelligence",
c'est le fait que le but, pour l'utilisateur final, c'est uniquement
d'avoir une vue d'ensemble de la situation de l'entreprise, pour l'aide
à la prise de decision,
et que c'est absolument pas "pour travailler tous les jours" ?
... ou bien ca n'a rien à voir ?
Avatar
Mihamina Rakotomandimby (R12y)
thomas wrote:
donc un DataWareHouse est un entrepot de données , CQFD


et C'est quoi QFD ??



CQFD: Ce Qu'il Fallait Démontrer
(On faisait beaucoup allusion à cet acronyme en Terminale, Fac,... et
plus généralement là ou fait des Maths en Français)
Avatar
yamo'
Mihamina Rakotomandimby (R12y) a tapoté, le 16.02.2009 09:01:
et C'est quoi QFD ??



CQFD: Ce Qu'il Fallait Démontrer
(On faisait beaucoup allusion à cet acronyme en Terminale, Fac,... et
plus généralement là ou fait des Maths en Français)



[HS]
Ce n'est pas un acronyme juste une abréviation, essaies de le prononcer
comme un mot tu verras :P



Stéphane
--
<http://pasdenom.info&gt;
Avatar
Mihamina Rakotomandimby (R12y)
yamo' wrote:
CQFD: Ce Qu'il Fallait Démontrer
(On faisait beaucoup allusion à cet acronyme en Terminale, Fac,... et
plus généralement là ou fait des Maths en Français)


[HS]
Ce n'est pas un acronyme juste une abréviation,



Yep, pardon pour la confusion.