Análise de dados com Python e Pandas

Atualmente os analistas devem lidar com dados caracterizados por variedade e volume extraordinários, e com muita rapidez. Utilizando a biblioteca Pandas, é possível usar Python para automatizar e executar tarefas de análise de dados de maneira rápida, não importa quão volumosos ou complexos sejam esses dados. O Pandas pode ajudar a garantir a veracidade de seus dados, visualizá-los para uma tomada de decisão eficaz e reproduzir análises em vários conjuntos de dados de modo confiável.

VITRINE Os TOP de vendas !!

+-

Quem viu este produto , comprou

Quem viu este produto , também se interessou

  • Descrição
    Análise de dados com Python e Pandas

    Atualmente os analistas devem lidar com dados caracterizados por variedade e volume extraordinários, e com muita rapidez. Utilizando a biblioteca Pandas, é possível usar Python para automatizar e executar tarefas de análise de dados de maneira rápida, não importa quão volumosos ou complexos sejam esses dados. O Pandas pode ajudar a garantir a veracidade de seus dados, visualizá-los para uma tomada de decisão eficaz e reproduzir análises em vários conjuntos de dados de modo confiável.

    Análise de dados com Python e Pandas reúne conhecimentos práticos e insights para solucionar problemas reais com o Pandas, mesmo que a análise de dados com Python seja novidade para você. Daniel Y. Chen apresenta conceitos essenciais por meio de exemplos simples e práticos, expandindo-os de modo incremental para resolver problemas mais difíceis do mundo real.

    Chen oferece um ponto de partida rápido para o Pandas por meio de um conjunto de dados realista, além de abordar a combinação de conjuntos de dados, o tratamento de dados ausentes e a estruturação de conjuntos de dados com o intuito de facilitar a análise e a visualização. Além disso, mostra técnicas eficazes de limpeza de dados que variam da manipulação básica de strings à aplicação simultânea de funções nos dataframes.

    Depois que seus dados estiverem prontos, Chen orientará você na adequação de modelos para previsão, clustering, inferência e exploração. O autor apresenta dicas sobre desempenho e escalabilidade, e introduz você ao ecossistema mais amplo da análise de dados com Python.

    ASSUNTOS ABORDADOS

    Como trabalhar com DataFrames e Series e importar e exportar dados
    Criação de plotagens com matplotlib, seaborn e Pandas
    Combinação de conjuntos de dados e tratamento de dados ausentes
    Reformatação, organização e limpeza de conjuntos de dados para que seja mais fácil trabalhar com eles
    Conversão de tipos de dados e manipulação de strings de texto
    Aplicação de funções para escalar as manipulações de dados
    Agregação, transformação e filtragem de conjuntos de dados volumosos usando groupby
    Como tirar proveito dos recursos avançados de data e hora do Pandas
    Adequação de modelos lineares usando as bibliotecas statsmodels e scikit-learn
    Uso de modelagem linear generalizada para adequação de modelos com diferentes variáveis de resposta
    Comparação entre vários modelos para selecionar o “melhor”
    Regularização para evitar a superadequação e melhorar o desempenho
    Uso de clustering em aprendizado de máquina sem supervisão
  • Sobre o Autor
  • Especificação

    Características

    Tipo de LivroLivro Físico

    Especificações

    Sobre o AutorDaniel Y. Chen

    DANIEL Y. CHEN é engenheiro de dados e pesquisador associado na Social and Decision Analytics Laboratory, no Biocomplexity Institute da Virginia Tech. Doutorando no programa interdisciplinar em GBCB (Genetics, Bioinformatics & Computational Biology), e está envolvido com The Carpentries como instrutor e mantenedor de aulas. É instrutor do DataCamp e cientista de dados na Lander Analytics. Tem mestrado em saúde pública pela Mailman School of Public Health da Universidade de Columbia em epidemiologia, onde estudou difusão de atitudes em redes sociais. Atualmente trabalha com o reaproveitamento de dados administrativos para fundamentar políticas de tomada de decisão.
    Informações TécnicasSumário

    Apresentação.........................................................................................................................15
    Prefácio .................................................................................................................................17
    Agradecimentos.....................................................................................................................25
    Sobre o autor .........................................................................................................................29
    Parte I ¦ Introdução................................................................................................................30
    Capítulo 1 ¦ Básico sobre o DataFrame do Pandas....................................................................31
    1.1 Introdução................................................................................................. 31
    1.2 Carregando seu primeiro conjunto de dados..............................................32
    1.3 Observando colunas, linhas e células .........................................................36
    1.3.1 Obtendo subconjuntos de colunas.......................................................36
    1.3.2 Obtendo subconjuntos de linhas.........................................................38
    1.3.3 Combinando tudo..............................................................................43
    1.4 Cálculos agrupados e agregados................................................................. 51
    1.4.1 Médias agrupadas...............................................................................52
    1.4.2 Contadores de frequência agrupados ..................................................56
    1.5 Plotagem básica.........................................................................................57
    1.6 Conclusão.................................................................................................58
    Capítulo 2 ¦ Estruturas de dados do Pandas.............................................................................59
    2.1 Introdução ................................................................................................59
    2.2 Criando seus próprios dados.....................................................................60
    2.2.1 Criando uma Series............................................................................60
    2.2.2 Criando um DataFrame ..................................................................... 61
    2.3 Series........................................................................................................63
    2.3.1 Series é semelhante a ndarray..............................................................65
    2.3.2 Subconjuntos com booleanos: Series...................................................66
    2.3.3 Operações são alinhadas e vetorizadas automaticamente (broadcasting)69
    8 Análise de dados com Python e Pandas
    2.4 DataFrame................................................................................................73
    2.4.1 Subconjuntos com booleanos: DataFrames..........................................73
    2.4.2 Operações são alinhadas e vetorizadas automaticamente (broadcasting)74
    2.5 Fazendo alterações em Series e em DataFrames ..........................................76
    2.5.1 Adicionando mais colunas ..................................................................76
    2.5.2 Alterando diretamente uma coluna.....................................................78
    2.5.3 Descartando valores ........................................................................... 81
    2.6 Exportando e importando dados...............................................................82
    2.6.1 pickle .................................................................................................82
    2.6.2 CSV...................................................................................................85
    2.6.3 Excel..................................................................................................86
    2.6.4 Formato feather para interface com R..................................................87
    2.6.5 Outros tipos de saída de dados...........................................................87
    2.7 Conclusão.................................................................................................88
    Capítulo 3 ¦ Introdução à plotagem........................................................................................89
    3.1 Introdução.................................................................................................89
    3.2 Matplotlib................................................................................................. 91
    3.3 Gráficos estatísticos usando a matplotlib....................................................97
    3.3.1 Univariado .........................................................................................98
    3.3.2 Bivariado ...........................................................................................99
    3.3.3 Dados multivariados......................................................................... 100
    3.4 seaborn................................................................................................... 102
    3.4.1 Univariado ....................................................................................... 103
    3.4.2 Dados bivariados..............................................................................106
    3.4.3 Dados multivariados..........................................................................114
    3.5 Objetos do Pandas .................................................................................. 123
    3.5.1 Histogramas..................................................................................... 123
    3.5.2 Plotagem de densidade ..................................................................... 125
    3.5.3 Gráfico de dispersão......................................................................... 125
    3.5.4 Plotagem hexbin............................................................................... 126
    3.5.5 Gráfico de caixa ............................................................................... 127
    3.6 Temas e estilos do seaborn ....................................................................... 127
    3.7 Conclusão............................................................................................... 129
    Parte II ¦ Manipulação de dados ........................................................................................... 131
    Capítulo 4 ¦ Preparação dos dados........................................................................................ 132
    4.1 Introdução .............................................................................................. 132
    4.2 Tidy Data ............................................................................................... 133
    4.2.1 Combinando conjuntos de dados...................................................... 133
    Sumário 9
    4.3 Concatenação ......................................................................................... 134
    4.3.1 Adicionando linhas........................................................................... 134
    4.3.2 Adicionando colunas........................................................................ 139
    4.3.3 Concatenação com índices diferentes ................................................ 140
    4.4 Combinando vários conjuntos de dados .................................................. 144
    4.4.1 Merge um a um ................................................................................ 146
    4.4.2 Merge de muitos para um..................................................................147
    4.4.3 Merge de muitos para muitos ........................................................... 148
    4.5 Conclusão .............................................................................................. 150
    Capítulo 5 ¦ Dados ausentes ................................................................................................. 151
    5.1 Introdução................................................................................................151
    5.2 O que é um valor NaN?........................................................................... 152
    5.3 De onde vêm os valores ausentes?............................................................. 153
    5.3.1 Carga de dados................................................................................. 153
    5.3.2 Dados combinados........................................................................... 155
    5.3.3 Valores de entrada do usuário ........................................................... 157
    5.3.4 Reindexação ..................................................................................... 158
    5.4 Trabalhando com dados ausentes.............................................................160
    5.4.1 Encontrando e contando dados ausentes ...........................................160
    5.4.2 Limpando dados ausentes ................................................................ 162
    5.4.3 Cálculos com dados ausentes............................................................ 165
    5.5 Conclusão...............................................................................................166
    Capítulo 6 ¦ Tidy data (dados organizados) ...........................................................................167
    6.1 Introdução .............................................................................................. 167
    6.2 Colunas contêm valores, e não variáveis ...................................................168
    6.2.1 Mantendo uma coluna fixa ...............................................................168
    6.2.2 Mantendo várias colunas fixas...........................................................171
    6.3 Colunas contendo diversas variáveis......................................................... 173
    6.3.1 Separar e adicionar colunas individualmente (método simples)............174
    6.3.2 Separar e combinar em um único passo (método simples).................. 177
    6.3.3 Separar e combinar em um único passo (método mais complicado).... 178
    6.4 Variáveis tanto em linhas quanto em colunas............................................ 180
    6.5 Várias unidades de observação em uma tabela (normalização).................. 182
    6.6 Unidades de observação em várias tabelas................................................ 185
    6.6.1 Carregando vários arquivos usando um laço ...................................... 188
    6.6.2 Carregando vários arquivos usando uma list comprehension ............. 189
    6.7 Conclusão............................................................................................... 190
    10 Análise de dados com Python e Pandas
    Parte III ¦ Manipulação de dados ..........................................................................................191
    Capítulo 7 ¦ Tipos de dados...................................................................................................192
    7.1 Introdução............................................................................................... 192
    7.2 Tipos de dados........................................................................................ 192
    7.3 Convertendo tipos................................................................................... 193
    7.3.1 Convertendo para objetos string ........................................................ 194
    7.3.2 Convertendo para valores numéricos................................................. 194
    7.4 Dados categorizados................................................................................200
    7.4.1 Conversão para categoria....................................................................201
    7.4.2 Manipulando dados categorizados....................................................202
    7.5 Conclusão...............................................................................................203
    Capítulo 8 ¦ Strings e dados do tipo texto..............................................................................204
    8.1 Introdução ..............................................................................................204
    8.2 Strings....................................................................................................205
    8.2.1 Obtendo subconjuntos e fatiando strings...........................................205
    8.2.2 Obtendo o último caractere de uma string ........................................207
    8.3 Métodos de string ...................................................................................209
    8.4 Outros métodos de string ........................................................................ 210
    8.4.1 Método join ...................................................................................... 211
    8.4.2 Método splitlines .............................................................................. 211
    8.5 Formatação de strings..............................................................................212
    8.5.1 Formatação de strings personalizada ..................................................213
    8.5.2 Formatação de strings de caracteres ...................................................213
    8.5.3 Formatação de números ....................................................................214
    8.5.4 Formatação no estilo do printf de C.................................................. 215
    8.5.5 Strings literais formatadas em Python 3.6+........................................ 215
    8.6 Expressões regulares (RegEx) ................................................................... 216
    8.6.1 Correspondência de padrão ...............................................................218
    8.6.2 Encontrando um padrão ...................................................................221
    8.6.3 Substituindo um padrão....................................................................221
    8.6.4 Compilando um padrão ...................................................................222
    8.7 Biblioteca regex ....................................................................................... 224
    8.8 Conclusão .............................................................................................. 224
    Capítulo 9 ¦ Apply................................................................................................................225
    9.1 Introdução............................................................................................... 225
    9.2 Funções .................................................................................................. 225
    9.3 apply (básico)..........................................................................................226
    9.3.1 apply em uma Series..........................................................................227
    9.3.2 apply em um DataFrame...................................................................229
    Sumário 11
    9.4 apply (mais avançado) ............................................................................. 232
    9.4.1 Operações em colunas....................................................................... 235
    9.4.2 Operações em linhas ........................................................................ 237
    9.5 Funções vetorizadas.................................................................................240
    9.5.1 Usando o numpy ...............................................................................241
    9.5.2 Usando a biblioteca numba .............................................................. 242
    9.6 Funções lambda ...................................................................................... 243
    9.7 Conclusão............................................................................................... 245
    Capítulo 10 ¦ Operações groupby: separar–aplicar–combinar................................................246
    10.1 Introdução.............................................................................................246
    10.2 Agregação.............................................................................................. 247
    10.2.1 Agregação básica com agrupamento de uma única variável ............... 247
    10.2.2 Métodos de agregação embutidos.................................................... 249
    10.2.3 Funções de agregação......................................................................250
    10.2.4 Várias funções simultaneamente......................................................254
    10.2.5 Usando um dicionário em agg/aggregate .........................................254
    10.3 Transformação.......................................................................................256
    10.3.1 Exemplo com escore z......................................................................256
    10.4 Filtragem............................................................................................... 261
    10.5 Objeto pandas.core.groupby.DataFrameGroupBy....................................262
    10.5.1 Grupos...........................................................................................263
    10.5.2 Cálculos com grupos envolvendo diversas variáveis..........................264
    10.5.3 Selecionando um grupo ..................................................................265
    10.5.4 Iterando nos grupos........................................................................265
    10.5.5 Vários grupos .................................................................................268
    10.5.6 Obtendo resultados planos..............................................................268
    10.6 Trabalhando com MultiIndex .................................................................269
    10.7 Conclusão ............................................................................................. 273
    Capítulo 11 ¦ Tipo de dado datetime..................................................................................... 274
    11.1 Introdução ............................................................................................. 274
    11.2 Objeto datetime de Python..................................................................... 275
    11.3 Conversão para datetime ........................................................................ 275
    11.4 Carregando dados que incluam datas .....................................................279
    11.5 Extraindo componentes de datas............................................................280
    11.6 Cálculos com datas e timedeltas .............................................................282
    11.7 Métodos de datetime..............................................................................284
    11.8 Obtendo dados de ações.........................................................................287
    11.9 Obtendo subconjuntos de dados com base em datas...............................288
    11.9.1 Objeto DatetimeIndex......................................................................289
    11.9.2 Objeto TimedeltaIndex ...................................................................290
    12 Análise de dados com Python e Pandas
    11.10 Intervalos de datas.................................................................................291
    11.10.1 Frequências....................................................................................293
    11.10.2 Offsets...........................................................................................294
    11.11 Deslocando valores................................................................................295
    11.12 Reamostragem......................................................................................303
    11.13 Fusos horários......................................................................................304
    11.14 Conclusão ............................................................................................306
    Parte IV ¦ Modelagem de dados............................................................................................307
    Capítulo 12 ¦ Modelos lineares..............................................................................................308
    12.1 Introdução.............................................................................................308
    12.2 Regressão linear simples.........................................................................308
    12.2.1 Usando a statsmodels......................................................................309
    12.2.2 Usando a sklearn............................................................................. 311
    12.3 Regressão múltipla..................................................................................313
    12.3.1 Usando a statsmodels.......................................................................313
    12.3.2 Usando a statsmodels com variáveis categorizadas ............................314
    12.3.3 Usando a sklearn .............................................................................316
    12.3.4 Usando a sklearn com variáveis categorizadas...................................317
    12.4 Mantendo os rótulos dos índices com a sklearn .......................................318
    12.5 Conclusão..............................................................................................319
    Capítulo 13 ¦ Modelos lineares generalizados........................................................................320
    13.1 Introdução ............................................................................................. 320
    13.2 Regressão logística ................................................................................. 320
    13.2.1 Usando a statsmodels...................................................................... 322
    13.2.2 Usando a sklearn............................................................................ 324
    13.3 Regressão de Poisson.............................................................................. 326
    13.3.1 Usando a statsmodels...................................................................... 326
    13.3.2 Regressão binomial negativa para superdispersão............................. 328
    13.4 Outros modelos lineares generalizados ................................................... 329
    13.5 Análise de sobrevivência......................................................................... 330
    13.5.1 Testando as suposições do modelo de Cox........................................ 333
    13.6 Conclusão ............................................................................................. 334
    Capítulo 14 ¦ Diagnóstico de modelos...................................................................................335
    14.1 Introdução ............................................................................................. 335
    14.2 Resíduos ............................................................................................... 335
    14.2.1 Plotagens q-q ..................................................................................338
    14.3 Comparando vários modelos..................................................................340
    14.3.1 Trabalhando com modelos lineares ..................................................340
    Sumário 13
    14.3.2 Trabalhando com modelos GLM.....................................................344
    14.4 Validação cruzada k-fold ........................................................................ 347
    14.5 Conclusão ..............................................................................................351
    Capítulo 15 ¦ Regularização..................................................................................................352
    15.1 Introdução ............................................................................................. 352
    15.2 Por que regularizar?............................................................................... 352
    15.3 Regressão LASSO .................................................................................. 355
    15.4 Regressão de ridge.................................................................................. 357
    15.5 Rede elástica.......................................................................................... 359
    15.6 Validação cruzada ..................................................................................362
    15.7 Conclusão .............................................................................................365
    Capítulo 16 ¦ Clustering........................................................................................................366
    16.1 Introdução.............................................................................................366
    16.2 k-means................................................................................................366
    16.2.1 Redução de dimensões com PCA.....................................................369
    16.3 Clustering hierárquico ............................................................................374
    16.3.1 Clustering completo .........................................................................374
    16.3.2 Clustering simples.......................................................................... 375
    16.3.3 Clustering com médias ................................................................... 375
    16.3.4 Clustering com centroide ................................................................ 375
    16.3.5 Definindo manualmente o limite .................................................... 376
    16.4 Conclusão ............................................................................................. 377
    Parte V ¦ Conclusão ..............................................................................................................378
    Capítulo 17 ¦ Vida além do Pandas........................................................................................379
    17.1 A pilha de processamento (científico)....................................................... 379
    17.2 Desempenho .........................................................................................380
    17.2.1 Medindo o tempo de execução de seu código....................................380
    17.2.2 Gerando o perfil de seu código........................................................382
    17.3 Maior e mais rápido ...............................................................................382
    Capítulo 18 ¦ No caminho para ser autodidata.......................................................................383
    18.1 É perigoso andar sozinho! ......................................................................383
    18.2 Meetups locais ......................................................................................383
    18.3 Conferências..........................................................................................384
    18.4 Internet .................................................................................................385
    18.5 Podcasts................................................................................................385
    18.6 Conclusão .............................................................................................385
    14 Análise de dados com Python e Pandas
    Parte VI ¦ Apêndices.............................................................................................................386
    Apêndice A ¦ Instalação........................................................................................................387
    Apêndice B ¦ Linha de comandos ..........................................................................................389
    Apêndice C ¦ Templates de projeto........................................................................................391
    Apêndice D ¦ Usando Python ................................................................................................392
    Apêndice E ¦ Diretórios de trabalho.......................................................................................395
    Apêndice F ¦ Ambientes........................................................................................................397
    Apêndice G ¦ Instalação de pacotes.......................................................................................400
    Apêndice H ¦ Importando bibliotecas....................................................................................402
    Apêndice I ¦ Listas................................................................................................................404
    Apêndice J ¦ Tuplas...............................................................................................................406
    Apêndice K ¦ Dicionários.......................................................................................................407
    Apêndice L ¦ Fatiando valores............................................................................................... 410
    Apêndice M ¦ Laços .............................................................................................................. 412
    Apêndice N ¦ Comprehensions.............................................................................................. 414
    Apêndice O ¦ Funções........................................................................................................... 416
    Apêndice P ¦ Intervalos e geradores......................................................................................421
    Apêndice Q ¦ Atribuição múltipla..........................................................................................424
    Apêndice R ¦ ndarray do numpy............................................................................................426
    Apêndice S ¦ Classes.............................................................................................................428
    Apêndice T ¦ Odo: o modificador de formato..........................................................................430

    Informações Técnicas

    Nº de páginas:432
    Origem:Nacional
    Editora:Editora Novatec
    Idioma:Português
    Edição:1ª Edição
    Ano:2018
    ISBN:9788575226995
    Encadernação:Brochura
    Autor:Daniel Y. Chen
  • Informações

Avaliação técnica sobre o livro

Olá! Seja Bem Vindo (a)!

Eu sou o Moderninho , o Mascote da Ciência Moderna Online!
Além de bonito, o novo site tem Minhas Dicas :) #ficaadica

A 1ª Dica é -> Deixe aqui seu contato para receber nossas
NOVIDADES, PROMOÇÕES E CUPONS DE DESCONTOS ;)

Navegue SEM Moderação!