Importa dades de PDF a Excel mitjançant Power Query

La tasca de transferir dades d'un full de càlcul en un fitxer PDF a un full de Microsoft Excel sempre és "divertida". Sobretot si no teniu un programari de reconeixement car com FineReader o alguna cosa semblant. La còpia directa normalment no porta a res bo, perquè. després d'enganxar les dades copiades al full, el més probable és que "s'enganxin" en una columna. Així doncs, s'hauran de separar amb cura amb una eina Text per columnes de la pestanya dades (Dades: text a columnes).

I per descomptat, la còpia només és possible per a aquells fitxers PDF on hi ha una capa de text, és a dir, amb un document que s'acaba d'escanejar de paper a PDF, això en principi no funcionarà.

Però no és tan trist, la veritat 🙂

Si teniu Office 2013 o 2016, en un parell de minuts, sense programes addicionals, és molt possible transferir dades de PDF a Microsoft Excel. I Word i Power Query ens ajudaran en això.

Per exemple, prenem aquest informe en PDF amb un munt de text, fórmules i taules del lloc web de la Comissió Econòmica per a Europa:

Importa dades de PDF a Excel mitjançant Power Query

... i proveu de treure'n a Excel, digueu la primera taula:

Importa dades de PDF a Excel mitjançant Power Query

Som-hi!

Pas 1. Obriu PDF al Word

Per alguna raó, poca gent ho sap, però des del 2013 Microsoft Word ha après a obrir i reconèixer fitxers PDF (fins i tot els escanejats, és a dir, sense capa de text!). Això es fa d'una manera completament estàndard: obriu Word, feu clic Fitxer - Obre (Fitxer — Obre) i especifiqueu el format PDF a la llista desplegable de l'extrem inferior dret de la finestra.

A continuació, seleccioneu el fitxer PDF que necessitem i feu clic obert (Obert). Word ens diu que executarà OCR en aquest document a text:

Importa dades de PDF a Excel mitjançant Power Query

Estem d'acord i en uns segons veurem el nostre PDF obert per editar-lo ja a Word:

Importa dades de PDF a Excel mitjançant Power Query

Per descomptat, el disseny, els estils, els tipus de lletra, les capçaleres i els peus de pàgina, etc. sortiran parcialment del document, però això no és important per a nosaltres: només necessitem dades de taules. En principi, en aquesta fase, ja és temptador simplement copiar la taula del document reconegut a Word i simplement enganxar-la a Excel. De vegades funciona, però més sovint condueix a tot tipus de distorsions de dades; per exemple, els números poden convertir-se en dates o romandre text, com en el nostre cas, perquè. PDF utilitza no separadors:

Importa dades de PDF a Excel mitjançant Power Query

Així que no tallem cantonades, sinó que ho fem una mica més complicat, però correcte.

Pas 2: deseu el document com a pàgina web

Per carregar les dades rebudes a Excel (mitjançant Power Query), el nostre document a Word s'ha de desar en el format de pàgina web: aquest format és, en aquest cas, una mena de denominador comú entre Word i Excel.

Per fer-ho, aneu al menú Fitxer - Desa com (Fitxer — Desa com) o premeu la tecla F12 al teclat i a la finestra que s'obre, seleccioneu el tipus de fitxer Pàgina web en un sol fitxer (Pàgina web — Fitxer únic):

Importa dades de PDF a Excel mitjançant Power Query

Després de desar, hauríeu d'obtenir un fitxer amb l'extensió mhtml (si veieu extensions de fitxer a l'Explorador).

Etapa 3. Pujada del fitxer a Excel mitjançant Power Query

Podeu obrir el fitxer MHTML creat a Excel directament, però després obtindrem, en primer lloc, tot el contingut del PDF alhora, juntament amb text i un munt de taules innecessàries i, en segon lloc, tornarem a perdre dades a causa d'un error incorrecte. separadors. Per tant, farem la importació a Excel mitjançant el complement Power Query. Es tracta d'un complement totalment gratuït amb el qual podeu carregar dades a Excel des de gairebé qualsevol font (fitxers, carpetes, bases de dades, sistemes ERP) i després transformar les dades rebudes de totes les maneres possibles, donant-los la forma desitjada.

Si teniu Excel 2010-2013, podeu descarregar Power Query des del lloc web oficial de Microsoft; després de la instal·lació, veureu una pestanya Power Consulta. Si teniu Excel 2016 o posterior, no cal que baixeu res: tota la funcionalitat ja està integrada a Excel de manera predeterminada i es troba a la pestanya dades (Data) en grup Descarregar i convertir (Aconsegueix i transforma).

Així que anem a la pestanya dades, o a la pestanya Power Consulta i triar un equip Per obtenir dades or Crea una consulta - Des del fitxer - Des de XML. Per fer visibles no només els fitxers XML, canvieu els filtres de la llista desplegable a l'extrem inferior dret de la finestra a Tots els fitxers (Tots els fitxers) i especifiqueu el nostre fitxer MHTML:

Importa dades de PDF a Excel mitjançant Power Query

Tingueu en compte que la importació no es completarà correctament, perquè. Power Query espera XML de nosaltres, però en realitat tenim un format HTML. Per tant, a la següent finestra que apareixerà, haureu de fer clic amb el botó dret sobre el fitxer incomprensible per a Power Query i especificar-ne el format:

Importa dades de PDF a Excel mitjançant Power Query

Després d'això, el fitxer es reconeixerà correctament i veurem una llista de totes les taules que conté:

Importa dades de PDF a Excel mitjançant Power Query

Podeu veure el contingut de les taules fent clic amb el botó esquerre del ratolí al fons blanc (no a la paraula Taula!) de les cel·les de la columna Dades.

Quan la taula desitjada estigui definida, feu clic a la paraula verda Taula - i "caure" en el seu contingut:

Importa dades de PDF a Excel mitjançant Power Query

Queda per fer uns quants passos senzills per "pentinar" el seu contingut, és a dir:

  1. suprimiu les columnes innecessàries (feu clic amb el botó dret a la capçalera de la columna - Remove)
  2. substituïu els punts per comes (seleccioneu columnes, feu clic amb el botó dret - Substitució de valors)
  3. eliminar els signes iguals a la capçalera (seleccioneu columnes, feu clic amb el botó dret - Substitució de valors)
  4. elimina la línia superior (Home – Eliminar línies – Eliminar línies superiors)
  5. eliminar línies en blanc (Inici – Eliminar línies – Eliminar línies buides)
  6. puja la primera fila a la capçalera de la taula (Inici: utilitzeu la primera línia com a encapçalaments)
  7. filtra les dades innecessàries mitjançant un filtre

Quan la taula es porta a la seva forma normal, es pot descarregar al full amb l'ordre tancar i descarregar (Tancar i carregar) on La principal pestanya. I obtindrem tanta bellesa amb la qual ja podem treballar:

Importa dades de PDF a Excel mitjançant Power Query

  • Transformar una columna en una taula amb Power Query
  • Dividir el text enganxós en columnes

Deixa un comentari