Simple text classifier

Big Data Project

Tema

Proiectul are ca scop realizarea unei aplicatii web care sa permita asignarea automata a unei arii tematice unui articol stiintific uploadat in aplicatie. Aceasta incadrare intr-o arie tematica va fi facuta pe baza analizei titlului, abstractului si al continutului respectivului articol.

Introducere

Proiectul realizat consta intr-o aplicatie web de tip Client-Server. Utilizatorul, cu ajutorul interfetei grafice, incarca un document de tip TXT/PDF/DOC/DOCX pe server. Serverul, la primirea unui fisier, verifica daca documentul este valid, extrage tot textul din fisier, face o sumarizarea a acestuia pe baza unor cuvinte cheie apoi, pe baza acestui rezumat, se face clasificarea intr-o arie tematica. Totodata, utilizatorul are posibilitatea de a vedea fisierele uploadate anterior, poate vedea iar ariile tematice ale acestor articole si de asemenea le poate descarca iarasi, acestea fiind stocate in baza de date.

Tehnologii folosite

Back-end: C# (.NET Framework)

Front-end: Razor (HTML + CSS)

Baza de date: MSSQL / ORM: EntityFramework

Librarii:

iTextSharp: Folosita pentru manipularea fisierelor PDF
Microsoft.Office.Interop.Word: Pentru manipularea fisierelor Word
OpenTextSummarizer: Pentru sumarizarea textului citit din documentele uploadate

Machine Learning Service: uClassify

Open Text Summarizer

OTS este o librarie de .NET open-source, oferita de CodePlex1 – un proiect open-source sustinut si oferit de Microsoft. OTS permite sumarizarea paginilor web sau a altor documente (PDF, Word etc.) scotand in evidenta cele mai importante concepte si idei din document. A fost dezvoltat intial pentru platforma Linux. Avand un mare succes si fiind un tool foarte folosit, acesta a inceput sa fie adaugat in majoritatea distributiilor Linux. Folosind OTS, se pot determina rapid conceptele principale dintr-un document. Sumarizarea poate fi realizata dupa anumiti parametri setati de utilizator, precum procentul sau numarul de propozitii in care sa se faca.

uClassify

uClassify este un serviciu Machine Learning gratuit folosit in crearea, manipularea sau clasificarea textelor. Poate fi folosit in clasificarea textelor dupa sentimente, limba, topicuri, tinalitate etc. Clasificarea textelor dupa topicuri foloseste un model deja antrenat, oferit de Open Directory Project2 (cunoscut si ca DMOZ). Acesta a fost un catalog de Internet disponibil in mai multe limbi. Acesta a ajuns cel mai bine cotat catalog, datorita atat numarului mare de categorii si subcategorii, cat si a numarului urias de resurse continute. Acesta are in prezent peste 4.5 milioane de site-uri indexate si aproximativ 600.000 de categorii.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
EGOV_Tema1		EGOV_Tema1
OpenTextSummarizer		OpenTextSummarizer
.gitignore		.gitignore
BigDataProject.sln		BigDataProject.sln
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Simple text classifier

Tema

Introducere

Tehnologii folosite

Open Text Summarizer

uClassify

About

Releases

Packages

Languages

cosmin19/text-classifier

Folders and files

Latest commit

History

Repository files navigation

Simple text classifier

Tema

Introducere

Tehnologii folosite

Open Text Summarizer

uClassify

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages