ket file hasonlosaga hash

Discussion:

ket file hasonlosaga hash

Dániel Vásárhelyi

2005-11-21 08:27:23 UTC

Hello,

Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara. Mivel vegigkovetve e vonalat nem jutottam mashoz,
csak egy szamomra kodos matematikai formulahoz, szeretnem megkerdezni
a Nagyerdemut, hogy tud-e olyan (mar kesz) librol vagy programrol, ami
tud nyilatkozni ketto db file hasonlosagarol.

Ezer kosz,
asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

Fagyal Csongor

2005-11-21 13:17:57 UTC

E,

Perl-ben van String::Similarity, ket string hasonlosagat szamolja ki
ertelemszeruen. Talan tudnad hasznalni, attol fugg, milyen a ket file-od...

http://search.cpan.org/~mlehmann/String-Similarity-1.02/Similarity.pm

- Fagzal

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
Hello,
Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara. Mivel vegigkovetve e vonalat nem jutottam mashoz,
csak egy szamomra kodos matematikai formulahoz, szeretnem megkerdezni
a Nagyerdemut, hogy tud-e olyan (mar kesz) librol vagy programrol, ami
tud nyilatkozni ketto db file hasonlosagarol.
Ezer kosz,
asd
--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/
_______________________________________________
linux++ mailing list
http://mlf2.linux.rulez.org/mailman/listinfo/linux++

Dániel Vásárhelyi

2005-11-21 13:23:26 UTC

Post by Fagyal Csongor
http://search.cpan.org/~mlehmann/String-Similarity-1.02/Similarity.pm

Egynek jo, koszi, de igy paronkent kell osszehasonlitani mindet,
mindegyikkel... par tizezer file eseten mar 10000^2 osszehasonlitast
vegezni... Tul sok melo.
--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

Ke'tszeri Csaba

2005-11-22 15:37:16 UTC

Hello!

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara. Mivel vegigkovetve e vonalat nem jutottam mashoz,
csak egy szamomra kodos matematikai formulahoz, szeretnem megkerdezni
a Nagyerdemut, hogy tud-e olyan (mar kesz) librol vagy programrol, ami
tud nyilatkozni ketto db file hasonlosagarol.

Csak a manualban es emlekekben kutatva:
levenshtein max 255 karakterig, visszaadja, h s1-ben hany karaktert
kell kicserelni, hogy eljuss s2-be. probaltam, hasznalhato :)
similar_text - It returns the number of matching chars in both strings.
soha nem hasznaltam.
Mindenesetre az algoritmusok nem valami olcsok, fajlok osszehasonlitasara
imho tobb okbol is alkalmatlanok.

Csak otleteles:

Ha ket file merete x%-ban elter, akkor biztos, hogy minimum x%-ban
kulonboznek :)

Ha ezen belul van, akkor lehetne f1 nehanynyor tiz bajtjat keresni
f2-ben. Ha 100 mintabol x nem talalhato meg, akkor "eleg valoszinu", hogy x%-nal nagyobb a
kulonbseg... tenyleg az alkalmazas donti el, merre fele kell elindulni, es meddig kell vizsgalni.

Ha eddig rendben vannak, akkor erdemes valami kifinomultabb modszerrel felderiteni a hasonlosagukat, pl. ugyanabban a pozicioban,
vagy ugyanannyi egymashoz kepesti tavolsagra vannak.

Csabii

Sickboy

2005-11-22 16:46:31 UTC

Post by Ke'tszeri Csaba
Hello!

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
Anno valamelyik spamfilter kapcsan lehetett hallani olyan hash
fuggvenyrol, aminek a kimenetebol lehetett kovetkeztetni ket file
hasonlosagi fokara.

Szerintem ilyen jellegu algoritmusok leginkabb specifikus tartalmu
fileokra letezhetnek. Azaz attol fugg, hogy mondjuk szoveg file-okrol
van szo, vagy mondjuk kepekrol, videokrol, stb.
Teljesen mas algoritmus kell szerintem az egyes esetekben.
Mi a konkret cel?

--
.SiCk of IT.

Dániel Vásárhelyi

2005-11-22 19:25:32 UTC

Post by Sickboy
Szerintem ilyen jellegu algoritmusok leginkabb specifikus tartalmu
fileokra letezhetnek. Azaz attol fugg, hogy mondjuk szoveg file-okrol
van szo, vagy mondjuk kepekrol, videokrol, stb.
Teljesen mas algoritmus kell szerintem az egyes esetekben.
Mi a konkret cel?

A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Ezert kene, a levelek alapja sima text.

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

KORN Andras

2005-11-22 19:29:40 UTC

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Erre szerintem nem rossz megkozelites, ha hisztogramot csinalsz a levelekben
talalhato szavakbol. A hisztogramok osszehasonlitasa ugyan szinten nem
kezenfekvo, de azert konnyebbnek erzem az eredeti feladatnal...

Guy

--
Andras Korn <korn at chardonnay.math.bme.hu>
<http://chardonnay.math.bme.hu/~korn/> QOTD:
Kornyezetvedelmi kapcsolo: freon, freoff.

Dániel Vásárhelyi

2005-11-22 19:39:25 UTC

Post by KORN Andras

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Erre szerintem nem rossz megkozelites, ha hisztogramot csinalsz a levelekben
talalhato szavakbol. A hisztogramok osszehasonlitasa ugyan szinten nem
kezenfekvo, de azert konnyebbnek erzem az eredeti feladatnal...

Jo lenne valami, mondjuk perl alatti lib, mert nem fogom tudni/akarni
lekodolni kedv/ido hianya miatt. Egyebkent ez tenyleg jo otlet :)

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

gNAT

2005-11-27 16:21:05 UTC

Heláj!

Post by KORN Andras

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Erre szerintem nem rossz megkozelites, ha hisztogramot csinalsz a
levelekben talalhato szavakbol. A hisztogramok osszehasonlitasa ugyan
szinten nem kezenfekvo, de azert konnyebbnek erzem az eredeti
feladatnal...

Én első (primitív de vlszeg gyors és könyen megírható) körben
csinálnék egy mintát a szóközök ritmusáról. Pl. az előző mondat
24926526069.... és ezt keresném a többi üzenetben.

Az rsync-nek is van valamiféle stratégiája arra, hogy megállapítsa mit
kell másolnia.

--
= = Üdv, gNAT !
{0,0}
(( )) < jabber# ***@jabber.hu > -- < icq# 280757816 >
-m-m------------------------- gnat.hu kukac gmail pont com

Skip

2005-11-27 17:08:55 UTC

Post by gNAT
Az rsync-nek is van valamiféle stratégiája arra, hogy megállapítsa mit
kell másolnia.

Utolso modositas datuma es meret? :)) Vagy checksum. man rsync

--
Udv: Skip

NAUI Course Director #36774 ---- http://www.manatus.hu
Búvártanfolyamok kezdőtől az oktatói szintekig

gNAT

2005-11-28 06:05:48 UTC

Heláj!

Post by gNAT
Az rsync-nek is van valamiféle stratégiája arra, hogy megállapítsa
mit kell másolnia.

Utolso modositas datuma es meret? :)) Vagy checksum. man rsync

Gyanítom ennél sokkal inteligensebb. Pl. ha egy .iso (ami az rsyncnek
egy nagy fájl) részben megváltozik, akkor csak a megváltozott részeket
másolja át, és ebbe még az is belefér, hogy egyes részek elcsúsznak az
álományon belül. Ezt elég nagy okosságnak tartom, tapasztaltam áldásos
hatását.

--
= = Üdv, gNAT !
{0,0}
(( )) < jabber# ***@jabber.hu > -- < icq# 280757816 >
-m-m------------------------- gnat.hu kukac gmail pont com

Dániel Vásárhelyi

2005-11-29 13:35:04 UTC

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Nem megoldas, hanem kerdes: ez miert fontos?
Azaz miert baj ha egy mintacsoportbol tobbel is megtanitanad?

Ha egy csomo spamet megetetek vele, kepes iszonyatos mereture
megnovelni az adatbazisat, es hasznalhatosagi szint _ala_ csokkenteni
a spamszuro gyorsasagat.
Ezert szeretnem kiszurni az egy kaptafara keszulo keretlen leveleket,
es csak egyet megetetni abbol abbol a sok ezer hasonlo (de nem
ugyanolyan: dear Daniel, dear Gergely, dear Andras stb) tipusbol.

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

KELEMEN Peter

2005-11-29 13:46:45 UTC

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
Ha egy csomo spamet megetetek vele, kepes iszonyatos mereture
megnovelni az adatbazisat, es hasznalhatosagi szint _ala_
csokkenteni a spamszuro gyorsasagat. Ezert szeretnem kiszurni
az egy kaptafara keszulo keretlen leveleket, es csak egyet
dear Daniel, dear Gergely, dear Andras stb) tipusbol.

“Force-feeding a Bayesian filter is never a good idea.”
Töröld az adatbázist, kezdd el tanítani a bejövő leveleken
(ez ilyen, ez olyan), majd 90% hatásfok körül már csak a
hibás döntéseit korrigáld (Training On Error, TOE). Ha pedig
nagy az adatbázis, dobd ki azokat a tokeneket, amelyek nagyon
kevésszer szerepelnek.

Fuji^

--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'

KELEMEN Peter

2005-11-29 14:17:46 UTC

Errol szol a thread: pontosan azert akarom kiszalalni a hasonlo
spameket, hogy a 100000 szo szerint veve kulonbozo, de (mivel
a spam termeszete olyan, hogy sok helyre kuldik ki viszonylag
keves valtoztatassal vagy egyaltalan nem valtoztatva) az
egymashoz hasonlo leveleket csoportba lehet bontani, es a
100.000 spam levelem kozul kivaghatok 99900 kopiat.

Pont ezt mondom, hogy ez a módszer nem jó. Nem a már
felhalmozott és ismert spameken kell tanítani a szűrőt, hanem
az éppen bejövőkön.

Fuji^

--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'

Dániel Vásárhelyi

2005-11-29 14:22:13 UTC

Post by KELEMEN Peter
Pont ezt mondom, hogy ez a módszer nem jó. Nem a már
felhalmozott és ismert spameken kell tanítani a szûrõt, hanem
az éppen bejövõkön.

Nem fogom egyenkent elolvasni azt a masodpercenkent 2-3 levelet, ami
bejon. A mostani, tulmeretezett adatbazisu (meg regen ontanulo
rendszeru) majd szepen kiosztalyozza, az utolso ket napbol kiszalalom
az egyforma leveleket, atnezem hogy jol ment-e a filter es _utana_
megetetem a bayes filterrel.

Ehhez meg mindig jo lenne a $subject.

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

Dániel Vásárhelyi

2005-11-29 14:23:08 UTC

Post by DÃ¡niel VÃ¡sÃ¡rhelyi

Post by KELEMEN Peter
Pont ezt mondom, hogy ez a módszer nem jó. Nem a már
felhalmozott és ismert spameken kell tanítani a szûrõt, hanem
az éppen bejövõkön.

Nem fogom egyenkent elolvasni azt a masodpercenkent 2-3 levelet, ami
bejon. A mostani, tulmeretezett adatbazisu (meg regen ontanulo
rendszeru) majd szepen kiosztalyozza, az utolso ket napbol kiszalalom
az egyforma leveleket, atnezem hogy jol ment-e a filter es _utana_
megetetem a bayes filterrel.

Az uj bayes filterrel, aminek az adatbazisa le fogja cserelni a regit.
Bocsi, utolag visszaolvasva nem volt egyertelmu.

asd
--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

KELEMEN Peter

2005-11-29 14:37:40 UTC

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
Az uj bayes filterrel, aminek az adatbazisa le fogja cserelni a
regit. Bocsi, utolag visszaolvasva nem volt egyertelmu.

Értem én. De nem lesz jobb hatásfoka az új adatbázisnak sem,
pont a tanítás tervezett módszeréből kifolyólag. Sorry.

Fuji^

--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'

Dániel Vásárhelyi

2005-11-29 14:58:39 UTC

Post by KELEMEN Peter

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
Az uj bayes filterrel, aminek az adatbazisa le fogja cserelni a
regit. Bocsi, utolag visszaolvasva nem volt egyertelmu.

Értem én. De nem lesz jobb hatásfoka az új adatbázisnak sem,
pont a tanítás tervezett módszerébõl kifolyólag. Sorry.

tudom, hogy mit irtal, en is a tevesztett/fel nem ismert elemekbol
akarom kesobb korrigalni a filtert, de

ad1: a mostani adatbazis akkora, hogy mindenkepp le kell cserelni
ad2: valami modon egy reprezentativ kiindulasi mintat kell krealnom az
uj bayes filternek, en egy korrigalt, kiszalalt elozo bayes kimenetre
gondoltam az elmult par napbol.

asd

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

Dániel Vásárhelyi

2005-11-29 14:05:59 UTC

"Force-feeding a Bayesian filter is never a good idea."
Töröld az adatbázist, kezdd el tanítani a bejövõ leveleken
(ez ilyen, ez olyan), majd 90% hatásfok körül már csak a

Errol szol a thread: pontosan azert akarom kiszalalni a hasonlo
spameket, hogy a 100000 szo szerint veve kulonbozo, de (mivel a spam
termeszete olyan, hogy sok helyre kuldik ki viszonylag keves
valtoztatassal vagy egyaltalan nem valtoztatva) az egymashoz hasonlo
leveleket csoportba lehet bontani, es a 100.000 spam levelem kozul
kivaghatok 99900 kopiat.

Na errol van szo kerem szepen, ide nekem azt az algoritmust, ami a
nagyjabol hasonlo szovegeket ki tudja csoportositani ;)

--
Dániel Vásárhelyi
http://www.nsfw.hu/ | http://www.tophost.hu/

SZOKOVACS Robert

2005-11-29 14:38:59 UTC

Post by KELEMEN Peter
“Force-feeding a Bayesian filter is never a good idea.”
Töröld az adatbázist, kezdd el tanítani a bejövő leveleken
(ez ilyen, ez olyan), majd 90% hatásfok körül már csak a
hibás döntéseit korrigáld (Training On Error, TOE). Ha pedig
nagy az adatbázis, dobd ki azokat a tokeneket, amelyek nagyon
kevésszer szerepelnek.

ez hogyan tortenik?

Szo

KELEMEN Peter

2005-11-29 15:19:15 UTC

Post by SZOKOVACS Robert
ez hogyan tortenik?

bogoutil -c 4 -m ~/.bogofilter/wordlist.db

Fuji^

--
.+'''+. .+'''+. .+'''+. .+'''+. .+''
Kelemen Péter / \ / \ ***@cern.ch
.+' `+...+' `+...+' `+...+' `+...+'

Sickboy

2005-11-29 13:09:11 UTC

Post by DÃ¡niel VÃ¡sÃ¡rhelyi
A konkret cel az, hogy a egy meglehetosen terjedelmes mintabol
egymastol kulonbozo uzeneteket talaljak, ezeket kiszurjem, vagy a
hasonloakat csoportositsam, es minden mintacsoportbol csak egyetlen
levellel tamogassam ala a bayes filtert.

Nem megoldas, hanem kerdes: ez miert fontos?
Azaz miert baj ha egy mintacsoportbol tobbel is megtanitanad?

--
.SiCk of IT.

21 Replies
1 View
Permalink to this page
Disable enhanced parsing

Thread Navigation

Dániel Vásárhelyi 2005-11-21 08:27:23 UTC

Fagyal Csongor 2005-11-21 13:17:57 UTC

Dániel Vásárhelyi 2005-11-21 13:23:26 UTC

Ke'tszeri Csaba 2005-11-22 15:37:16 UTC

Sickboy 2005-11-22 16:46:31 UTC

Dániel Vásárhelyi 2005-11-22 19:25:32 UTC

KORN Andras 2005-11-22 19:29:40 UTC

Dániel Vásárhelyi 2005-11-22 19:39:25 UTC

gNAT 2005-11-27 16:21:05 UTC

Skip 2005-11-27 17:08:55 UTC

gNAT 2005-11-28 06:05:48 UTC

Dániel Vásárhelyi 2005-11-29 13:35:04 UTC

KELEMEN Peter 2005-11-29 13:46:45 UTC

KELEMEN Peter 2005-11-29 14:17:46 UTC

Dániel Vásárhelyi 2005-11-29 14:22:13 UTC

Dániel Vásárhelyi 2005-11-29 14:23:08 UTC

KELEMEN Peter 2005-11-29 14:37:40 UTC

Dániel Vásárhelyi 2005-11-29 14:58:39 UTC

Dániel Vásárhelyi 2005-11-29 14:05:59 UTC

SZOKOVACS Robert 2005-11-29 14:38:59 UTC

KELEMEN Peter 2005-11-29 15:19:15 UTC

Sickboy 2005-11-29 13:09:11 UTC

about - legalese

Loading...